Глава XVI. Статистические методы
Глава XVI. Статистические методы
§ 1. Потребность в статистических методах
В предыдущей главе мы обсуждали пересчет и измерение как способы уточнения наших идей о предметах. Однако в результате этих двух процессов производятся большие совокупности численных данных, и очень скоро мы можем оказаться сбитыми с толку таким изобилием. Тогда нам потребуется некоторый метод обращения с множеством численных результатов так, чтобы мы могли осознать и ясно выразить значимые отношения между исследуемыми свойствами. Метод сопутствующего изменения, будучи примененным к большим совокупностям примеров, с очевидностью требует применения статистических методов.
Нас, к примеру, может заинтересовать рост мужчин в Соединенных Штатах, поскольку мы считаем, что рост зависит от окружающей среды. Мы можем измерить рост нескольких миллионов мужчин. Однако мы не сможем сравнить несколько миллионов чисел с такой же совокупностью данных, полученных в результате исследований окружающей среды, если мы не отыщем какой-либо способ сжатия этих наборов. Мы все имеем определенные психологические ограничения и можем одновременно удерживать в сознании лишь относительно небольшое число вещей.
Физик может столкнуться со сходной сложностью в результате многочисленных измерений длины волны определенной линии солнечного спектра. Он может использовать различные методы и пробовать каждый из них по нескольку раз. Однако в общем он не получит в точности того же самого значения при каждом измерении, и, следовательно, ему придется отыскать какой-нибудь способ суммирования результатов, если он намеревается сравнить длины волн различных спектральных линий.
Несмотря на то что во многих областях измерения могут осуществляться с определенной степенью единообразия, число независимо изменяющихся факторов, тем не менее, может быть очень большим. Поэтому может оказаться крайне сложно установить постоянные отношения между ними. Однако в тех случаях, когда имеются очень большие совокупности таких данных, можно усмотреть некоторые общие тенденции. Например, повсеместно считается, что погода переменчива. Она зависит от большой группы факторов, которые не могут быть изолированы одновременно. Тем не менее, несмотря на то что погоду нельзя предсказывать с точностью, сравнение больших совокупностей метеорологических данных позволяет нам отыскать несколько полезных соотношений. Поэтому важно исследовать те способы, которые используются для сжатия и сравнения данных, полученных при перечислении и измерении. Методы, использующиеся для оценки групповых явлений посредством анализа данных, полученных в результате перечисления и измерения, составляют науку, именуемую статистикой.
Первый шаг к упрощению численных данных заключается в классификации информации под соответствующими заголовками. Природа классификации зависит от цели исследования. Очень часто таблицы частот позволяют нам получить общий обзор материала. Так, мы можем измерить рост школьников и обнаружить, что он колеблется между 2 футами 6 дюймами и 5 футами 6 дюймами. Для большинства целей не важно знать точный рост каждого ребенка с точностью более чем дюйм. Итак, мы можем установить число детей с ростом между 2 футами 6 дюймами и 2 футами 7 дюймами, ростом между 2 футами 7 дюймами и 2 футами 8 дюймами и т. д. Нельзя дать каких-либо общих указаний относительно того, какой величины должны быть выбираемые нами интервалы при построении таблиц частот.
Распределение частот между различными интервалами всегда должно выражаться суммарным образом. Для этого используются два типа статистических чисел. Один тип обозначается как среднее статистическое число. Вообще статистическое среднее обозначает то, что может быть названо «положением при распределении», т. е. численным значением, вокруг которого центрируются различные предметы. Второй тип чисел обозначается как дисперсные, или девиантные, числа. Они указывают степень изменения предметов относительно статистического среднего. Два набора предметов могут обладать общей центральной тенденцией, хотя величина отклонений (девиаций) в этих наборах может быть разной. Так, в двух наборах чисел 3, 4, 5, 6, 7 и 1, 3, 5, 7, 11 величина дисперсии (рассеивания) является разной. Другие типы статистических чисел могут также использоваться для описания распределения вокруг центра, однако мы не будем на них останавливаться.
Данный текст является ознакомительным фрагментом.