§ 2. Статистическое среднее
§ 2. Статистическое среднее
Каким образом выбирается число, представляющее центральную тенденцию, присущую группе качеств? Какие условия нужно наложить на статистическое среднее и какой значимостью оно обладает? Существует несколько видов средних чисел, каждое из которых обладает своими преимуществами и имеет свои ограничения. Ни одно среднее число не является подходящим для всех возможных целей, т. к. каждое применяется для определенной цели. Однако, в общем, средние числа используются по следующим причинам: 1) они требуются для сводной репрезентации какой-либо группы, 2) они используются как способы сравнения различных групп, 3) они используются для характеристики целой группы на основе взятых из нее образцов. Следовательно, существуют некоторые очевидные качества, которыми должны обладать средние числа.
1. Средние числа должны определяться настолько недвусмысленно, чтобы их численное значение не зависело от прихотей индивида, высчитывающего их.
2. Средние числа должны быть функцией всех предметов группы; в противном случае они не будут представлять то или иное распределение в его цельности.
3. Средние числа должны обладать сравнительно простой математической природой, чтобы их можно было без труда высчитывать.
4. Средние числа должны допускать проведение над ними алгебраических манипуляций. Если нам известна, к примеру, средняя высота для каждой из двух последовательностей высот, то мы на этом основании можем высчитать среднюю высоту большей последовательности, полученной в результате объединения двух исходных последовательностей.
5. Средние числа должны быть относительно стабильными. Если мы выберем из группы несколько подходящих образцов, то средние числа для разных примеров будут разными. Мы редко нуждаемся в среднем числе, в котором такие различия будут как можно меньшими.
Среднее арифметическое
Самое известное среднее число – это среднее арифметическое. Оно получается в результате сложения набора качеств и деления полученной суммы на количество членов. Если число часов сна для некоторого студента в течение недели равно 7, 6, 6, 5, 8, 7, 9, то среднее арифметическое этой суммы будет равняться 48/7, или 66/7, часа. Читатель может обратить внимание, что среднее арифметическое не равняется числу часов, которые студент просыпает в какой-либо конкретный день. Это обстоятельство с ясностью указывает на то, что средние числа представляют свойства группы и не дают никакой информации о каком-либо индивиде из группы.
Среднее арифметическое выполняет первое, второе и третье из сформулированных выше условий для средних чисел. Ниже мы увидим, что четвертое условие им также выполняется. Однако читателю не следует заблуждаться относительно кажущейся точности, якобы получаемой в результате таких арифметических манипуляций. Мы можем выразить среднее число часов, которые проспал студент, десятичной дробью и получить 6,85914 часа, или 6 часов 51 минуту и 25,7 секунды. Арифметический расчет здесь вполне точный. Однако неверно считать, что данный результат говорит о том, что время, проведенное во сне, в точности соответствует среднему арифметическому. Студент мог сообщить о времени, проведенном во сне, лишь приблизительно с точностью до часа. Он вполне мог бы посчитать 6 часов 15 минут реального времени сна как просто 6 часов. Следовательно, нам следует признать, что точность вычисления в приведенном примере будет кажущейся, если исходные наблюдения не были проведены с такой же долей точности.
Является ли среднее арифметическое удовлетворительной основой для сравнения двух групп? Если средний доход некоторой общины равен $1500, а другой – $1100, то правильно ли на основании этого умозаключать, что члены первой общины состоятельнее членов второй? Нижеследующий пример призван показать, что подобное умозаключение может оказаться ложным, если среднему арифметическому не сопутствует дополнительная информация. Предположим, что в некотором классе студенты имеют в кармане следующие суммы денег: 8 студентов имеют по 50 центов, 4 – по 75 центов, 2 – по $1,50, 1 имеет $11 и 1 имеет $27. Среднее арифметическое для всего класса равняется $3. Предположим также, что в другом классе 9 студентов имеет по 1 доллару, 4 – по $1,50, 1 студент имеет $2 и 1 – $3. Среднее арифметическое для всего класса равняется $1,662/з. Несмотря на то что среднее арифметическое первого класса выше, в нем у 12 студентов (т. е. у 2/з всего класса) меньше денег, чем у любого студента из второго класса. Если мы проанализируем способ высчитывания среднего арифметического, то мы поймем, почему оно так часто является ненадежной основой для сравнений. Дело в том, что значение среднего арифметического подвержено серьезному влиянию сильных изменений в значениях отдельных членов рассматриваемого множества. В приведенном примере наличие в группе относительно небольшого числа очень богатых студентов может существенно повысить среднее арифметическое. Иными словами, две группы могут обладать одним и тем же средним арифметическим, но область изменения внутри этих групп может быть очень разной. Среднее арифметическое не сообщает ничего относительно однородности группы. Поэтому в статистике также требуется и измерение дисперсии.
Несмотря на этот недостаток, среднее арифметическое является важным средним числом в силу его математических свойств и простоты получения. Над ним можно проводить алгебраические манипуляции. Так, предположим, что некий студент получает в течение года следующие оценки по некоторому предмету: 80, 75, 95, 60, 70; среднее арифметическое равняется 74. Во второй год он получает 80, 70, 60, 75, 65, и среднее арифметическое равно 70. Каково среднее арифметическое его оценок за два года? Мы можем сложить десять полученных оценок и разделить результат на 10. Но мы также можем сложить и два средних арифметических и разделить их на 2. В результате мы получим среднюю оценку за два года, равную 72. Данное алгебраическое свойство среднего арифметического очень удобно.
Среднее арифметическое также связано с математической теорией вероятности. Предположим, некий химик проводит несколько сотен измерений веса кислорода. Каждое измерение дает разный результат. Каково «истинное значение» веса кислорода? Если мы примем ряд допущений о том, каким способом могут изменяться значения измерений, например, если мы допустим, что все измерения были проведены с одинаковой точностью, то наиболее вероятное значение веса кислорода будет представлять именно среднее арифметическое.
Среднее взвешенное
Во многих примерах использование среднего арифметического не поможет. Так, преподаватель может разделить на две части работу, рассчитанную на семестр. Он может вызывать некоторого студента к доске пять раз в течение первой половины семестра и поставить ему следующие оценки: 10, 9, 8, 10, 8. Во второй половине семестра он может вызвать его всего лишь дважды и поставить ему 0 и 4. Теперь предположим, что преподавателю нужно высчитать итоговую оценку, и для этого он высчитывает среднее арифметическое за первую половину семестра, которое равно 9, среднее арифметическое за вторую половину семестра, равное 2, а затем находит среднее арифметическое для двух половин. Итоговая оценка студента в таком случае будет равняться 5,5. Справедливо ли это? Если предположить, что работа, проделанная в первой половине семестра, является такой же важной и сложной, как работа, проделанная во второй половине, то студент будет прав, если посчитает такую оценку несправедливой. Он сможет требовать, чтобы средние оценки за каждую половину семестра взвешивались соответственно тому количеству раз, которые он выходил к доске. Тогда истинная итоговая оценка будет высчитываться следующим образом:
и тогда она будет удовлетворительной. Числа 5 и 2, на которые умножаются средние арифметические, называются весами.
Однако очевидно, что в данном примере использование весов не было необходимым, поскольку студент мог высчитать итоговую оценку, отыскав среднее арифметическое всех полученных оценок. В подобных примерах взвешивание используется только из соображений арифметического удобства. Более показательным применением среднего взвешенного будет установление изменения прожиточного минимума на протяжении периода в несколько лет. Рассмотрим несколько абсурдный пример. Предположим, что для следующих 5 пунктов цена в 1910 году была номинальной или равной 100, а в 1920 году пшеница стоила 120, говядина – 110, железо – 105, ювелирные изделия – 50, средство для волос – 40. Среднее арифметическое этих предметов для 1920 года равнялось 85. Мы не можем заключить, что прожиточный минимум снизился, поскольку перечисленные предметы обычно не рассматриваются как равнозначные. Поэтому мы можем приписать им различные веса для обозначения того, что мы понимаем под относительной важностью. Предположим, мы решим, что следующие числа означают важность указанных пунктов в том порядке, в котором они были перечислены: 10, 9, 7, 2, 1. Среднее взвешенное высчитывается следующим образом:
и будет равняться 105,7, что указывает на рост уровня прожиточного минимума. Определение весов в подобных случаях – крайне сложная задача; в их установление с неизбежностью включается случайный элемент. Относительная важность является несуммируемым свойством, и если нам удастся расставить предметы в порядке их относительной важности (что само по себе непросто), то приписывание числовых значений тем или иным пунктам осуществляется исключительно под влиянием конвенциональных и субъективных факторов. Однако при использовании различных систем придания весов среднее взвешенное все равно изменяется лишь незначительно, если, конечно, мы не имеем дела с какой-то необычной системой установления весов. Мода
Moda – это предмет группы, встречающийся наиболее часто. Поэтому мода нередко считается «типичным» представителем группы. Когда говорят о среднестатистическом человеке, указывают именно на такого, который является модой. По количеству денег в кармане студентов из примера на с. 416 модой будет 50 центов.
Каковы отличительные преимущества моды? Как и все средние показатели, она представляет распределение свойств внутри группы. Однако она также может представлять природу группы даже лучше, чем среднее арифметическое, поскольку она указывает на самую большую подгруппу некоторой совокупности и, таким образом, указывает на то, какое свойство будет встречаться наиболее часто. Когда офицер, ответственный за снабжение полка, заказывает форму, он исходит из измерений, являющихся модой для роста и талии людей, которые будут эту форму носить. Значение моды не подвержено влиянию резких флуктуаций внутри группы и поэтому может служить справедливой основой для сравнения различных групп. Если природа совокупности определяется через верно сделанную выборку, то использование моды может быть более результативным, чем использование среднего арифметического, поскольку мода является более стабильным средним показателем.
Однако мода не выполняет большинства условий, сформулированных нами для средних показателей (см. с. 412–415). Во-первых, мода недвусмысленно определяется как наиболее часто присутствующий предмет, а положение наиболее частого присутствия может изменяться в зависимости от типа классификации предметов данной группы. Так, предположим, что при рассмотрении успеваемости 47 студентов оценки распределились следующим образом:
Мода находится между 60 и 80, т. е. является больше 60 и меньше или равной 80. Однако интервалы могли бы быть выбраны и иначе. Предположим, что классификация была следующей:
Теперь мода находится между 70 и 90, т. е. больше 70 и меньше или равна 90. Если бы порог удовлетворительной оценки был бы ниже, чем интервал моды, то большее число студентов не получило бы моду при втором методе, чем при первом.
Очень часто бывает так, что в группе нет какого-либо единственного хорошо определенного типа. Это может произойти либо потому, что частота, с которой присутствуют те или иные предметы, примерно одна и та же, либо потому, что в данной группе можно усмотреть несколько различных частотных тенденций. Например, если мы изучаем статистику зарплат, то мы можем отыскать два или более перечня ставок зарплаты, имеющих относительно высокую частоту. В подобных случаях мы не можем говорить о какой-либо единственной моде. Существование нескольких «тенденций» (peaks) в распределении зарплаты указывает на отсутствие однородности в исследуемой группе. Может случиться и так, что будут иметь место несколько различных видов оценки труда, для каждого из которых будет существовать своя мода; однако когда эти различные виды объединяются, то распределение зарплат проявит несколько тенденций.
Более того, мода может оказаться не типичной, даже если она, действительно, соответствует наиболее часто присутствующему предмету в группе. Так, допустим, что в некой общине доход ее членов существенно разнится. Может случиться так, что двенадцать человек получают $1500, тогда как зарплата всех остальных членов, исчисляемых несколькими сотнями, не совпадает ни для кого из них. Тогда зарплата в $1500 будет модой, но при этом вовсе не будет типичной.
Нам следует также отметить, что мода не является функцией всех членов группы, т. к. элиминация нескольких членов может никак не отразиться на моде. Несмотря на то что зачастую данное свойство является преимуществом, тем не менее случается и так, что требуется значение, которое будет зависеть от значений всех членов группы. Более того, не существует какого-либо простого арифметического процесса, описывающего вычисление моды, поэтому на практике детерминация моды зачастую оказывается сложной и неточной. Наконец, мода составной группы не может высчитываться на основании мод тех групп, которые составляют общую группу. Для теоретических исследований данное свойство представляет серьезный недостаток. Главное же достоинство моды заключается в ее относительной стабильности при повторяющихся выборках. Однако данное преимущество является несущественным, когда о группе известно, что она является однородной. Поэтому в таких случаях применяются другие средние показатели.
Медиана
Медиана – это средний термин в последовательности терминов, расставленных по мере их увеличения. Из сказанного следует, что нечетная совокупность предметов всегда будет обладать медианой. Медианой чисел 3, 4, 4, 5, 5, 5, 6 является число 5. Когда же число членов является четным, то медиана обычно определяется как среднее арифметическое двух средних терминов. Медианой группы 40, 50, 50, 60, 70, 90 является 55. Таким образом, медиана – это тот термин в некоторой последовательности терминов, упорядоченных по мере увеличения, которому предшествует столько же терминов, сколько и следует после.
В отличие от среднего арифметического, медиана не подвержена сильному влиянию значительных флуктуаций внутри группы. Поэтому она является относительно стабильным средним показателем и может использоваться для сравнения упорядоченных групп относительно положения их среднего термина. А, в отличие от моды, медиана может определяться с точностью и без труда. Однако медиана, в основном, используется в тех областях, где теоретические или систематические соображения обладают наименьшей значимостью. У нее нет алгебраических свойств, которые позволяли бы высчитывать медиану для некоторой группы на основании медиан составляющих ее подгрупп. Она получила популярность в измерениях в области социологии и психологии, поскольку в этих областях не всегда возможно осуществить фундаментальные измерения, но зато довольно часто можно установить порядок последовательности или шкалу свойств. Это объясняется тем, что медиана определяется по положению соответствующего термина в данной последовательности, а не в силу суммируемых свойств всех терминов. Таким образом, среднее арифметическое IQ некоторой группы детей ничего не говорит об этой группе и совершенно бесполезно для определения уровня интеллекта группы в целом. Однако медиана может использоваться в таких случаях в качестве основы для сравнения; возможность расположения детей по мере увеличения их способностей представляет достаточную значимость. Таким образом, если медианой IQ одного класса является число 95, а другого класса – 105, то при обычных условиях мы можем сказать, что во втором классе больше детей, способных соответствовать некоторому специальному стандарту, чем в первом.
Иногда считается, что числа, большие и меньшие, чем медиана, встречаются в группе с одинаковой частотой. Это не всегда так, особенно в тех случаях, где исследуемые свойства не представляют непрерывной последовательности. Таким образом, когда было рассмотрено 337 лютиков на предмет количества находящихся на них лепестков, было обнаружено, что 312 из них имеют 5 лепестков, 17—6 лепестков, 4–7, 2–8 и 2–9 лепестков. Медиана равнялась 5. Однако очевидно, что количество членов группы, содержащей по 5 лепестков, не равно количеству членов группы, содержащей большее количество лепестков.
Данный текст является ознакомительным фрагментом.