§ 4. Измерение корреляции

We use cookies. Read the Privacy and Cookie Policy

§ 4. Измерение корреляции

Целью всех научных исследований является отыскание значимых отношений внутри изучаемой предметной области. Цель же статистических исследований заключается в том, чтобы облегчить процесс данного открытия и дать возможность выразить отношения между различными группами признаков. Мы собираем статистические данные относительно вопросов, связанных с жизнью, для того чтобы сравнивать такие вещи, как рождаемость, смертность, бедность и т. д., за два различных года. Мы собираем данные о числе несчастных случаев и количестве часов нахождения на рабочем месте на нескольких промышленных предприятиях для того, чтобы установить отношение (если таковое имеется) между этими двумя наборами явлений. Это делается для того, чтобы установить, связаны ли эти обстоятельства причинно-следственной связью или же являются частично или полностью независимыми друг от друга.

Мы уже рассмотрели средние показатели и меры дисперсии, которые обусловливают возможность более или менее точного сравнения групп. Для многих целей рассмотренные статистические числа – это все, что нам нужно. Так, мы можем сравнить доход некоторой общины на протяжении различных лет, используя один из средних показателей и измерения разброса. Иногда становятся полезными процентные отношения. Росла ли численность населения Германии быстрее, чем численность населения Франции между 1900-м и 1910 г.? Увеличение численности населения в процентах в большинстве случаев будет служить мерой такого роста. Существует ли отношение между орлиной формой носа и еврейским происхождением? Недвусмысленный ответ на этот вопрос был получен из данных, согласно которым в достаточно представительных выборках евреев лишь 14 % обладало «характерным еврейским носом».

Однако бывают ситуации, когда никакой из рассмотренных статистических методов не является удовлетворительным. Предположим, мы исследовали несколько сотен листьев с деревьев на предмет соответствия их длины и ширины. Существует ли связь между длиной и шириной листа? На основании наших общих впечатлений мы можем сформировать убеждение о том, что чем длиннее лист, тем он и шире. Однако когда нам приходится рассмотреть множество листьев, то мы уже не можем опираться на поверхностные впечатления, поскольку мы не можем ни запомнить все рассмотренные листы, ни установить между ними значимые отношения. В таком случае мы можем попробовать разложить листья в порядке увеличения их длины, для того чтобы посмотреть, увеличивается ли при этом их ширина. Если две последовательности совпадают, то мы, без сомнения, сможем заключить, что существует определенное отношение между длиной и шириной листа. Если две последовательности совпадают не полностью, а лишь частично, то мы все равно можем подозревать наличие некоторого отношения. Однако нам потребуется некоторая численная мера для соотнесения длин и ширин листьев. Считается, что переменные являются коррелированными, если в последовательности соответствующих примеров этих переменных увеличению или уменьшению в значениях одной из них сопутствует увеличение или уменьшение в значениях другой, будь то в едином направлении или в разных направлениях. Когда значения переменных изменяются в одном направлении (вместе увеличиваются или вместе уменьшаются), корреляция является положительной; когда значения переменных изменяются в противоположных направлениях (одни увеличиваются, а другие уменьшаются), то корреляция является отрицательной.

Существует несколько видов измерения корреляции. Мы рассмотрим только один такой вид, называемый коэффициентом Пирсона. Однако мы не будем рассматривать способ получения этого коэффициента, в силу того что используемый для этих целей аргумент является техническим. Мы просто приведем его определение и продемонстрируем, как он используется. Пусть h1, h2… hn будут значениями переменной h, a w1, w2… wn будут соответствующими значениями переменной w. Это означает, что когда h стоит в значении hlf w стоит в значении и т. д. Далее пусть х1, х2… хn представляют отклонения значений первой переменной от среднего арифметического в n примерах, а у1, у2…уn представляют соответствующие отклонения значений второй переменной. Символы ?х и ?y будут, как обычно, представлять стандартное отклонение для двух последовательностей. В таком случае коэффициент Пирсона будет обозначаться как

где ?(ху) обозначает сумму всех произведений соответствующих отклонений, и данная формула читается так: среднее арифметическое произведений отклонений, деленное на произведение двух стандартных отклонений.

Высчитаем данный коэффициент для определения меры корреляции между возрастами мужей и жен в группе из двадцати пар. Таблица на с. 429 представляет необходимую информацию. Следовательно,

Коэффициент Пирсона построен таким образом, что его численное значение положительно, когда корреляция положительна, и отрицательно, когда корреляция отрицательна. Более того, его значение всегда лежит между +1 и -1, где «+ 1» обозначает прямолинейную положительную корреляцию, а «-1» – прямолинейную отрицательную корреляцию. Коэффициент 0 указывает на отсутствие корреляции; в таком случае на основании имеющегося знания о том, как происходят изменения значений одной переменной, мы не можем ничего вывести о том, как происходят изменения значений второй переменной.

Данный текст является ознакомительным фрагментом.