Тема 5. Понятие корреляции. Методы корреляции. Ключевым понятием, описывающим связи между переменными, является корреляция (от англ. correlation – согласование, связь, взаимосвязь, соотношение, взаимозависимость). Термин впервые введен Гальтоном (Galton) в 1888 г. Корреляция между парой переменных (парная корреляция). Статистики предпочитают говорить о коэффициенте парной корреляции, который изменяется в пределах от –1 до +1. Если имеется пара переменных, тогда корреляция – это мера связи (зависимости) именно между этими переменными. В зависимости от типа шкалы, в которой измерены переменные, используют различные виды коэффициентов корреляции. Если исследуется зависимость между двумя переменными, измеренными в интервальной шкале или шкале отношений, наиболее подходящим коэффициентом будет коэффициент корреляции Пирсона r (Pearson, 1896), называемый также линейной корреляцией, так как он отражает степень линейных связей между переменными. Эта корреляция наиболее популярна, поэтому часто, когда говорят о корреляции, имеют в виду именно корреляцию Пирсона. Итак, коэффициент парной корреляции изменяется в пределах от –1 до +1. Крайние значения имеют особый смысл. Значение –1 означает полную отрицательную зависимость, +1 – полную положительную зависимость, иными словами, между наблюдаемыми переменными имеется точная линейная зависимость с отрицательным или положительным коэффициентом. Значение равное 0,00 интерпретируется как отсутствие корреляции. Корреляция определяет степень, с которой значения двух переменных пропорциональны друг другу. Это можно проследить, анализируя графики, представленные на рисунке 5.1. На графике GROUP: 1 значение парного коэффициента корреляции равно 0,00; на GROUP: 2 коэффициент корреляции постепенно увеличивается и становится равным 0,33; на GROUP: 3 и GROUP: 4 он увеличивается и становится равным соответственно 0,60 и 0,90. Можно по расположению данных научиться визуально определять, насколько тесно они коррелированны. Так, на графиках GROUP: 3 и GROUP: 4 отражены примеры умеренной и высокой корреляции. Говорят, что корреляция высокая, если зависимость между переменными можно с большой точностью представить на графике прямой линией (с положительным или отрицательным наклоном). Следует обратить внимание на то, как меняется наклон прямой линии и как группируются точки вокруг этой прямой. Видно, что чем ближе коэффициент корреляции к крайнему значению ±1, тем теснее группируются данные вокруг прямой (график GROUP: 4). Картина была бы аналогичной и при отрицательных значениях корреляции, только наклон прямой, вокруг которой группируются значения переменных, был бы обратным. При значении коэффициента корреляции, равном ±1, точки точно легли бы на прямую линию, а это означало бы, что между данными имеется точная линейная зависимость. Если коэффициент корреляции равен 0,00, то отсутствует отчетливая тенденция в совместном поведении двух переменных, точки располагаются хаотически вокруг прямой линии (график GROUP: 1). Говорят, что две переменные положительно коррелированны, если при увеличении (уменьшении) значений одной переменной значения другой увеличиваются (уменьшаются). Две переменные отрицательно коррелированны, если при увеличении (уменьшении) значений одной переменной значения другой уменьшаются (увеличиваются). Важно, что коэффициент корреляции – безразмерная величина и не зависит от масштаба измерения. Например, корреляция между ростом и весом будет одной и той же независимо от того, проводились измерения в дюймах и футах или в сантиметрах и килограммах. Проведенная прямая (см. графики на рис. 5.1), вокруг которой группируются значения переменных, называется прямой регрессии, или прямой, построенной методом наименьших квадратов. Последний термин связан с тем, что сумма квадратов расстояний (вычисленная по оси Y) от наблюдаемых точек до прямой действительно является минимальной из всех возможных. Если требуется измерить связи между списками переменных, используются следующие типы корреляции: · частная – измерение зависимости и направленности связи между двумя переменными; · множественная – измерение зависимости и направленности связи между одной и совокупностью переменных; · каноническая – измерение зависимостей между двумя множествами переменных. Если вычисляется корреляция между значениями одной переменной, сдвинутыми на некоторый шаг, то говорят об автокорреляции. Нелинейные зависимости между переменными. Корреляция Пирсона r хорошо подходит для описания линейной зависимости. Отклонения от линейности увеличивают общую сумму квадратов расстояний от регрессионной прямой, даже если она представляет «истинные» и очень тесные (высокие) зависимости между переменными. Поэтому после вычисления корреляций логичным является построение диаграмм рассеяния, которые позволяют понять, действительно ли между двумя исследуемыми переменными имеется связь. Например, показанная на рисунке 5.2 высокая корреляция «плохо» описывается линейной функцией.  Однако, как видно на графике ниже (рис. 5.3), полином пятого порядка достаточно «хорошо» описывает зависимость.  Ложные корреляции. Следует иметь в виду, что существуют так называемые ложные корреляции, и это нарушает общую картину корреляционного анализа. Другими словами, если изучаемые переменные имеют высокие значения коэффициентов корреляции, то отсюда еще не следует, что между ними действительно существует причинная связь; дополнительно нужна уверенность в том, что на исследуемые переменные не влияют другие переменные. Лучше всего понять ложные корреляции на следующем примере. Очевиден тот факт, что существует корреляция между ущербом, причиненным пожаром, и числом пожарных, тушивших его. Однако эта корреляция ничего не говорит о том, насколько уменьшатся потери, если будет вызвано меньшее число пожарных. Получив высоко коррелированный результат, следует далее провести анализ и найти причину высокой корреляции: она будет заключаться в том, что имеется третья переменная (величина пожара), которая влияет как на причиненный ущерб, так и на число вызванных пожарных. Если осуществить «контроль» этой переменной (например, рассматривать только пожары определенной величины), то исходная корреляция (между ущербом и числом пожарных) либо исчезнет, либо, возможно, даже изменит свой знак. В реальной жизни проводить такие рассуждения и находить «причинные» переменные, конечно, гораздо сложнее. Основная проблема ложной корреляции состоит в том, что неизвестно, чем она вызвана. Тем не менее, если знать, в каком направлении осуществлять поиск, то можно воспользоваться частными корреляциями, чтобы контролировать влияние (частично исключенное) определенных переменных. Значимость коэффициента корреляции.Допустим, рассчитан коэффициент корреляции между двумя переменными. Очевидно, чем больше по абсолютной величине значение коэффициента, тем больше вероятность, что между переменными имеется связь. Другими словами, чем больше абсолютное значение коэффициента корреляции, тем более обоснованно опровергается гипотеза, что между переменными нет связи. Какие же именно значения значимы? Ответ на данный вопрос зависит как от величины коэффициента корреляции, так и от объема выборки, по которой он вычислен. Формально коэффициент линейной корреляции Пирсона r вычисляется следующим образом: где индекс xy при коэффициенте r означает, что корреляционная зависимость устанавливается между характеристиками х и у (порядок записи х и у не важен); xi – i-значение переменной х; – среднее арифметическое по переменной х; yi – i-значение переменной у; – среднее арифметическое по переменной у; М – количество измерений. Для определения взаимосвязи между двумя рассматриваемыми или изучаемыми характеристиками (представленными в порядковой шкале) пользуются ранговой корреляцией. Коэффициент ранговой корреляции ρ (Спирмена) рассчитывается по формуле: , (5.2) где индекс хy означает, что связь устанавливается между характеристиками х и y; – ранговые значения рассматриваемых характеристик х и y; М – число измерений. Коэффициент ранговой корреляции изменяется от –1 до 1 и содержит в себе информацию трех видов: Ø об уровне статистической значимости р; Ø о величине связи: при 0.3 £ | | < 0.5 связь слабая, при 0.5 £ | | < 0.7 связь умеренная, при | | ³ 0.7 связь сильная; Ø о направлении (знаке) связи: при < 0 связь обратно пропорциональная, а при > 0 — прямо пропорциональная. |