Корреляционный анализ - математико-статистический метод выявления взаимозависимости компонент многомерной случайной величины и оценки тесноты их связи. К. Пирсон и Дж. Юл разработали корреляционный анализ, который по их мнению должен ответить на вопрос о том, как выбрать с учетом специфики и природы анализируемых переменных подходящий измеритель статистической связи (коэффициент корреляции, корреляционное отношение, и т.д.), решить задачу, как оценить его числовые значения по уже имеющимся выборочным данным. Корреляционный анализ поможет: найти методы проверки того, что полученное числовое значение анализируемого измерителя связи действительно свидетельствует о наличии статистической связи; определить структуру связей между исследуемыми k признаками х 1, х 2,…, сопоставив каждой паре признаков ответ («связь есть» или «связи нет»). Парный коэффициент корреляции – основной показатель взаимозависимости двух случайных величин, служит мерой линейной статистической зависимости между двумя величинами., он соответствует своему прямому назначению, когда статистическая связь между соответствующими признаками в генеральной совокупности линейна. То же самое относится к частным и множественным коэффициентам корреляции. Парный коэффициент корреляции, характеризует тесноту связи между случайными величинами х и у, определяется по формуле:  Если р = 0, то между величинами х и у линейная связь отсутствует и они называются некоррелированными .Коэффициент корреляции, определяемый по вышеуказанной формуле, относится к генеральной совокупности. Частный коэффициент корреляции характеризует степень линейной зависимости между двумя величинами, обладает всеми свойствами парного, т.е. изменяется в пределах от -1 до +1. Если частный коэффициент корреляции равен ±1, то связь между двумя величинами функциональная, а равенство его нулю свидетельствует о линейной независимости этих величин. 28. Точечная и интервальная оценки коэффициента корреляции, проверка его значимости в корреляционном анализ. При построении доверительного интервала для неизвестного коэффициента корреляции используется специальная функция - -преобразование Фишера (гиперболический арктангенс) выборочного коэффициента корреляции r: . - возрастающая нечетная функция: z(-r) = -z(r). Распределение вероятностей значений приближается (тем более точно, чем больше объем выборки n) нормальным распределением вероятностей с параметрами: и . Статистика имеет асимптотическое стандартное нормальное распределение . Асимптотически точный доверительный интервал надежности для нормированного отклонения z: , где - квантиль уровня распределения , т.е. корень уравнения . Доверительный интервал для математического ожидания : . Величиной в выражении можно пренебречь, принимая во внимание, что она при есть бесконечно малая более высокого порядка в сравнении с . Доверительный интервал для гиперболического арктангенса коэффициента корреляции : . Решение относительно данного двойного неравенства приводит к искомому доверительному интервалу для коэффициента корреляции: , с границами, определяемыми как значения гиперболического тангенса для значений , равных соответственно и . Функция задает преобразование, обратное -преобразованию Фишера. Следовательно, . 29. Определение оценок параметров b0 и b1 двумерной линейной модели регрессии с помощью метода наименьших квадратов.Оценивание неизвестных коэффициентов модели регрессии методом наименьших квадратов. Теорема Гаусса – Маркова Определение коэффициентов модели регрессии осуществляется на третьем этапе схемы построения эконометрической модели. В результате этой процедуры рассчитываются оценки (приближенные значения) неизвестных коэффициентов спецификации модели. Спецификация линейной эконометрической модели из изолированного уравнения с гомоскедастичными возмущениями имеет вид:  Рассмотрим метод наименьших квадратов на примере оценивания эконометрических моделей в виде моделей парной регрессии (изолированных уравнений с двумя переменными). Если уравнение модели содержит две экономические переменные – эндогенную yiи предопределенную xi, то модель имеет вид:  Данная модель называется моделью линейной парной регрессии и содержит три неизвестных параметра: β0 , β1 , σ. (3) Предположим, что имеется выборка: (х1, y1), (х2, y2),… (хn , yn) (4) Тогда в рамках исследуемой модели данные величины связаны следующим образом: y1 = a0 + a1 * x1 + u1, y2 = a0 + a1 * x2 + u2, (5) … yn= a0 + a1 * x n + u n. Данная система называется системой уравнений наблюдения объекта в рамках исследуемой линейной модели или схемой Гаусса-Маркова. Компактная запись схемы Гаусса-Маркова:  где  – вектор-столбец известных значений эндогенной переменной yiмодели регрессии;  – вектор-столбец неизвестных значений случайных возмущений εi;  – матрица известных значений предопределенной переменной xi модели; β = (β0 β1 )Т (10) – вектор неизвестных коэффициентов модели регрессии. Обозначим оценку вектора неизвестных коэффициентов модели регрессии как  Данная оценка вычисляется на основании выборочных данных (7) и (9) с помощью некоторой процедуры:  где P (X, ỹ) – символ процедуры. Процедура (12) называется линейной относительно вектора (7) значений эндогенной переменной yi, если выполняется условие:  где  (14) – матрица коэффициентов, зависящих только от выборочных значений (9) предопределенной переменной хi. Теорема Гаусса-Маркова. Пусть матрица Х коэффициентов уравнений наблюдений (6) имеет полный ранг, а случайные возмущения (8) удовлетворяют четырем условиям: E(ε1) = E(ε2) = … = E(εn) = 0, (15) Var(ε1) = Var(ε2) = … = Var(εn) = σ2(16) Cov(εi, εj) = 0 при i≠j(17) Cov(xi,εj) = 0 при всех значениях i и j (18) В этом случае справедливы следующие утверждения: а) наилучшая линейная процедура (13), приводящая к несмещенной и эффективной оценке (11), имеет вид:  б) линейная несмещенная эффективная оценка (19) обладает свойством наименьших квадратов:  в) ковариационная матрица оценки (19) вычисляется по правилу:  г) несмещенная оценка параметра σ2 модели (2) находится по формуле:  Следствие теоремы Гаусса-Маркова. Оценка  доставляемая процедурой (19) метода наименьших квадратов, может быть вычислена в процессе решения системы двух линейных алгебраических уравнений:  Данная система называется системой нормальных уравнений. Ее коэффициенты и свободные члены определяются по правилам: [x] = x1 + x2 +…+ xn, [y] = y1 + y2 +…+ yn, (24) x2] = x12 + x22 +…+ xn2, [xy] = x1*y1 + x2*y2 + … + xn*yn. Явный вид решения системы (23):  30 Проверка значимости и интервальное оценивание коэффициента регрессии b1 в регрессионном анализе. Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотезы Н0: βj = 0, где j = 1, 2, ..., k, используют t-критерий и вычисляют tнабл(bj) = bj / bj. По таблице t-распределения для заданного α и v = п - k - 1 находят tкр. Гипотеза H0 отвергается с вероятностью α, если tнабл > tкр. Из этого следует, что соответствующий коэффициент регрессии βj значим, т.е. βj ≠ 0. В противном случае коэффициент регрессии незначим и соответствующая переменная в модель не включается. Тогда реализуется алгоритм пошагового регрессионного анализа, состоящий в том, что исключается одна из незначительных переменных, которой соответствует минимальное по абсолютной величине значение tнабл. После этого вновь проводят регрессионный анализ с числом факторов, уменьшенным на единицу. Алгоритм заканчивается получением уравнения регрессии со значимыми коэффициентами. Существуют и другие алгоритмы пошагового регрессионного анализа, например с последовательным включением факторов. Наряду с точечными оценками bj генеральных коэффициентов регрессии βj регрессионный анализ позволяет получать и интервальные оценки последних с доверительной вероятностью γ. Интервальная оценка с доверительной вероятностью γ для параметра βj имеет вид (53.19) где tα находят по таблице t-распределения при вероятности α = 1 - γ и числе степеней свободы v = п - k - 1. Интервальная оценка для уравнения регрессии в точке, определяемой вектором-столбцом начальных условий X0 = (1, x , x ,,..., x )T записывается в виде (53.20) Интервал предсказания n+1 с доверительной вероятностью у определяется как (53.21) где tα определяется по таблице t-распределения при α = 1 - γ и числе степеней свободы v = п - k - 1. По мере удаления вектора начальных условий х0 от вектора средних ширина доверительного интервала при заданном значении γ будет увеличиваться (рис. 53.2), где = (1, ). 30.  Рис. 53.2. Точечная и интервальная оценки уравнения регрессии . |