Что такое корреляционное поле
Парная корреляция
Парная корреляция позволяет оценить тесноту связи между двумя признаками. Для выявления корреляционной связи между двумя признаками можно построить поле корреляции.
Расположение точек на поле корреляции позволяет судить о наличии и о характере связи (нелинейная, а если линейная, то и о направлении (прямая или обратная)).
На рис. 1.1 показаны основные возможные способы расположения точек поля корреляции. Если точки поля корреляции располагаются в определенном направлении, то можно предположить наличие связи.
Рис. 1.1. Возможное расположение точек поля корреляции (х; у):
а – корреляция отсутствует; б – корреляция линейная обратная;
Пример 1.1. Изучается зависимость оценки, полученной на экзамене (у) 8 студентами, от суммы баллов (х), набранных ими в течение семестра. Данные приведены в табл. 1.1.
Номер студента | Оценка на экзамене (у) | Сумма баллов (х) |
Для построения поля корреляции в координатных осях:
— на оси Х отложим значения баллов х, набранных студентами в течение семестра;
— на оси У покажем значения оценки у, полученной на экзамене студентами;
— нанесем точки с координатами (х; у) для каждого студента.
На рис. 1.2 показано поле корреляции. Расположение точек позволяет предположить, что существует прямая линейная связь между оценкой, полученной на экзамене (у) студентами, и суммой баллов (х), полученных ими в течение семестра.
Рис. 1.2. Поле корреляции
Теснота линейной связи измеряется коэффициентом парной корреляции:
где — число наблюдений; — среднее квадратическое отклонение фактора х; — среднее квадратическое отклонение результата у. Или .
Если знаки отклонений от средних совпадают, то связь прямая ,
если знаки отклонений не совпадают, то связь обратная .
.
Чем ближе значение к единице, тем связь теснее, чем ближе значение к нулю, тем она слабее.
Характеризовать тесноту связи поможет следующая таблица:
Коэффициент корреляции | Характеристика связи |
Слабая | |
Средняя | |
Сильная или тесная |
По данным примера табл. 1.1 рассчитаем коэффициент парной корреляции между оценкой (у), полученной на экзамене студентами, и суммой баллов (х), полученных ими в течение семестра:
— вычислим средние значения признаков:
— вычислим средние квадратические отклонения признаков и ,
данные для расчета которых приведены в табл. 1.2:
— вычислим коэффициент корреляции:
Полученное значение близко к единице, что свидетельствует о тесной связи между результатом и фактором.
Величина называется коэффициентом детерминации и показывает долю вариации результативного признака под действием факторного признака. Коэффициент детерминации может быть выражен в процентах. Коэффициент детерминации принимает значения в интервале [0; 1]. Чем ближе значение к единице, тем больше вариация результативного признака обусловлена вариацией факторного признака, и наоборот.
Для нашего примера = 0,85, т.е. сумма накопленных баллов течение семестра объясняет 85% различий в оценках, получаемых на экзамене.
Что такое поле корреляции и как оно используется в эконометрике?
Поле корреляции – это поле точек, на котором каждая точка соответствует единице совокупности; ее координаты определяются значениями признаков и .
Любое эконометрическое исследование начинается со спецификации модели, т. е. с формулировки вида модели, исходя из соответствующей теории связи между переменными.
В парной регрессии выбор вида математической функции может быть осуществлен графическим методом. По характеру расположения точек на поле корреляции делают вывод о наличии или отсутствии связи, о характере связи, т. е. о виде математической функции.
Основные типы кривых, используемые при количественной оценке связей, представлены на рис.
Рис. 1. Основные типы кривых, используемые при
количественной оценке связей между двумя переменными.
Поможем написать любую работу на аналогичную тему
Что такое поле корреляции и как оно используется в эконометрике?
Что такое поле корреляции и как оно используется в эконометрике?
Что такое поле корреляции и как оно используется в эконометрике?
Что такое корреляционное поле
6. Корреляционный анализ и регрессионный анализ данных
6.1. Корреляционный анализ
Корреляционный анализ – это совокупность методов обнаружения так называемой корреляционной зависимости между случайными величинами.
Для двух случайных величин Х и Y корреляционный анализ состоит из следующих этапов:
— построение корреляционного поля и составление корреляционной таблицы;
— вычисление выборочного коэффициента корреляции;
— проверка статической гипотезы о значимости корреляционной связи.
Рассмотрим подробнее каждый из указанных этапов.
Пример 6.1. Исследование зависимости между среднемесячными доходами X на семью (в тыс. у.е.) и расходами Y на покупку кондитерских изделий (в у.е.) представлено в таблице:
Построить корреляционное поле и сделать предварительный вывод о форме зависимости случайных величин.
Решение. Корреляционное поле, построенное по статистическим данным, приведено на рис. 6.1.
При большом объеме выборки результаты группируются и представляются в виде корреляционной таблицы.
Построить корреляционную таблицу и сделать предварительный вывод о форме зависимости случайных величин.
По таблице можно видеть, что в целом для всей совокупности фирм увеличение затрат на рекламу приводит к увеличению количества туристов, пользующихся услугами фирмы. Хотя в отдельных случаях наличие такой зависимости может не усматриваться. Например, сопоставим данные по фирмам с порядковыми номерами 7 и 11. Здесь можно увидеть даже обратное соотношение: у фирмы 11 количество туристов меньше, чем у фирмы 7, хотя затраты на рекламу выше. В каждом отдельном случае количество туристов, воспользовавшихся услугами фирмы, будет зависеть не только от размера затрат фирмы на рекламу, но и от того, как сложатся прочие факторы, определяющие величину результативного признака.
Однако наличие большого числа различных значений результативного признака, соответствующих одному и тому же значению признака-фактора, затрудняет восприятие таких параллельных рядов. Особенно это сказывается при большом числе единиц, составляющих изучаемую совокупность. В таких случаях целесообразнее воспользоваться для установления факта наличия связи корреляционной таблицей. Построение корреляционной таблицы начинают с группировки значений факторного и результативного признаков. Поскольку в приводимом примере факторный признак представлен всего пятью вариантами повторяющихся значений, достаточно в первом столбце корреляционной таблицы выписать эти результаты. Для результативного признака необходимо определить величину интервала группировки. Это можно сделать с помощью формулы Стержэсса:
Данная корреляционная таблица уже при общем знакомстве дает возможность выдвинуть предположение о наличии или отсутствии связи, а также выяснить ее направление. Если частоты в корреляционной таблице расположены на диагонали из левого верхнего угла в правый нижний угол (т.е. бóльшим значениям фактора соответствуют бóльшие значения функции), то можно предположить наличие прямой корреляционной зависимости между признаками. Если же частоты расположены по диагонали из правого верхнего угла в левый нижний, то предполагают наличие обратной связи между признаками.
Для следующей группы, состоящей из пяти фирм, у которых затраты на рекламу 9 усл. ден. ед.
и т.д. (рассчитанные таким образом средние представлены в последнем столбце корреляционной таблицы).
Итак, увеличение средних значений результативного признака с увеличением значений факторного признака еще раз свидетельствует о возможном наличии прямой корреляционной зависимости числа туристов, воспользовавшихся услугами фирмы, от затрат фирмы на рекламу.
Корреляционная таблица позволяет сжато, компактно изложить материал. Поэтому все последующие расчеты можно вести по корреляционной таблице.
Выборочный коэффициент корреляции Пирсона для группированной корреляционной таблицы определяется формулой:
(6.2)
– выборочная ковариация; и – центры соответствующих интервалов группировки;
– соответствующие выборочные дисперсии.
Для выборочной ковариации справедлива формула
являющаяся аналогом формулы в теории вероятностей. Для простой (негруппированной) выборки формулы (6.2) – (6.4) упрощаются и приобретают вид:
При этом, чем ближе к 1 (или к ), тем сильнее выражена линейная зависимость между X и Y. Однако значимость такой зависимости должна быть
подкреплена проверкой гипотезы. Проверка гипотезы о наличии корреляции осуществляется следующим образом. Основная гипотеза – отсутствие линейной статистической связи ( ); альтернативной гипотезой может выступать любая из трех возможных
где обозначено – выборочный коэффициент корреляции, а объем n выборки предполагается большим (число степеней свободы равно ).
Пример 6.3. В таблице представлены результаты измерений роста Х (см) и веса Y (кг) 50 мужчин – слушателей военной академии:
Вычислить выборочный коэффициент корреляции и проверить гипотезу о значимости корреляционной связи.
По формулам группированной выборки вычисляем средние
выборочные вторые начальные моменты
Далее, используя формулы (6.2) – (6.4), получаем:
Наконец, по формуле (6.1) определяем:
Замечание. Несколько обескураживающий результат предыдущего примера( отвергнута при достаточно малом значении r) объясняется сильной зависимостью статистики Стъюдента от объема выборки n. В следующем параграфе при анализе регрессии будет показано, что линейная связь может оказаться значимой и при малых значениях коэффициента корреляции r. Однако для получения надежных выводов при использовании статистики Z следует иметь более 100 наблюдений.
Фишером было доказано, что при случайная величина V имеет приближенно нормальное распределение с независящей от r дисперсией
и математическим ожиданием
Стандартизуя V, получим подходящую статистику Фишера:
центрирование статистики V в формуле (6.8) осуществляется на эту величину.
Таким образом, при гипотеза для данного значения будет приниматься.
6.2. Регрессионный анализ
Зависимость между случайными величинами X и Y называется стохастической, если с изменением одной их них (например, Х) меняется закон распределения другой ( Y). В качестве примеров такой зависимости приведем зависимость веса человека ( Y) от его роста ( Х), предела прочности стали ( Y) от ее твердости ( Х) и т.д.
В теории вероятностей стохастическую зависимость Y от Х описывают условным математическим ожиданием:
Если – случайный вектор, распределенный по двумерному нормальному закону, то коэффициенты и определяются равенствами:
уравнением регрессии в этом случае является прямая линия
В реальных экспериментах, связанных со статической обработкой опытных данных, условный закон распределения случайной величины Y при условии обычно заранее неизвестен. В таком случае, речь может идти лишь о каком либо приближении к теоретической кривой регрессии, построенном на основе выборочных данных. Другими словами, задача заключается в подборе подходящей функциональной зависимости, наилучшим образом (в некотором статистическом смысле) приближающей стохастическую зависимость.
Во многих случаях можно считать, что «независимая» переменная Х находится под контролем экспериментатора, и может бать измерена с любой заданной точностью, в то время как измеряемые значения Y как функции от Х (выборочные значения при фиксированных ) определяются с ошибкой (содержат шум измерения). Если вид функциональной зависимости зафиксирован, то статистическую модель регрессии можно записать следующим образом:
(1)
где – набор неизвестных параметров, определяющих функциональную зависимость (параметры регрессии); – случайные величины, складывающиеся при каждом фиксированном из шума измерений и ошибки модели. При исследовании качества построения модели важно уметь разделять эти ошибки.
2
Указанный критерий минимизации суммы квадратов отклонений носит название метода наименьших квадратов (сокращенно МНК), а полученные в результате решения этой задачи оценки параметров называются МНК-оценками. Основанием для выбора критерия МНК служит следующая теорема.
Заметим, что по условию теоремы
Из этого выражения следует, что
что и требовалось доказать.
Замечание. На практике ошибки измерений часто удовлетворяют поставленным в теореме условиям в силу центральной предельной теоремы.
Регрессионный анализ проводится в три этапа.
На третьем этапе анализируют качество построения модели: проверяются так называемые корректность и адекватность модели. Этот этап осуществляется средствами проверки статистических гипотез.
Искомые оценки являются решениями следующей задачи минимизации:
Получаем следующую систему линейных алгебраических уравнений для неизвестных значений а и b:
(2)
Решение системы (2), как нетрудно убедиться, имеет вид:
где – выборочный коэффициент корреляции, и – выборочные среднеквадратические отклонения.
Уравнение линейной регрессии приобретает вид:
(3)
Заметим, что полученное уравнение аналогично теоретическому уравнению регрессии, если заметить все входящие в него вероятностные моменты соответствующими выборочными оценками в соответствии с методом подстановки.
6.3 Однофакторный дисперсионный анализ
Формулируется следующая линейная модель дисперсионного анализа:
– j-е наблюдение из i-ой подпопуляции,
– среднее i-ой подпуляции,
– генеральное (тотальное) среднее всей популяции X,
– дифференциальный эффект, определяющий различие средних.
Напомним, что для проверки этой гипотезы использовалась статистика Стъюдента W, основанная на нормированной разности выборочных средних. Фишером доказано, что при подходящей статистикой для проверки указанной гипотезы является фишеровское отношение дисперсий, сконструированных специальным образом.
Обозначим выборочное среднее i-ой выборки:
; (1)
общее среднее объединенной выборки:
;
объем объединенной выборки:
т.е. тотальное среднее равно среднему арифметическому внутригрупповых средних.
Обозначим через сумму квадратов отклонений результатов наблюдений от общего среднего
Если гипотеза верна, то не должны сильно отличаться от общего среднего , но для точного решения задачи нужна подходящая статистика. Идея ее построения основана на разбиении суммы квадратов:
,
(3)
– сумма квадратов отклонений «внутри групп»,
(4)
– сумма квадратов отклонений « внутри групп».
Покажем, как получается это разбиение. Преобразуем разность:
Возведем в квадрат:
Далее обе части равенства необходимо просуммировать сначала по k от 1 до , затем по i от 1 до l. Учтем, что согласно (1):
Выражение для этих сумм можно преобразовать к виду более удобному для вычислений:
Из этой теоремы и теоремы Фишера следует, что статистика
Пример 1. Три группы водителей обучались по различным методикам. По окончанию срока обучения был произведен тестовый контроль над случайно отобранными водителями из каждой группы. Результаты контроля сведены в следующую таблицу: