Корреляция и коэффициент корреляции, корреляционная зависимость

Общий обзор

Корреляционный анализ занимается степенью связи между двумя переменными, x и y.

Сначала предполагаем, что как x, так и y количественные, например рост и масса тела. Предположим, пара величин (x, у) измерена у каждого из n объектов в выборке.

Мы можем отметить точку, соответствующую паре величин каждого объекта, на двумерном графике рассеяния точек.

Обычно на графике переменную x располагают на горизонтальной оси, а у — на вертикальной. Размещая точки для всех n объектов, получают график рассеяния точек, который говорит о соотношении между этими двумя переменными.

Видео

Ложные корреляции

Дело в том, что с помощью коэффициента корреляции можно проверить на взаимосвязь любые явления, которые можно выразить в числовом выражении. То есть, реально любые — например количество свадеб в Нью-Йорке и объем импорта нефти в США из Норвегии:

tylervigen.com — если знаете английский, смо
tylervigen.com — если знаете английский, сможете отыскать на сайте еще больше странных корреляций

Корреляция составила 86%! Действительно ли свадьбы влияют на экспорт нефти? Разумеется, нет — подобная зависимость совершенно случайна. Именно так выглядит ловушка ложной корреляции — она может показать взаимосвязь там, где её на самом деле нет.

↑ К СОДЕРЖАНИЮ ↑

Реальные причины корреляции и возможные гипотезы

Курс доллара и стоимость нефти отрицательно коррелируют. Можем выдвинуть гипотезу: повышение цен на черное золото вызывает падение стоимости американской валюты. Но почему так происходит? Откуда взялась связь между этими явлениями?

Определение причины корреляции – это очень сложная задача. Переплетаются тысячи различных факторов, часть из которых скрыта.

Возможно, дело в том, что США – крупнейший потребитель нефти в мире. Каждый день они импортируют около 7,2 миллиона баррелей. Снижение цены на черное золото – хорошо для американской экономики, ведь позволяет тратить меньше денег. Следовательно, доллар растет.

Корреляция предоставляет возможность сделать вывод

Корреляция предоставляет возможность сделать вывод из статистических данных.

Например, мы выяснили, что существует отрицательная взаимосвязь между доходом персонала и его эффективностью в работе. Наша гипотеза: «Лентяи и бездельники получают больше, чем ответственные сотрудники». Тогда мы пересмотрим систему мотивации и избавимся от бесполезных людей.

Гипотеза – это лишь статистический вывод, предположение. Она вполне может оказаться ошибочной.

Согласно статистике, чем больше пожарных участвует в тушении огня, тем существенней размер ущерба. Какую гипотезу можем сделать отсюда? Пожарные приносят вред, давайте сократим их! Но если разобраться, то настоящая причина повреждения – это огонь. А увеличение числа лиц, задействованных в его тушении, – следствие масштаба пожара.

Наша вселенная бесконечна, а значит всегда можно найти несколько переменных, которые будут коррелировать между собой, несмотря на полное отсутствие причинно-следственных связей. Даже самое буйное воображение не сможет объяснить, что объединяет сыр и одеяло-убийцу:

Более подробно на эту тему смотрите в видео:

Более подробно на эту тему смотрите в видео:

Расчет ρ

Ковариация  двух переменных в вопросе должны быть рассчитаны, прежде чем корреляция может быть определена. Затем требуется стандартное отклонение каждой переменной . Коэффициент корреляции определяется делением ковариации на произведение стандартных отклонений двух переменных.

Стандартное отклонение – это мера  разброса  данных от среднего значения. Ковариация – это мера того, как две переменные изменяются вместе. Однако его масштабы безграничны, поэтому его трудно интерпретировать. Нормализованная версия статистики вычисляется путем деления ковариации на произведение двух стандартных отклонений. Это коэффициент корреляции.

Корреляция — это взаимосвязь без гарантий

Рассмотрим пример прямой корреляции: чем выше уровень благосостояния человека, тем больше его продолжительность жизни. Обеспеченные люди питаются качественной пищей и своевременно получают врачебную помощь. В отличие от бедняков.

Однако нельзя с уверенностью сказать, что определенный олигарх проживет дольше вот этого нищего.

Это лишь статистическая вероятность, которая может не сработать для одного конкретного случая. Этим корреляция отличается от линейной зависимости, где исход известен со 100-процентной вероятностью.

Но если мы возьмем выборку из сотни тысяч богачей и такого же числа малоимущих, сравним их продолжительность жизни, то общая тенденция будет верна.

Суть

Коэффициент линейной корреляции может быть полезен при определении взаимосвязи между инвестициями и рынком в целом или другими ценными бумагами. Его часто используют для прогнозирования доходности фондового рынка. Это статистическое измерение полезно во многих отношениях, особенно в финансовой отрасли. Например, это может быть полезно для определения того, насколько хорошо взаимный фонд ведет себя по сравнению с его  эталонным  индексом, или его можно использовать для определения того, как взаимный фонд ведет себя по отношению к другому фонду или  классу активов. Добавляя взаимный фонд с низкой или отрицательной корреляцией к существующему портфелю, можно получить преимущества диверсификации.

Теги

Adblock
detector