Взаимная зависимость разных данных между собой — это важная тема для всех, кто делает выводы с помощью данных и ищет инсайты. Умение найти связи между неочевидными показателями помогает ответить на ключевые вопросы из разных сфер:
- Как связаны уровень образования работника и его зарплата?
- Влияет ли курение на рост легочных заболеваний?
- Есть ли связь между размером компании и ее прибылью
Оценивать взаимозависимость можно с помощью таких способов:
- Ковариация
- Корреляция
- А/Б-тестирование
- Уравнение регрессии и подсчет бета- коэффициентов
- Кластеризация данных в машинном обучении
В этом уроке мы поговорим о ковариации и корреляции.
Ковариация
Ковариация оценивает два показателя A
и B
и анализирует, меняются ли они вместе. Ее можно обозначить двумя способами: cov(A,B)
или σ_(AB)
.
Для случайных величин X, Y
ковариация вычисляется по формуле ниже:
cov(X,Y) = E[(X - E(X)),(Y - E(Y))]
, где E
— математическое ожидание
Любая случайная величина связана с самой собой, поэтому ковариацию можно расчитать еще и так:
cov(X,X) = σₓ ^ 2
, где σ ^ 2
— это дисперсия
Корреляция
Корреляция показывает, изменяются ли два показателя вместе и насколько изменение одного показателя влияет на уровень другого
Есть три типа корреляции с разными коэффициентами:
- Положительная с коэффициентом
+1
, когда при росте уровня образования растет доход - Отрицательная с коэффициентом
-1
, когда при повышении времени тренировок снижается вес - Нулевая с коэффициентом
0
, когда рост ВВП никак не влияет на количество осадков
Помогает ли корреляция определить характер взаимной зависимости? Нет, она всего лишь показывает наличие связи между ними. Определить причинно-следственную связь между двумя переменными по корреляции не получится.
Для случайных величин X, Y
корреляция вычисляется по формуле:
p = corr(X, Y) = (cov(X,Y))/sqrt(Var(X) * Var(Y)) = (E(X * Y) - E(X) * E(Y))/sqrt(Var(X) * Var(Y))
Из определения коэффициента корреляции следует, что корреляция всегда находится в диапазоне между -1
и 1
. В виде формулы это можно записать так:
-1 <= p <= 1
, где p
— это корреляция
При этом корреляция не меняется при линейных преобразованиях величин:
corr(X,Y) = corr(a₀ + a₁ * X,b₀ + b₁ * X), a₁, b₁ != 0
Корреляция Пирсона и Спирмена
Есть еще один важный термин — это коэффициенты корреляции. Их существует два вида:
- Коэффициент Пирсона помогает работать с нормальным распределением. Он измеряет корреляцию двух непрерывных переменных — например, плотности металла и его температуры
- Коэффициент Спирмена помогает работать с данными, которые не имеют нормального распределения или представлены в ранговой шкале. Он измеряет корреляцию двух ранговых переменных — например, уровня образования и занимаемой должности
Выводы
Повторим ключевые выводы этого урока:
- Корреляция – это мера оценки степени и направления взаимосвязи между элементами
- Ковариация – это ненормированный показатель
- Есть еще один важный термин — это коэффициент корреляции (Пирсона и Спирмэна)
- Чтобы подсчитать корреляцию двух массивов данных, нужно посчитать парный коэффициент корреляции с помощью Python
Дополнительные материалы
- Противоположности притягиваются, или зачем инвестору нужна корреляция
- Strong link between education and earnings
- Ковариация (Covariation)
Для полного доступа к курсу нужен базовый план
Базовый план откроет полный доступ ко всем курсам, упражнениям и урокам Хекслета, проектам и пожизненный доступ к теории пройденных уроков. Подписку можно отменить в любой момент.