Зарегистрируйтесь, чтобы продолжить обучение

Корреляция Математика для аналитиков

Взаимная зависимость разных данных между собой — это важная тема для всех, кто делает выводы с помощью данных и ищет инсайты. Умение найти связи между неочевидными показателями помогает ответить на ключевые вопросы из разных сфер:

  • Как связаны уровень образования работника и его зарплата?
  • Влияет ли курение на рост легочных заболеваний?
  • Есть ли связь между размером компании и ее прибылью

Оценивать взаимозависимость можно с помощью таких способов:

  • Ковариация
  • Корреляция
  • А/Б-тестирование
  • Уравнение регрессии и подсчет бета- коэффициентов
  • Кластеризация данных в машинном обучении

В этом уроке мы поговорим о ковариации и корреляции.

Ковариация

Ковариация оценивает два показателя A и B и анализирует, меняются ли они вместе. Ее можно обозначить двумя способами: cov(A,B) или σ_(AB).

Для случайных величин X, Y ковариация вычисляется по формуле ниже: cov(X,Y) = E[(X - E(X)),(Y - E(Y))], где E — математическое ожидание

Любая случайная величина связана с самой собой, поэтому ковариацию можно расчитать еще и так:

cov(X,X) = σₓ ^ 2, где σ ^ 2 — это дисперсия

Корреляция

Корреляция показывает, изменяются ли два показателя вместе и насколько изменение одного показателя влияет на уровень другого

Есть три типа корреляции с разными коэффициентами:

  • Положительная с коэффициентом +1, когда при росте уровня образования растет доход
  • Отрицательная с коэффициентом -1, когда при повышении времени тренировок снижается вес
  • Нулевая с коэффициентом 0, когда рост ВВП никак не влияет на количество осадков

Помогает ли корреляция определить характер взаимной зависимости? Нет, она всего лишь показывает наличие связи между ними. Определить причинно-следственную связь между двумя переменными по корреляции не получится.

Для случайных величин X, Y корреляция вычисляется по формуле:

p = corr(X, Y) = (cov(X,Y))/sqrt(Var(X) * Var(Y)) = (E(X * Y) - E(X) * E(Y))/sqrt(Var(X) * Var(Y))

Из определения коэффициента корреляции следует, что корреляция всегда находится в диапазоне между -1 и 1. В виде формулы это можно записать так:

-1 <= p <= 1, где p — это корреляция

При этом корреляция не меняется при линейных преобразованиях величин:

corr(X,Y) = corr(a₀ + a₁ * X,b₀ + b₁ * X), a₁, b₁ != 0

Корреляция Пирсона и Спирмена

Есть еще один важный термин — это коэффициенты корреляции. Их существует два вида:

  • Коэффициент Пирсона помогает работать с нормальным распределением. Он измеряет корреляцию двух непрерывных переменных — например, плотности металла и его температуры
  • Коэффициент Спирмена помогает работать с данными, которые не имеют нормального распределения или представлены в ранговой шкале. Он измеряет корреляцию двух ранговых переменных — например, уровня образования и занимаемой должности

Выводы

Повторим ключевые выводы этого урока:

  • Корреляция – это мера оценки степени и направления взаимосвязи между элементами
  • Ковариация – это ненормированный показатель
  • Есть еще один важный термин — это коэффициент корреляции (Пирсона и Спирмэна)
  • Чтобы подсчитать корреляцию двух массивов данных, нужно посчитать парный коэффициент корреляции с помощью Python

Дополнительные материалы

  1. Противоположности притягиваются, или зачем инвестору нужна корреляция
  2. Strong link between education and earnings
  3. Ковариация (Covariation)

Для полного доступа к курсу нужен базовый план

Базовый план откроет полный доступ ко всем курсам, упражнениям и урокам Хекслета, проектам и пожизненный доступ к теории пройденных уроков. Подписку можно отменить в любой момент.

Получить доступ
1000
упражнений
2000+
часов теории
3200
тестов

Открыть доступ

Курсы программирования для новичков и опытных разработчиков. Начните обучение бесплатно

  • 130 курсов, 2000+ часов теории
  • 1000 практических заданий в браузере
  • 360 000 студентов
Отправляя форму, вы принимаете «Соглашение об обработке персональных данных» и условия «Оферты», а также соглашаетесь с «Условиями использования»

Наши выпускники работают в компаниях:

Логотип компании Альфа Банк
Логотип компании Aviasales
Логотип компании Yandex
Логотип компании Tinkoff