как посчитать корреляцию pandas
Для того чтобы посчитать корреляцию между двумя столбцами в pandas, можно воспользоваться методом corr()
DataFrame. Этот метод возвращает коэффициент корреляции Пирсона по умолчанию, который измеряет линейную зависимость между двумя переменными.
Пример кода:
import pandas as pd
data = {'A': [1, 2, 3, 4, 5],
'B': [2, 4, 6, 8, 10]}
df = pd.DataFrame(data)
correlation = df['A'].corr(df['B'])
print(correlation) #=> 0.9999999999999999
Если нужно посчитать корреляцию между всеми столбцами в DataFrame, можно также использовать метод corr()
без аргументов:
correlation_matrix = df.corr()
print(correlation_matrix)
Этот метод вернет таблицу корреляций между всеми парами столбцов в DataFrame
A B
A 1.0 1.0
B 1.0 1.0
Если необходимо использовать другой метод корреляции, кроме коэффициента Пирсона, можно указать его в качестве аргумента метода corr()
. Например, чтобы посчитать коэффициент корреляции Спирмена, можно сделать следующим образом:
spearman_correlation = df.corr(method='spearman')
print(spearman_correlation)
Таким образом, метод corr()
в pandas позволяет легко и быстро рассчитать корреляцию между переменными в DataFrame с возможностью выбора метода корреляции.