Дисперсия

9 дней назад

Nikolai Gagarinov

Ответы

0

Дисперсия — это одно из ключевых понятий в статистике и анализе данных, описывающее, насколько сильно значения в наборе данных отличаются друг от друга и от их среднего. Если представить себе набор измерений, например рост группы людей, то дисперсия показывает, насколько участники “разбросаны” вокруг среднего роста. Чем ближе все значения к среднему — тем меньше дисперсия; чем дальше — тем она больше.

img

Другими словами, дисперсия измеряет вариативность — степень неоднородности или изменчивости данных. Она особенно важна в тех случаях, когда одно среднее значение не даёт полной картины. Ведь два набора чисел с одинаковым средним могут быть совершенно разными по разбросу.

В статистике и машинном обучении дисперсия — это не просто вспомогательная мера, а фундаментальный инструмент для анализа неопределённости, ошибок и надежности моделей. Без нее невозможно построить доверительный интервал, протестировать гипотезу или оценить риск.

Теоретическая основа

Строгое математическое определение

Формально дисперсия случайной величины ( X ) с математическим ожиданием (E(X) = μ) определяется как:

D(X) = E[(X - μ)^2]

То есть это математическое ожидание квадрата отклонений значений от их среднего. Квадрат используется для того, чтобы все отклонения были положительными и большие отклонения сильнее влияли на итоговую оценку.

Для выборки из n наблюдений (x₁, x₂, …, xₙ) формула записывается так:

s^2 = (1 / n) * Σ (x_i - x̄)^2

где x̄ — это выборочное среднее.

Таким образом, дисперсия показывает, насколько “в среднем” квадраты отклонений точек от их среднего отличаются от нуля.

Генеральная и выборочная дисперсия

В статистике важно различать дисперсию генеральной совокупности (всех возможных данных) и выборочную (основанную на ограниченном наборе наблюдений).

  • Генеральная дисперсия — это истинная, теоретическая характеристика всей совокупности. Например, дисперсия роста всех взрослых мужчин в стране.

  • Выборочная дисперсия — вычисляется по небольшой выборке из генеральной совокупности, например, по 100 случайно выбранным людям. Её задача — максимально точно оценить неизвестную генеральную дисперсию.

Поскольку выборка ограничена и не отражает всё разнообразие, в оценку вносят поправку — появляется понятие исправленной дисперсии.

Исправленная (несмещенная) дисперсия

Если дисперсию вычислить простым делением на n, получится смещенная оценка, то есть систематически заниженная. Чтобы устранить это смещение, в знаменателе используют n - 1:

s^2 = (1 / (n - 1)) * Σ (x_i - x̄)^2

Почему именно ( n - 1 )? Потому что одно значение (среднее) уже “израсходовало” одну степень свободы. Исправленная дисперсия называется несмещенной, потому что в среднем совпадает с истинной генеральной при многократных измерениях.

Свойства дисперсии

img

  1. Неотрицательность. Дисперсия не может быть отрицательной, так как складываются квадраты отклонений. D(X) = 0 только в том случае, если все наблюдения одинаковы и разброс отсутствует.

  2. Связь с ковариацией. Дисперсия — это частный случай ковариации самой величины с собой: D(X) = Cov(X, X). Это делает ее ключевым элементом в анализе взаимосвязей переменных.

  3. Линейность и масштабируемость. Если случайную величину X умножить на константу a, то дисперсия изменится пропорционально квадрату этой константы: D(aX) = a^2 * D(X). Это свойство особенно важно при нормировке данных.

  4. Аддитивность (для независимых переменных). Если две случайные величины X и Y независимы, то D(X + Y) = D(X) + D(Y). Таким образом, общая вариативность суммы равна сумме вариативностей.

Методы расчета

Основная формула

D(X) = (1 / n) * Σ (x_i - x̄)^2

Эта формула — основа для всех вычислений и интерпретаций.

Упрощённая (вычислительная) формула

Иногда для удобства используют эквивалентную форму:

D(X) = (1 / n) * Σ x_i^2 - x̄^2

Она полезна при ручных вычислениях, особенно при больших выборках, когда сначала известны суммы квадратов и среднее значение.

Исправленная формула

s^2 = (1 / (n - 1)) * Σ (x_i - x̄)^2

Её используют, когда данные — это выборка из генеральной совокупности.

Пример расчёта

Возьмем данные: 2, 4, 4, 4, 5, 5, 7, 9.

Среднее (x̄ = 5).

Вычтем среднее: (-3, -1, -1, -1, 0, 0, 2, 4)

Возведем в квадрат: (9, 1, 1, 1, 0, 0, 4, 16).

Сумма квадратов = 32. D = 32 / 8 = 4 Исправленная дисперсия: s^2 = 32 / 7 ≈ 4.57

Это значит, что значения в среднем отклоняются от среднего квадратично на 4–4,5 единицы.

Визуализация

Чтобы “увидеть” дисперсию, её можно отобразить на графиках:

  • Гистограмма: широкий разброс столбцов показывает большую дисперсию.

  • Box-plot (ящик с усами): чем длиннее коробка и усы, тем выше вариативность.

  • Scatter plot: если точки плотно сгруппированы, дисперсия мала; если сильно рассеяны — велика.

Визуальные методы позволяют быстро понять, насколько однородны данные и есть ли выбросы.

Применение

img

В статистике

Дисперсия используется для:

  • оценки надёжности и разброса наблюдений;

  • построения доверительных интервалов;

  • проведения гипотезных тестов (F-тест, t-тест).

Она показывает, насколько данные близки к среднему, и помогает сравнивать различные выборки.

В анализе данных и машинном обучении

  • В регрессионных моделях дисперсия ошибок отражает качество модели — чем меньше разброс остатков, тем лучше модель описывает данные.

  • В дисперсионном анализе (ANOVA) сравниваются дисперсии групп, чтобы определить, есть ли статистически значимые различия.

  • В деревьях решений и ансамблях (например, Random Forest) дисперсия служит критерием для деления узлов при прогнозировании непрерывных переменных.

В прикладных областях

  • В финансах дисперсия доходностей — мера риска. Чем больше дисперсия, тем менее предсказуем актив.

  • В медицине она помогает оценивать стабильность показателей у пациентов.

  • В промышленности используется для анализа стабильности процессов, контроля качества продукции.

Связь с другими мерами разброса

Стандартное отклонение (σ).

Это квадратный корень из дисперсии:

σ = √D(X)

В отличие от дисперсии, оно выражено в тех же единицах, что и исходные данные, поэтому интерпретируется проще.

Межквартильный размах (IQR)

Разница между 75-м и 25-м перцентилем. Он показывает ширину “средней” половины данных и устойчив к выбросам.

MAD (Mean Absolute Deviation) — среднее абсолютное отклонение

MAD = (1 / n) * Σ |x_i - x̄|

Оно менее чувствительно к выбросам, чем дисперсия, и часто используется для устойчивой статистики.

Преимущества и ограничения

img

Преимущества

  • Универсальность: подходит для любых числовых данных.

  • Простота вычисления и математическая строгость.

  • Используется во множестве статистических и ML-моделей.

  • Формирует базу для доверительных интервалов и тестов.

Ограничения

  • Чувствительность к выбросам: одно экстремальное значение может сильно увеличить дисперсию.

  • Измеряется в квадратных единицах, что делает интерпретацию менее интуитивной.

  • При асимметричных распределениях или малых выборках может искажать представление о реальном разбросе.

История и терминология

Термин “дисперсия” происходит от латинского dispersio — “разброс, рассеяние”. Его впервые ввел Рональд Айльмер Фишер в 1918 году, разрабатывая методы дисперсионного анализа (ANOVA). С тех пор понятие стало центральным элементом математической статистики.

Сегодня дисперсия используется в самых разных областях — от биометрии и физики до экономики и инженерии. В экономике её аналог — волатильность, в метрологии — разброс измерений, а в физике — флуктуации.

Практические задания

  1. Рассчитайте дисперсию вручную. Возьмите 5–10 чисел, вычислите среднее, найдите отклонения и посчитайте дисперсию.

  2. Сравните две выборки. Например, сравните разброс оценок двух классов — где успеваемость стабильнее?

  3. Постройте график. Создайте гистограмму или box-plot и визуально сравните дисперсии разных наборов данных.

  4. Примените на практике. Возьмите реальные данные — температуру, курс валют, результаты эксперимента — и посчитайте дисперсию, чтобы оценить стабильность.

Заключение

Дисперсия — это не просто формула или число. Это язык, с помощью которого статистика описывает изменчивость и неопределенность. Она помогает понять, насколько надежны наши данные, как сильно они колеблются, какие тенденции скрываются внутри них.

Изучение дисперсии — фундаментальный шаг к освоению таких понятий, как стандартное отклонение, ковариация, корреляция и регрессия. Без понимания дисперсии невозможно построить устойчивую модель или корректно интерпретировать результаты экспериментов.

9 дней назад

Nikolai Gagarinov