Зарегистрируйтесь, чтобы продолжить обучение

Методы работы с вероятностью Математика для аналитиков

О методах работы с вероятностью будет полезно знать всем, кто составляет прогнозы на будущее:

  • Статистикам и аналитикам, которые интерпретируют данные от бизнеса
  • Инженерам и физикам, которые создают и тестируют различные системы и устройства с помощью вероятностных моделей
  • Медикам и биологам, которые оценивают риск осложнений и эффективность лечения с помощью вероятности и доверительных интервалов

Зачем аналитикам разбираться в методах работы с вероятностью:

  • Теория вероятностей помогает оценивать вероятность покупки на основе прошлого поведения клиента и других факторов
  • Математическое ожидание помогает определить ожидаемую стоимость или доходность инвестиций в определенный актив
  • Доверительные интервалы помогают соотнести выборку с реальностью

Случайное событие

Случайное событие — это такое возможное событие, исход которого мы не можем предсказать со стопроцентной уверенностью.

Для примера возьмем кубик с шестью гранями. При броске может выпасть грань с цифрой 3, но мы не знаем наверняка, когда это произойдет. Поэтому нам приходится описывать это событие через вероятность: при броске шестигранного кубика тройка выпадет с вероятностью 1/6.

Вероятность и цена исхода

Вероятность – это соотношение между всеми случаями и теми, в которых происходит интересующее нас событие. Например, если мы подбрасываем монетку, то общее количество исходов равно двум — она может упасть либо орлом, либо решкой. Если мы загадали орла, то количество благоприятных исходов равно 1, а вероятность составляет 1/2 (то есть 50% или 0,5).

Вероятность увидеть орла при броске монеты еще можно назвать ценой исхода. Чем выше цена исхода, тем больше вероятность конкретного события. Цену исхода можно представить в виде математического ожидания.

Математическое ожидание

Математическое ожидание E(X) — это наиболее типичный исход события, то есть среднее значение случайной величины. Чтобы посчитать математическое ожидание, нужно сложить все произведения случайной величины на вероятность встретить это значение в реальности:

E(X) = ∑(xᵢ * P(xᵢ)), где

  • P(xᵢ) — вероятность каждого исхода (того, что величина X примет значение xᵢ)
  • xᵢ — возможные значения случайной величины (цена каждого исхода)

Выборка и генеральная совокупность

Разницу между этими понятиями изучим на котиках:

  • Выборка – это вес тех котиков, которых нам удалось поймать и взвесить
  • Генеральная совокупность – это вес всех существовавших котиков

Очевидно, что у нас нет доступа к данным обо всех котиках в мире. Чтобы проверить предположения об этом весе, нужно построить доверительный интервал.

Доверительный интервал

Доверительный интервал — это разброс значений, наиболее приближенный к реальным значениям нашей случайной величины. Он используется, чтобы на основе выборки сделать выводы о распределении в генеральной совокупности.

Представим, что мы хотим оценить средний возраст студентов Хекслета. Можно взять несколько случайных студентов и посчитать средний возраст в этой выборке, но это не поможет выяснить средний возраст в генеральной совокупности всех студентов Хекслета. Чтобы оценить нашу выборку и сделать выводы о генеральной совокупности, мы можем построить доверительный интервал.

Дисперсия и стандартное отклонение

Дисперсия D(X) — это показатель того, насколько разбросаны числа в наборе. Чем выше дисперсия, тем больше разброс в числах. Дисперсия случайной величины X вычисляется по такой формуле:

M * X^2 - (M * X)^2

Чтобы понять степень разброса чисел, так же полезно посчитать стандартное отклонение — это корень из дисперсии.

Выводы

Повторим ключевые выводы урока:

  • Вероятность события — это отношение исходов одного события ко всем возможным исходам
  • Доверительный интервал — это интервал со значениями параметра с заданной вероятностью
  • Доверительный интервал помогает судить о точности измерений и получаемых результатов
  • Стандартное отклонение — это квадратный корень из дисперсии
  • Математическое ожидание – это среднее ожидаемое значение переменной

Дополнительные материалы

  1. Как найти дисперсию?
  2. Математическое ожидание случайной величины

Для полного доступа к курсу нужен базовый план

Базовый план откроет полный доступ ко всем курсам, упражнениям и урокам Хекслета, проектам и пожизненный доступ к теории пройденных уроков. Подписку можно отменить в любой момент.

Получить доступ
1000
упражнений
2000+
часов теории
3200
тестов

Открыть доступ

Курсы программирования для новичков и опытных разработчиков. Начните обучение бесплатно

  • 130 курсов, 2000+ часов теории
  • 1000 практических заданий в браузере
  • 360 000 студентов
Отправляя форму, вы принимаете «Соглашение об обработке персональных данных» и условия «Оферты», а также соглашаетесь с «Условиями использования»

Наши выпускники работают в компаниях:

Логотип компании Альфа Банк
Логотип компании Aviasales
Логотип компании Yandex
Логотип компании Tinkoff