В этом уроке мы научимся определять оптимальную длительность эксперимента и размер минимальной выборки. Этот очень важный параметр, который влияет на результаты наших экспериментов. Освоив этот этап, мы сможем перейти к сбору данных и проведению эксперимента.
Чтобы правильно определить размер выборки, нужно учесть различные параметры и предпочтения. Здесь два главных термина:
- Генеральная совокупность — это общее количество данных, которыми мы располагаем или можем получить для эксперимента
- Выборка — это часть данных из генеральной совокупности, которую мы выбираем для анализа и тестирования наших гипотез
Рассмотрим ошибки, которые мы можем сделать при определении размера выборки. Из-за них мы можем получить нерепрезентативные результаты:
- Слишком маленькая выборка — если генеральная совокупность состоит из миллиона клиентов, то выборка из десяти человек не даст значимой информации
- Слишком низкая конверсия — с такой ситуацией можно столкнуться, если только небольшая часть выборки проявила интерес к нашему эксперименту и поучаствовала в нем
- Нерепрезентативная выборка — с такой ситуацией мы сталкиваемся, когда выборка не отражает реальное распределение данных в генеральной совокупности. Например, в генеральной совокупности поровну мужчин и женщин, а для выборки мы выбрали только мужчин
Чтобы выборка стала репрезентативной, мы должны учесть пол и другие параметры, а также обеспечить достаточно большой размер выборки для обеспечения статистически значимых результатов.
Размер выборки
Какой размер выборки будет оптимальным? Это зависит от многих факторов:
- Целей эксперимента
- Уровня желаемой точности
- Допустимого уровня ошибки
- Степени изменчивости в данных
- Уровня значимости
- Мощности теста — вероятности обнаружения различий, если они существуют
Чтобы определить размер выборки для статистически значимых результатов, исследователи часто используют статистические методы и онлайн-калькуляторы.
Длительность тестирования
Длительность тоже можно определить с помощью онлайн-калькулятора. Рассмотрим на примере:
- Представим, что у нас есть в среднем 10 000 новых пользователей
- Нам нужно собрать 5 000 пользователей на каждую версию сайта
- Минимальный размер выборки составляет 100 000
- Нам потребуется провести 10 000 экспериментов
- В этом случае длительность эксперимента составит 20 дней
Почему мы делим на 5 000, а не на 10 000? Потому что мы проводим два эксперимента, что увеличивает время вдвое. Если разделить на 10 000, то время проведения будет 10 дней. Это увеличение помогает собрать данные для двух интерфейсов по отдельности друг от друга. Это понадобится дальше при оценке пользовательских параметров в ходе эксперимента.
Самостоятельная работа
Используя сайт для расчетов, определите:
Считайте, что статистическая мощность 80%, а статистическая значимость равна 5%
При начальной конверсии 10%, какой размер выборки нужен для определения разницы в 50% (относительной)?
Нажмите для ответа
599
При начальной конверсии 10%, какой размер выборки нужен для определения разницы в 10% (относительной)?
Нажмите для ответа
14313
Какие выводы можно сделать?
Нажмите для ответа
Размер выборки, необходимый для обнаружения статистического эффекта в A/B-тестировании, обратно пропорционален величине этого эффекта.
Когда мы измерям разницу между двумя группами, величина этой разницы оценивается с определенной стандартной ошибкой. Чем меньше величина эффекта, тем труднее его отличить от случайного шума или естественной вариативности в данных.
Также, чтобы обнаружить меньший эффект, необходима более высокая статистическая мощность, которая достигается увеличением размера выборки. Если эффект большой, его легче обнаружить даже на фоне естественной вариабельности данных, и потому требуется меньшая выборка для достижения той же статистической мощности.
Для полного доступа к курсу нужен базовый план
Базовый план откроет полный доступ ко всем курсам, упражнениям и урокам Хекслета, проектам и пожизненный доступ к теории пройденных уроков. Подписку можно отменить в любой момент.