Все статьи | Код

Иллюзия больших данных: как работает социология и что делать, чтобы тебе верили

Иллюзия больших данных: как работает социология и что делать, чтобы тебе верили главное изображение

70% выпускников онлайн-курсов в России находят работу, 89% граждан США не доверяют правительству, 47% американцев считают смертную казнь справедливой, и в то же время 48% — за пожизненное тюремное заключение. Рассказываем, откуда берутся эти цифры, как их обрабатывают и можно ли им доверять.

Работа с данными

Год за годом в нашу жизнь приходят новые технологии. В начале 2000-х появился новый термин Big Data, который ознаменовал собой новый этап в развитии IT-индустрии. Сейчас все, что мы делаем, весь окружающий нас мир описывается языком данных.

Например, сайты запоминают поведение пользователей, компании заносят клиентов в электронные системы и т.п. Эти данные хранятся в том или ином виде, и со временем их становится все больше и больше. Сейчас бизнес учится извлекать из этих данных пользу для себя — например, данные помогают аналитикам составить общую картину происходящего, и они могут быть базой для принятия управленческих решений.

При этом иногда работа с данными скрытным образом подводит человека к определенной точке зрения. Так, в стартапах любят говорить о высоких темпах роста: «Количество клиентов выросло на 50%», «Продажи поднялись в 3 раза». Но если изначально количество клиентов было небольшим — например, 2 клиента, то эти 50% становятся просто красивой цифрой. Такое явление получило название «эффект низкой базы».

Еще один пример: «Безработица выросла на 10%», — но на 10% от чего? Предположим, что до этого она была 2%. Неподготовленный человек может сделать вывод, что теперь она составляет 12%, однако в действительности речь идёт о показателе 2,2%, он получился как 2 + 10% от 2%. Это типичные примеры манипуляции данными — ситуации, когда цифры корректны, но их интерпретация создаёт неверное представление о ситуации.

На еще одном примере показано число клиентов компании по месяцам. На первом графике результаты примерно одинаковы. На втором видна устойчивая тенденция к росту.

На самом деле на этих графиках одни и те же значения. Разница здесь только в шаге по вертикальной оси. Когда шаг размером в тысячу, высоты столбцов выглядят близкими друг к другу. Однако если сделать шаг в 100, то может показаться, что есть какой-то устойчивый тренд в росте числа клиентов. Но для компании, оперирующей тысячами клиентов, такие изменения показателей в сотнях несущественны. Это еще один пример манипуляции данными. То, как мы представили итоговые результаты, сильно повлияло на представление наших читателей о динамике изменений.

В онлайн-образовании тоже часто манипулируют данными — например, какой-нибудь сервис может написать, что 70% их выпускников находят новую работу. От такой фразы у многих возникает ощущение, что 70% из всех обучающихся там действительно трудоустраиваются.

Здесь важно читать то, о чем пишут мелким шрифтом. Потому что оказывается, что это могут быть 70% среди именно тех, кто стремится найти новую работу. В обычной группе большинство людей может быть вообще не настроено на поиск работы. И вот среди тех, кто действительно хотели и старались получить новую профессию, 70% достигло успехов. Такое уточнение как «среди тех, кто хотел найти новую профессию» может быть очень значимым.

Представим, что в группе студентов 100 человек, среди которых 20 хотят сменить работу. Эти 20 действительно очень мотивированы, выполняют все задания, откликаются на вакансии. Оставшиеся 80 не так активны. Тогда число «действительно ищущих новую работу» и будет составлять эти 20 человек по оценкам исследователей. Если 70% из них нашли работу, то получаем, что 70% от 20 будет 14 человек. Но если брать отношение этих 14 ко всем 100 людям, приступившим к обучению, то процент получится 14 к 100 = 14% трудоустроившихся. А это уже совсем другая цифра.

Мы не знаем, сколько из не получивших работу не вышли на контакт. Мы не знаем, довольны ли получившие работу люди этой работой. Возникает вопрос общей, смысловой оценки качества проведенного исследования. И он сложнее, чем формулы статистики.

Школы также часто стремятся сделать свою рекламу как можно более привлекательной. Поддержка и внимание к особенностям студентов, наполнение курсов, последующее трудоустройство — это задачи, которым не всегда уделяется очень много внимания. Измерить и пощупать эти процессы на смысловом уровне иногда довольно трудно. И хотя на выходе мы можем иметь хорошие показатели по количеству выпускников и трудоустройств — общая оценка качества работы школы только на основе статистики кажется не до конца полной. Мы еще не раз вернемся к этой проблеме.

В приведенных выше примерах можно заметить следующее: данные там всегда использовались для того, чтобы подкрепить некое утверждение. Механизм его формирования был примерно таким:

сбор данных -> статистика -> презентация результатов -> выводы

Такая схема типична при работе с данными. При этом в социологических опросах используется точно такой же подход к работе с получаемыми данными.

Читайте также: С чего начать учиться на аналитика данных: особенности, источники и идеи для первых проектов

Почему в этой статье речь идет именно про соцопросы? В первую очередь, это нечто простое и знакомое всем. Структура таких данных понятна, если мы хотим узнать, что человек думает на ту или иную тему, или насколько он счастлив. Эффективнее всего просто спросить человека об этом — и тут возникает новый вопрос, насколько можно доверять словам человека и его субъективному ощущению. Дальше мы расскажем устройство соцопросов и сравним его с другими, более сложными типами данных.

Распространенные ошибки

  • В соц.опросах люди могут давать нечеткие ответы или ответы, не соответствующие их мнению. Например, человек куда-то спешил, а его останавливают на улице и спрашивают что-то нелепое. Он ответит что-то невпопад и убежит дальше по своим делам.
  • Сами вопросы могут составляться некорректно. Это могут быть длинные вопросы, вопросы вне контекста, вопросы с отрицанием, вопросы, где не соблюдена нейтральность.
  • Выборки людей, участвующих в опросе, могут быть слишком маленькими или слишком однородными. Например, в компании работает 1 тыс. человек, среди которых поровну мужчин и женщин, а опрос проводится для трех мужчин из этих тысячи. Для качественного опроса нужно, чтобы выборка была репрезентативной — то есть достаточно большой и включающей в себя разные социальные группы.
  • Иногда люди могут отказаться от ответа на вопрос по личным причинам. Например, им просто неинтересна тема опроса, или кто-то может быть недостаточно отзывчив, чтобы ответить на задаваемые ему вопросы. Бывает, что люди не доверяют социологической службе и боятся, что их ответы могут быть использованы им во вред. В результате какая-то часть людей просто не дала никакого ответа — тут возникает проблема неполных данных.

Покажем, как это может быть важно на следующем примере (он взят с канала по математике Бориса Трушина).

В романе Дж.Свифт «Гулливер» есть так называемые тупоконечники и остроконечники — два противоборствующих клана. Разница между ними состояла только в том, с какого, по их мнению, конца следует разбивать вареное яйцо на завтрак — с тупого или с острого.

  1. Предположим, что в городе живет 8 тыс. человек, среди которых в действительности 6,4 тыс. — тупоконечников, и 1,6 тыс. остроконечников (соотношение 80% на 20%).
  2. Проводится социологический опрос с целью узнать это соотношение.
  3. Известно, что тупоконечники в большей массе боятся участвовать в таких опросах. За высказывание своей позиции их могут ожидать проблемы. Скорее всего они откажутся участвовать.

Что получится, если провести опрос в такой ситуации?

Оказалось, что на опрос ответило 2 тыс. жителей из 8 тыс. Все респонденты-остроконечники без проблем выскажут свою позицию, и логично предположить, что среди 2 тыс. участников их и останется примерно 1,6 тыс., как в оригинальной выборке. Тогда тупоконечников будет примерно 2. тыс. - 1,6 тыс. = 400. То есть соотношение кланов по результатам опросов будет 1,6 тыс. к 400 (80% на 20% в пользу остроконечников), в то время как на самом деле ситуация в городе ровно противоположная.

Таким образом, процент ответивших является важной мерой достоверности опроса. Низкий процент ответивших сигнализирует о каких-то проблемах с респондентами.

На этапе подсчета статистики также возникает много пространства для разных хитростей. Очень большое значение имеет выбранный статистический метод, условия его использования и многие другие факторы.

Например, в рекламе есть понятие лида. Это покупатель, готовый приобрести товар или услугу. Он приходит через сайт, телефонный звонок, рекламный стенд и другие источники. По идее, рост числа лидов — это хорошо. Но смотря каких. Если они в большинстве некачественные, которые скорее всего ничего не купят, то в росте лидов мало смысла. Еще зачастую стоимость лида — то есть затраты на рекламу — идет рука об руку с понижением их качества. Хотя хитрым людям это не помешает показать руководству статистику, что наша компания стала тратить меньше денег на рекламу. Это пример манипуляции на этапе подсчета статистики.

Работа с данными на примере опросов

Существует очень много данных разного типа — они могут быть как структурированными, так и не иметь вообще никакой структуры. Примеры — логи серверов, данные об изменениях погоды, биометрические данные и многое-многое другое. Сейчас анализируют в том числе тексты, картинки, видео. Для каждого вида данных в своей области придуманы свои способы их обработки и различные программные инструменты. Всем этим как раз занимаются специалисты по анализу данных (Data Scientist, Data Analyst).

Читайте также: Гид по профессии тестировщик: чем занимается специалист в сфере QA, сколько зарабатывает, что надо знать и где учиться

Как обращаться с данными — это очень обширная тема. В нашей статье мы пока расскажем только про один тип — данные соцопросов. Сами по себе опросы — хороший инструмент исследований. Их заказчиками у бизнеса могут быть абсолютно разные люди — маркетологи, аналитики, UI/UX дизайнеры и многие другие специалисты. Эти процессы могут включать в себя проверку различных гипотез и последующее принятие решений на основе данных. Внутри компаний соцопросы проводятся HR-отделом или напрямую руководством для понимания нужд работников. Существуют также и официальные исследовательские службы для проведения соц. опросов. В России широко известны такие организации как Левада-центр или ВЦИОМ.

Социологический опрос — это чаще всего просто продуманный набор вопросов. В хорошей анкете их формулировки отточены до идеала: по возможности это конкретные «узкие» вопросы, предоставляющие анкетируемому некоторую свободу для ответа. Они должны быть объективными и не содержать в себе рекламу или любое другое давление.

Есть и определенный набор требований к поведению интервьюера. В основном, он должен расположить к себе человека и попытаться узнать его настоящее мнение. Тут есть целый ряд важных факторов:

  • Манера интервьюера
  • Специальные фразы для начала разговора
  • Цепочки фраз в устном диалоге
  • Подходящая локация. Все эти моменты продумываются до начала проведения опроса. Такой разговор — определенное психологическое искусство, известное практикующим социологам.

При этом существует множество типов подобных опросов может быть много. Это и «уличное знакомство», и разговор в характерном для темы опроса месте (магазин, торговый центр), и телефонный опрос, и письменная анкета.

Большое значение для получаемых данных имеет выборка людей. Важно набирать представителей разных социальных групп: по возрасту, полу, региону. Количество людей, принадлежащих к одной социальной группе, должно быть ограничено — для каждой из них вводятся некоторые квоты. Создаются типажи респондентов: например, мужчина 40 лет из провинциального региона со средним образованием, женщина 25 лет из столицы с высшим образованием и т.д.

Кроме того, число опрашиваемых не должно быть слишком маленьким. Необходимое количество респондентов и другие детали исследования определяются с помощью науки, которая называется математическая статистика. Ключевую инструментом здесь является центральная предельная теорема.

Такая теорема гарантирует, что соотношение мнений среди участников опроса в целом соответствует соотношению мнений среди всей аудитории. Это утверждается с некоторой численной долей уверенности.

Предположим, что мы опросили 1 тыс. клиентов компании — за они или против некоторого решения. Если процент голосов «за» составляет 80%, то законы статистики позволяют с некоторой уверенностью заключить, что и среди всех клиентов компании (которых могут быть миллионы) подобный процент сохраняется.

Читайте также: От эксперимента до стандарта. Пионеры веба рассказывают историю появления синей гиперссылки

Казалось бы, все хорошо. Но на самом деле такой вывод делается лишь с некоторой долей уверенности. Статистика же позволяет вычислить эту вероятность напрямую и сделать вывод: «C 95% уверенностью можно считать, что отклонение пропорций в выборке и генеральной совокупности друг от друга не превышает двух стандартных ошибок». При этом без отдельного пояснения сложно понять, что на самом деле означает такой вывод.

Это высказывание означает следующее — если бы эксперты провели не 1, а 100 опросов на 1 тыс. клиентов, то в 95 опросов из 100 отклонение пропорции в выборке и в общей совокупности было бы незначительным. Короче говоря, социологи уверены в результатах опроса на 0.95 при некоторой точности отклонения пропорций.

Чем больше эксперты уверены в своем выводе, тем больше они теряют в затратах на точность. Чтобы получать больший процент уверенности, они должны брать больше респондентов в выборку и более строго оценивать отклонения пропорций от истинного. Подробнее о таких проблемах можно прочитать в книге Ч.Уилан «Голая статистика» на примере распределения голосов за разных кандидатов на выборах.

Автор в своей книге говорит, что на самом деле существует две основные проблемы для проведения эффективных социологических опросов:

  • Определение правильной выборки и выход на нее
  • Получение информации от этой репрезентативной группы таким образом, чтобы она точно отражала мнения ее членов.

Оказывается, что часто проблемы опросов не в методах статистики, а в том, как найти нужных людей и получить от них честные ответы. Это достигается с помощью применения разных социологических и психологических методик. Грамотные вопросы, продуманный поиск респондентов, различные методы отбора делают опрос более качественным. Но как раз тут возникает и большое пространство для манипуляций данными.

Важен и процесс интерпретации результатов опроса. Что означает результат опроса: «47% американцев считают смертную казнь справедливой, и в то же время 48% за пожизненное тюремное заключение»?

На самом деле, на вопрос «Поддерживаете ли вы смертную казнь?» утвердительно отвечают 60% американцев. А в случае опроса, где респонденту предлагается на выбор смертная казнь или пожизненное заключение в качестве лучшей меры наказания, результаты делятся уже 47% и 48%! То есть в такой формулировке большинства голосов уже нет.

Этот пример показывает, насколько важной является формулировка и контекст вопроса. Важно, чтобы вопрос находился в некотором смысловом поле и был сопряжен с другими вопросами на эту тему — тогда результаты исследования будут лучше отражать реальную картину в обществе.

Чек-лист хорошего исследования

  1. Выборка. Знания респондентов соответствуют тематике исследования. Выборка большая и репрезентативная. Малый процент людей, которые отказались отвечать на вопрос.
  2. Опросник. Он составлен корректно, содержит набор узких конкретных вопросов.
  3. Методы сбора. Информация собирается опытными интервьюерами. Используются соответствующие типу опроса (телефонные, уличные и т.д.) методики.
  4. Статистика. Используются известные статистические методы для проверки гипотез.
  5. Интерпретация. Результаты исследования поданы корректно, с добавлением всех деталей и изначальных предположений.

Никогда не останавливайтесь: В программировании говорят, что нужно постоянно учиться даже для того, чтобы просто находиться на месте. Развивайтесь с нами — на Хекслете есть сотни курсов по разработке на разных языках и технологиях

Рекомендуемые программы

С нуля до разработчика. Возвращаем деньги, если не удалось найти работу.

Иконка программы Фронтенд-разработчик
Профессия
Разработка фронтенд-компонентов веб-приложений
30 июня 10 месяцев
Иконка программы Python-разработчик
Профессия
Разработка веб-приложений на Django
30 июня 10 месяцев
Иконка программы PHP-разработчик
Профессия
Разработка веб-приложений на Laravel
30 июня 10 месяцев
Иконка программы Node.js-разработчик
Профессия
Разработка бэкенд-компонентов веб-приложений
30 июня 10 месяцев
Иконка программы Fullstack-разработчик
Профессия
Новый
Разработка фронтенд и бэкенд компонентов веб-приложений
30 июня 16 месяцев
Иконка программы Верстальщик
Профессия
Вёрстка с использованием последних стандартов CSS
в любое время 5 месяцев
Иконка программы Java-разработчик
Профессия
Разработка приложений на языке Java
30 июня 10 месяцев
Иконка программы Разработчик на Ruby on Rails
Профессия
Создает веб-приложения со скоростью света
30 июня 5 месяцев