В этой статье вместе с математиком и дата-сайентистом Василием Васильевым разберемся в перспективах и популярности профессии аналитик данных в 2022 году, поговорим о навыках и инструментах, необходимых для работы, и о источниках идей для первых проектов.
Начнем с простого примера. Представьте, что ваш ребенок нарисовал картину и вам нужно найти инструмент, чтобы повесить ее. Можно использовать гвозди, но чем их забить — непонятно. Можно сделать это кулаком, но, наверное, будет больно. Можно книжкой, но, наверно, жалко. Самый удобный инструмент — молоток.
В работе с большими объемами данных инструмент — математические модели. Они помогают найти связи между разрозненными наборами информации и перевести ее на язык, понятный человеку. Сбором, обработкой данных и построением математических моделей занимается Data Analyst. Результат его работы — наглядные выводы (схема, диаграмма или инфографика), которые можно использовать для принятия бизнес-решений.
Аналитик данных, например, помогает ответить на следующие вопросы:
Спрос на аналитиков данных постоянно растет — это сравнительно новая сфера, в которой число вакансий существенно превышает предложение. По прогнозам Всемирного экономического форума, с 2020 до 2030 года количество вакансий для аналитика данных вырастет на 25%. Это существенно быстрее, чем общий темп роста занятости (7,7% за тот же период).
Без знания математики анализировать данные будет довольно сложно. На начальном уровне достаточно понимать производные на уровне школьной программы, уметь применять метод градиентного спуска, знать теорию вероятностей, основы дискретной математики и статистики.
Если говорить о выборе языка программирования, то чаще аналитики работают со связкой Python и SQL. В вакансиях чаще упоминаются Python-библиотеки Pandas и NumPy. Если говорить об инструментах для визуализации данных, то чаще встречаются следующие:
Стоит отметить, что знать все перечисленные выше инструменты визуалиции не обязательно: часто в вакансиях указывают одну из них на выбор.
Стоит отметить, что существуют no-code решения с готовыми математическими моделями, в которые достаточно загрузить данные. Однако пользоваться ими стоит только в случае, если вы понимаете, что происходит внутри математической модели. В противном случае в результате анализа может быть много ошибок, которые напрямую повлияют на качества информации, которую предоставляет аналитик.
Выше уже говорилось, аналитику данных важно уделять много внимания математике, а не только учиться писать код. Вот несколько бесплатных курсов, которые помогут понять, в каком направлении двигаться:
Отдельные темы, связанные с анализом данных, обсуждаются на форуме cyberforum в разделах, посвященных базам данных, Python и SQL. Несмотря на устаревший дизайн, пользователи форума достаточно активно отвечают на вопросы и помогают решать проблемы.
Читайте также: Как сохранять фокус на протяжении всего обучения: советы от Хекслета
В списке книг — Data Science from Scratch Джоэла Граса (в русском переводе «Data Science. Наука о данных с нуля») и Data Science for Business Фостера Провоста. Обе предназначены для новичков, которые уже знакомы с математикой, и посвящены базовым принципам анализа данных.
Kaggle — крупнейшее в мире англоязычное сообщество дата-сайентистов и платформа для тренировки навыков по анализу данных. На ней есть раздел Learns с классическими задачами на анализ данных и Competition с более сложными кейсами, которые можно решать одному или в команде.
Кроме того, можно решать задачи из вступительных экзаменов прошлых лет в Высшую школу экономики (ВШЭ), Российскую экономическую школу (РЭШ) или Школу анализа данных (ШАД). Они доступны в открытом доступе, а результаты можно обсудить, например, с пользователями cyberforum.
По данным рекрутингового сервиса HH, в апреле 2022 года в России открыто 10 536 вакансий Data Analyst. Подавляющее большинство из них — в Москве (5 536), далее следуют Санкт-Петербург (1 356), Свердловская область (314) и Татарстан (307).
Средняя зарплата аналитика данных, по подсчетам сервиса Zarplan, в апреле 2022 года составляет 227 тыс. рублей. Минимальная зарплата составляет 60 тыс., максимальная — 500 тыс. рублей для руководителя команды анализа данных.
Главный итог обучения — смена профессии. Вот несколько советов, с чего начать переход от задач и тренировки к реальным проектам в портфолио:
Лучшее, с чего можно начать — найти в своей жизни момент, который можно автоматизировать. Например, посчитать, сколько страниц книги вы читаете в день и как количество прочитанных страниц зависит от времени, в которое вы читаете.
Можно попробовать решить задачи, которые встречаются в реальных проектах. Часто их можно найти в тестовых заданиях компаний, которые ищут аналитиков данных. В отдельном репозитории Хекслета на GitHub есть около сотни реальных тестовых заданий российских и зарубежных компаний.
Опенсорс — настоящие проекты или реальный продакшен. Участие в них дает новичку опыт работы в команде, учит ответственности, планированию, тайм-менеджменту и помогает применить знания на практике.