Главная | Все статьи | Карьера

Кто такой Data Scientist, чем он занимается и сколько зарабатывает

Data Science Время чтения статьи ~9 минут
Кто такой Data Scientist, чем он занимается и сколько зарабатывает главное изображение

Рассказываем, что за профессия — data science, чем занимается дата-сайентист, какие задачи решает и разбираем, в чем плюсы и минусы работы такого специалиста.

В написании статьи принимал участие Николай Голов, Head of Data Engineering в ManyChat и Анаида Шагинян, старший Data Scientist

Кто такой Data Scientist и чем он занимается

Data Scientist — это специалист, который работает с данными компании: анализирует, ищет в них зависимости и на основе этой информации делает выводы.

Data Scientist создает алгоритмы, которые решают разные бизнес-задачи и улучшают процессы: показывают пользователям интересный контент и повышают их вовлеченность, предсказывают пики и падения продаж, повышают качество производства. Например, с помощью таких алгоритмов Data Scientist может:

  • Предсказывать продажи, поведение покупателей и спрос на отдельные группы товаров для того, чтобы бизнес мог скорректировать стратегию или эффективнее управлять запасами.
  • Анализировать поведение посетителей на сайте, чтобы улучшать маркетинговые кампании и делать ставку на наиболее интересный потребителю контент.
  • Анализировать текстовые данные, чтобы выявлять тренды в соцсетях.
  • Анализировать большие данные, чтобы выявлять закономерности и на их основе делать научные прогнозы или целые открытия, как в случае с нейросетью AlphaFold, которая смогла расшифровать механизм сворачивания белка.

Аналитик данных — с нуля до трудоустройства за 9 месяцев
  • Постоянная поддержка от наставника и учебного центра
  • Помощь с трудоустройством
  • Готовое портфолио к концу обучения
  • Практика с первого урока

Вы получите именно те инструменты и навыки, которые позволят вам найти работу

Узнать больше

Где нужен Data Scientist

Дата-сайентист может найти работу практически в любой отрасли, где генерируется подходящая для обработки и анализа информация: данные о клиентах, научных или производственных процессах, цифры, метрики, статистика.

В банках такие специалисты создают модели банковского скоринга — именно они определяют, под какой процент вам одобрить ипотеку. В промышленности с помощью анализа данных предсказывают поломки оборудования, занимаются георазведкой и следят за безопасностью. В e-commerce и ретейле повышают продажи благодаря рекомендательным системам и персональным подборкам для покупателей.

Чаще всего таких экспертов нанимают в крупные компании или стартапы. Первые — потому, что Data Science требует немалого бюджета на сбор и анализ данных. Вторые — из-за того, что Data Science является частью инновационной идеи и может стать драйвером роста компании.

Какие задачи решает Data Scientist: разбираем на примере

Допустим, дата-сайентисту нужно построить модель для сотового оператора, чтобы находить абонентов в «группе риска» — тех, кто собирается отказаться от услуг или сменить тариф.

Для этого нужно:

Собрать данные

Это значит определить, есть ли выборка данных и целевая переменная — описание признака, который будет предсказывать модель. Например, если для выборки из 100 человек точно известно, кто отказался от услуг, а кто остался с оператором — переменная есть, и можно строить эффективную модель. Если же из 100 участников кто-то ушел, кто-то остался, но кто — неизвестно, модель может давать сбой.

Сбором данных обычно занимается ML-engineer или дата-инженер. Его задача — передать data scientist релевантные, подготовленные и очищенные данные.

Так выглядит тренировочный датасет в задании Мегафона на Kaggle – в нем представлены обезличенные данные по использованию абонентами различных телеком-услуг.

Важно не только понять, какие данные есть по каждому объекту, но и оценить их надежность. Например, в каждой выборке есть ложные данные, когда человек указал о себе неверную информацию: скажем, в графе возраст написал «900 лет».

Выбрать модель и подготовить данные

На этом этапе важно обеспечить качество информации, на которой будет обучаться модель. Без этого алгоритм может выдать неправильный, ошибочный результат. Подготовить данные – значит трансформировать в удобную форму, которая называется матрицей объектов и признаков. Она и выглядит как таблица со всеми признаками — атрибутами — обучающих данных.

Оценить результат

Один из ключевых этапов — когда аналитик data science на основе опыта, интуиции и профессиональных навыков решает, насколько эффективной получилась модель. Сможет ли она работать не на обучающих, а на реальных данных — или алгоритм переобучился, то есть «вызубрил» ответы для этой выборки и будет бесполезен при анализе новой информации.

Чем Data Scientist отличается от Data Analyst и Data Engineer

В задачах, требующих анализа данных, может участвовать не только Data Scientist, но и другие специалисты. Например, выше мы упомянули Data Engineer, который собирает и готовит данные для Data Scientist.

А еще есть Data Analyst — специалист, который анализирует и визуализирует данные, чтобы помогать руководителям бизнеса принимать решения.

На первый взгляд эти профессии похожи, их часто путают. Но в действительности это разные специалисты:

Data Engineer собирает и готовит данные для аналитиков и специалистов по Data Science. Он не обучает модели, но много программирует, работает с базами данных: выгружает оттуда информацию, обрабатывает и создает для них хранилища.

Data Scientist и Data Engineer часто работают в связке: один готовит данные, другой использует их для экспериментов с моделями. А вот Data Analyst решает совсем другие задачи: он изучает статистику, ищет инсайты — выводы на основе данных — и подбирает для них визуально понятную форму. Задача дата-аналитика — найти ответ на конкретный вопрос бизнеса. Например, предсказать, какие товары будут пользоваться спросом или определить, в какие направления работы компании стоит инвестировать, а какие, напротив, сократить.

Читайте также: Гид по профессии аналитик данных: кто это, чем занимается и сколько зарабатывает

Что нужно знать и уметь, чтобы стать Data Scientist

Такому специалисту нужно хорошо знать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Придется разобраться с теорией машинного обучения, овладеть базовыми навыками программирования на Python, изучить фреймворки для машинного и глубокого обучения, а также научиться работать с языком SQL, который позволяет получать информацию из баз данных.

Это — базовые необходимые знания для начинающего специалиста. От опытного data scientist ждут умения решать сложные задачи: строить высоконагруженные модели — такие, которые смогут запускаться, скажем, сотни раз в секунду для каждого отдельного клиента. Или предотвращать неочевидные ошибки, когда модель переобучается из-за того, что в обучающую выборку попало лишнее поле.

Такие навыки получаются только с опытом, поэтому, помимо теории, в Data Science очень важна практика. И здесь у профессии есть преимущество: набивать руку можно практически с начала обучения, участвуя в открытых конкурсах по машинному обучению. Например, самое известное сообщество специалистов по Data Science — платформа Kaggle, где есть много обучающих материалов, но главное — соревнования от компаний.

Одно из самых известных соревнований Kaggle — задача на построение модели, которая определит, кто из пассажиров Титаника выживет в катастрофе.

Участие, и тем более победа в таких соревнованиях — это готовое портфолио, которое можно показать заказчику, и реальный опыт решения ML-задач.

Kaggle и другие соревнования могут стать для начинающего Data Science трамплином из джуниор в сеньор-специалиста. Практический опыт можно получить «в боевых условиях» и, доказав свою способность решать сложные задачи, претендовать на более высокую позицию.

Сколько зарабатывает Data Scientist

Уровень зарплаты зависит от опыта специалиста, региона и размера компании. Ниже – примеры вакансий для Москвы.

Junior Data Scientist может зарабатывать до 100 тысяч рублей.

Специалист со средним опытом — от 170 до 250 тысяч рублей.

Head of Data Science с опытом более 6 лет и большим стеком технологий — от 300 тысяч рублей.

Читайте также: Хекслет запустил акцию «Вернем деньги, если не получилось найти работу»

Плюсы и минусы работы Data Scientist

Плюсы

Востребованная профессия

По данным Всемирного экономического форума, Data Analysts & Scientists — лидеры списка самых актуальных профессий до 2025 года.

Высокая зарплата

У разработчиков и Data Science-специалистов сопоставимые гонорары: по данным из вакансий hh.ru на май 2023, мидл Data Scientist в среднем может претендовать на ту же зарплату, что и мидл Python-разработчик.

Динамичный карьерный рост

В Data Science проще с практическим опытом: можно решать задачи на конкурсах, участвовать в Kaggle или хакатонах, собирать портфолио и быстрее расти в карьере.

Интересная работа

DataScience — одна из самых молодых и динамично развивающихся отраслей. Здесь много интересного. Например, можно автоматизировать задачи и отрасли, развивать науку, прокачиваться в глубинном обучении — области, где искусственный интеллект решает очень сложные задачи.

Минусы

Высокий порог входа

Специалисты Data Scientist должны хорошо знать математику, теорию машинного обучения. А еще — постоянно учиться, чтобы успевать за инновациями в сфере AI, которая меняется буквально на глазах.

Непонимание со стороны бизнеса

Несмотря на то, что машинное обучение находит применение практически во всех сферах, есть много областей, где построение моделей неэффективно: нет достаточного количества данных или четкой целевой переменной. В этом случае от Data Scientist могут ждать невозможного или нагружать нерелевантными задачами.

Кто такой Data Scientist и как им стать — итоги

  1. Data scientist создает модели машинного обучения — математические алгоритмы, которые на основе большого количества информации ищут закономерности и делают прогнозы.
  2. Специалисты по данным или Data Scientists работают практически во всех отраслях и сферах, чаще всего — в крупных компаниях или стартапах.
  3. Чтобы стать Data scientist, нужно изучить теорию: повторить или углубить знания в математике, разобраться с теорией машинного обучения.
  4. Получить практический опыт можно на соревнованиях и открытых конкурсах — это шанс разобраться в тонкостях профессии, получить хороший опыт и стать востребованным специалистом.

Профессия «Аналитик данных»
  • Изучите востребованную в каждой компании профессию и помогайте бизнесам расти и развиваться
  • Научитесь собирать, обрабатывать, изучать и интерпретировать данные с помощью SQL и Google Sheets
  • Освойте когортный анализ и визуализацию данных с помощью Superset и библиотек Python
Узнать больше

Рекомендуемые программы
профессия
от 6 300 ₽ в месяц
Разработка фронтенд-компонентов для веб-приложений
10 месяцев
с нуля
Старт 2 мая
профессия
от 6 300 ₽ в месяц
Разработка веб-приложений на Django
10 месяцев
с нуля
Старт 2 мая
профессия
от 6 183 ₽ в месяц
Ручное тестирование веб-приложений
4 месяца
с нуля
Старт 2 мая
профессия
от 6 300 ₽ в месяц
Разработка приложений на языке Java
10 месяцев
с нуля
Старт 2 мая
профессия
от 5 025 ₽ в месяц
новый
Сбор, анализ и интерпретация данных
9 месяцев
с нуля
Старт 2 мая
профессия
от 6 300 ₽ в месяц
Разработка веб-приложений на Laravel
10 месяцев
с нуля
Старт 2 мая
профессия
от 5 840 ₽ в месяц
Создание веб-приложений со скоростью света
5 месяцев
c опытом
Старт 2 мая
профессия
от 9 900 ₽ в месяц
Разработка фронтенд- и бэкенд-компонентов для веб-приложений
16 месяцев
с нуля
Старт 2 мая
профессия
от 6 300 ₽ в месяц
Разработка бэкенд-компонентов для веб-приложений
10 месяцев
с нуля
Старт 2 мая
профессия
новый
Автоматизированное тестирование веб-приложений на JavaScript
8 месяцев
c опытом
в разработке
Старт 2 мая
профессия
Верстка с использованием последних стандартов CSS
5 месяцев
с нуля
Старт в любое время