Бесплатный
практический вебинар
Напишите мини-игру на JavaScript за 2 часа
Главная | Все статьи | Карьера

Кто такой Data Scientist, чем он занимается и сколько зарабатывает

Data Science Время чтения статьи ~9 минут
Кто такой Data Scientist, чем он занимается и сколько зарабатывает главное изображение

Рассказываем, что за профессия — data science, чем занимается дата-сайентист, какие задачи решает и разбираем, в чем плюсы и минусы работы такого специалиста.

В написании статьи принимал участие Николай Голов, Head of Data Engineering в ManyChat и Анаида Шагинян, старший Data Scientist

Кто такой Data Scientist и чем он занимается

Data Scientist — это специалист, который работает с данными компании: анализирует, ищет в них зависимости и на основе этой информации делает выводы.

Data Scientist создает алгоритмы, которые решают разные бизнес-задачи и улучшают процессы: показывают пользователям интересный контент и повышают их вовлеченность, предсказывают пики и падения продаж, повышают качество производства. Например, с помощью таких алгоритмов Data Scientist может:

  • Предсказывать продажи, поведение покупателей и спрос на отдельные группы товаров для того, чтобы бизнес мог скорректировать стратегию или эффективнее управлять запасами.
  • Анализировать поведение посетителей на сайте, чтобы улучшать маркетинговые кампании и делать ставку на наиболее интересный потребителю контент.
  • Анализировать текстовые данные, чтобы выявлять тренды в соцсетях.
  • Анализировать большие данные, чтобы выявлять закономерности и на их основе делать научные прогнозы или целые открытия, как в случае с нейросетью AlphaFold, которая смогла расшифровать механизм сворачивания белка.

Получите знания по аналитике данных бесплатно

Начать учиться

Где нужен Data Scientist

Дата-сайентист может найти работу практически в любой отрасли, где генерируется подходящая для обработки и анализа информация: данные о клиентах, научных или производственных процессах, цифры, метрики, статистика.

В банках такие специалисты создают модели банковского скоринга — именно они определяют, под какой процент вам одобрить ипотеку. В промышленности с помощью анализа данных предсказывают поломки оборудования, занимаются георазведкой и следят за безопасностью. В e-commerce и ретейле повышают продажи благодаря рекомендательным системам и персональным подборкам для покупателей.

Чаще всего таких экспертов нанимают в крупные компании или стартапы. Первые — потому, что Data Science требует немалого бюджета на сбор и анализ данных. Вторые — из-за того, что Data Science является частью инновационной идеи и может стать драйвером роста компании.

Также полезно: С чего начать учиться на аналитика данных особенности, источники и идеи для первых проектов

Какие задачи решает Data Scientist: разбираем на примере

Допустим, дата-сайентисту нужно построить модель для сотового оператора, чтобы находить абонентов в «группе риска» — тех, кто собирается отказаться от услуг или сменить тариф.

Для этого нужно:

Собрать данные

Это значит определить, есть ли выборка данных и целевая переменная — описание признака, который будет предсказывать модель. Например, если для выборки из 100 человек точно известно, кто отказался от услуг, а кто остался с оператором — переменная есть, и можно строить эффективную модель. Если же из 100 участников кто-то ушел, кто-то остался, но кто — неизвестно, модель может давать сбой.

Сбором данных обычно занимается ML-engineer или дата-инженер. Его задача — передать data scientist релевантные, подготовленные и очищенные данные.

Так выглядит тренировочный датасет в задании Мегафона на Kaggle – в нем представлены обезличенные данные по использованию абонентами различных телеком-услуг.

Важно не только понять, какие данные есть по каждому объекту, но и оценить их надежность. Например, в каждой выборке есть ложные данные, когда человек указал о себе неверную информацию: скажем, в графе возраст написал «900 лет».

Выбрать модель и подготовить данные

На этом этапе важно обеспечить качество информации, на которой будет обучаться модель. Без этого алгоритм может выдать неправильный, ошибочный результат. Подготовить данные – значит трансформировать в удобную форму, которая называется матрицей объектов и признаков. Она и выглядит как таблица со всеми признаками — атрибутами — обучающих данных.

Оценить результат

Один из ключевых этапов — когда аналитик data science на основе опыта, интуиции и профессиональных навыков решает, насколько эффективной получилась модель. Сможет ли она работать не на обучающих, а на реальных данных — или алгоритм переобучился, то есть «вызубрил» ответы для этой выборки и будет бесполезен при анализе новой информации.

Чем Data Scientist отличается от Data Analyst и Data Engineer

В задачах, требующих анализа данных, может участвовать не только Data Scientist, но и другие специалисты. Например, выше мы упомянули Data Engineer, который собирает и готовит данные для Data Scientist.

А еще есть Data Analyst — специалист, который анализирует и визуализирует данные, чтобы помогать руководителям бизнеса принимать решения.

На первый взгляд эти профессии похожи, их часто путают. Но в действительности это разные специалисты:

Data Engineer собирает и готовит данные для аналитиков и специалистов по Data Science. Он не обучает модели, но много программирует, работает с базами данных: выгружает оттуда информацию, обрабатывает и создает для них хранилища.

Data Scientist и Data Engineer часто работают в связке: один готовит данные, другой использует их для экспериментов с моделями. А вот Data Analyst решает совсем другие задачи: он изучает статистику, ищет инсайты — выводы на основе данных — и подбирает для них визуально понятную форму. Задача дата-аналитика — найти ответ на конкретный вопрос бизнеса. Например, предсказать, какие товары будут пользоваться спросом или определить, в какие направления работы компании стоит инвестировать, а какие, напротив, сократить.

Читайте также: Гид по профессии аналитик данных: кто это, чем занимается и сколько зарабатывает

Что нужно знать и уметь, чтобы стать Data Scientist

Такому специалисту нужно хорошо знать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Придется разобраться с теорией машинного обучения, овладеть базовыми навыками программирования на Python, изучить фреймворки для машинного и глубокого обучения, а также научиться работать с языком SQL, который позволяет получать информацию из баз данных.

Это — базовые необходимые знания для начинающего специалиста. От опытного data scientist ждут умения решать сложные задачи: строить высоконагруженные модели — такие, которые смогут запускаться, скажем, сотни раз в секунду для каждого отдельного клиента. Или предотвращать неочевидные ошибки, когда модель переобучается из-за того, что в обучающую выборку попало лишнее поле.

Такие навыки получаются только с опытом, поэтому, помимо теории, в Data Science очень важна практика. И здесь у профессии есть преимущество: набивать руку можно практически с начала обучения, участвуя в открытых конкурсах по машинному обучению. Например, самое известное сообщество специалистов по Data Science — платформа Kaggle, где есть много обучающих материалов, но главное — соревнования от компаний.

Одно из самых известных соревнований Kaggle — задача на построение модели, которая определит, кто из пассажиров Титаника выживет в катастрофе.

Участие, и тем более победа в таких соревнованиях — это готовое портфолио, которое можно показать заказчику, и реальный опыт решения ML-задач.

Kaggle и другие соревнования могут стать для начинающего Data Science трамплином из джуниор в сеньор-специалиста. Практический опыт можно получить «в боевых условиях» и, доказав свою способность решать сложные задачи, претендовать на более высокую позицию.

Изучите основы JavaScript бесплатно

Учиться бесплатно

Сколько зарабатывает Data Scientist

Уровень зарплаты зависит от опыта специалиста, региона и размера компании. Ниже – примеры вакансий для Москвы.

Junior Data Scientist может зарабатывать до 100 тысяч рублей.

Специалист со средним опытом — от 170 до 250 тысяч рублей.

Head of Data Science с опытом более 6 лет и большим стеком технологий — от 300 тысяч рублей.

Читайте также: Хекслет запустил акцию «Вернем деньги, если не получилось найти работу»

Плюсы и минусы работы Data Scientist

Плюсы

Востребованная профессия

По данным Всемирного экономического форума, Data Analysts & Scientists — лидеры списка самых актуальных профессий до 2025 года.

Высокая зарплата

У разработчиков и Data Science-специалистов сопоставимые гонорары: по данным из вакансий hh.ru на май 2023, мидл Data Scientist в среднем может претендовать на ту же зарплату, что и мидл Python-разработчик.

Динамичный карьерный рост

В Data Science проще с практическим опытом: можно решать задачи на конкурсах, участвовать в Kaggle или хакатонах, собирать портфолио и быстрее расти в карьере.

Интересная работа

DataScience — одна из самых молодых и динамично развивающихся отраслей. Здесь много интересного. Например, можно автоматизировать задачи и отрасли, развивать науку, прокачиваться в глубинном обучении — области, где искусственный интеллект решает очень сложные задачи.

Изучайте аналитику данных бесплатно

Старт обучения

Минусы

Высокий порог входа

Специалисты Data Scientist должны хорошо знать математику, теорию машинного обучения. А еще — постоянно учиться, чтобы успевать за инновациями в сфере AI, которая меняется буквально на глазах.

Непонимание со стороны бизнеса

Несмотря на то, что машинное обучение находит применение практически во всех сферах, есть много областей, где построение моделей неэффективно: нет достаточного количества данных или четкой целевой переменной. В этом случае от Data Scientist могут ждать невозможного или нагружать нерелевантными задачами.

Кто такой Data Scientist и как им стать — итоги

  1. Data scientist создает модели машинного обучения — математические алгоритмы, которые на основе большого количества информации ищут закономерности и делают прогнозы.
  2. Специалисты по данным или Data Scientists работают практически во всех отраслях и сферах, чаще всего — в крупных компаниях или стартапах.
  3. Чтобы стать Data scientist, нужно изучить теорию: повторить или углубить знания в математике, разобраться с теорией машинного обучения.
  4. Получить практический опыт можно на соревнованиях и открытых конкурсах — это шанс разобраться в тонкостях профессии, получить хороший опыт и стать востребованным специалистом.
Больше интересного в нашем Telegram-канале
Картинка баннера
Похожие статьи