Источники данных — Введение в дата-аналитику

Что такое источник данных
- Как работает принцип GIGO
Как подготовить данные
Как подключаться к источникам данных
Выводы

В работе аналитика существенную роль играет качество данных. Часто эту важную роль описывают через принцип GIGO (garbage in, garbage out) — «мусор на входе, мусор на выходе». Если мы не обработаем источники данных до начала анализа, то пользы от самого анализа не будет.

Сегодня мы узнаем, как подготовить данные к дальнейшему использованию и почему это важно.

Что такое источник данных

Источник данных — это физическая или цифровая локация, где данные хранятся в виде таблицы, файла или в другом формате.

Таблица — это пример модели данных или логической структуры. Именно при помощи таблиц мы организуем данные, то есть моделируем их в источнике по определенной схеме. Таблица помогает иллюстрировать взаимоотношения между разными элементами и управлять данными без их искажения.

База данных тоже считается моделью данных, потому что она состоит из множества взаимосвязанных таблиц. Кроме того, существуют такие распространенные модели:

Иерархическая модель
Реляционная модель

Пример структуры реляционной БД

Унифицированный язык моделирования (UML или Unified Modeling Language)
Диаграмма «Сущность-связь» (ERD или Entity-Relationship Diagram)
Объектно-ориентированная модель
Многомерное моделирование

Как работает принцип GIGO

Чтобы проиллюстрировать принцип GIGO, возьмем таблицу Orders с данными по заказам клиентов. Если интересно, можете изучить оригинал на сайте Tableau Public.

Представим, что мы хотим изучить данные клиента по имени Aaron Bergman. Чистые и подготовленные данные продаж по этому клиенту выглядят так:

Грязные данные заметно отличаются:

Возьмем другой пример. Предположим, мы хотим взглянуть на продажи клиенту в разных городах. Визуализация этих данных в Tableau отобразит корректную сумму продаж:

При визуализации замусоренных данных мы получим другой результат:

Как видите, замусоренные данные заметно отличаются от чистых. Все дело в неправильно заполненных полях. Из-за орфографических ошибок мы видим пять городов, хотя на самом деле их три — Оклахома, Сиэтл и Арлингтон.

Из-за этой ошибки суммы продаж сильно завышены. Значит, и общие выводы будут искажены. Чтобы избежать таких проблем, нужно заранее проверять качество данных и проводить подготовку.

Как подготовить данные

Рассмотрим этапы подготовки:

Сбор данных
Исследование и профилирование данных
Очистка данных
Структурирование данных
Трансформация и обогащение данных
Валидация данных и их сохранение

Сбор данных

Релевантные данные собираются из операционных систем, хранилищ, сайтов и прочих ресурсов. На этом этапе мы проверяем, что собранные данные хорошо подходят для целей запланированного анализа данных.

Можно выделить два типа источников:

Машинные файлы — логи интернет-трафика, логи систем и приложений, информация от сенсоров промышленного оборудования, результаты запросов к базе. Такие файлы создаются на клиентском компьютере, телефоне или другом устройстве. Доступ к ним предоставлен пользователям, зарегистрированным в системе. У машинного источника всегда есть DSN (data source name — имя источника данных)
Файловые источники — таблицы, текстовые документы, PDF-файлы, изображения, аудио и видео. Такие файлы не прикреплены к конкретным компьютерам, приложениям, системам или пользователям. Их можно свободно распространять среди устройств. В отличие от машинных источников, у них нет DSN

Исследование данных

Следующий шаг — изучить собранные данные (датасет). Здесь аналитик должен разобраться, какие преобразования нужно сделать с датасетом, чтобы подготовить его для конечных пользователей.

Другими словами, на этом этапе происходит профилирование данных. Во время него аналитик идентифицируют паттерны и взаимосвязи, ищет аномалии, замечает пропущенные значения и другие проблемы, на которые надо обратить внимание.

Очистка данных

Далее аналитик исправляет найденные ошибки:

Дубли
Пропущенные значения
Выбросы
Неверный формат данных

Исправив все ошибки, мы создаем полный и точный датасет.

Структурирование или группировка данных

Далее аналитик подстраивает чистый датасет под конкретную ситуацию.

Для примера представим, что мы получаем данные в формате CSV (comma-separated values). Мы хотим проанализировать их с помощью BI-инструментов, но сходу сделать это не получится. Чтобы BI-инструменты смогли корректно считать и использовать их, нужно конвертировать CSV в таблицу.

Работать с неструктурированными данными неудобно. Например, в сырых данных о покупках одна строка может содержать информацию сразу о нескольких товарах:

Чтобы стало удобнее, нужно разделить товары и разместить каждый купленный продукт в отдельной строке:

Можно сделать данные еще понятнее. Например, человеку сложно воспринимать вот такие данные:

Будет гораздо проще, если мы возьмем номера магазинов и покупателей и заменим их на понятные имена:

Для этого разобьем исходные данные на три источника — таблицы Shops, Customers и Products:

Трансформация и обогащение данных

В дополнение к структурированию данных, датасет часто нужно трансформировать в однородный и используемый формат.

Например, во время трансформации данных мы можем создать новые столбцы или удалять старые, а также агрегировать значения из уже существующих столбцов.

Валидация данных и их сохранение

На финальном шаге остается проверить содержание, полноту и точность данных.

Далее подготовленные данные можно использовать так, как нам нужно: например, проанализировать самостоятельно или передать коллеге.

Как подключаться к источникам данных

К машинным источникам данных можно подключиться с помощью коннекторов (Data Source Connectors). Коннекторы запускают поток данных между приложениями, базами данных или аналитическими инструментами.

Работать таким образом намного удобнее, потому что коннекторы предоставляют однородную платформу, где данные из разных приложений встречаются и взаимодействуют.

Для примера представим, что мы отслеживаем рабочее время сотрудников через Jira и хотим создать отчет с помощью Tableau. Чтобы это сделать создадим новую книгу в Tableau и выберем, с каким источником соединиться:

То же самое можно сделать в Microsoft Excel:

Выводы

В этом уроке вы узнали, что повышение качества данных — это необходимый предварительный шаг, без которого грамотная аналитика невозможна. Теперь вы умеете самостоятельно готовить данные к полноценному анализу, ведь мы изучили все этапы этого процесса — сбор, исследование, очистку, структурирование, трансформацию и валидацию.