В этом курсе мы разобрали библиотеку Pandas. Это один из наиболее популярных инструментов для обработки и анализа табличных данных на языке Python. Теперь мы можем использовать инструментарий библиотеки Pandas в подготовке и анализе данных.
Мы изучили следующие темы:
- Использование Pandas для работы с табличными данными
- Чтение и запись табличных данных в файловую систему
- Работа с индексами
- Фильтрация значений и подготовка данных для анализа
- Применение функций к столбцам и строкам таблицы
- Визуализация данных
- Сводные таблицы
- Изменение формы и объединение таблиц
- Работа с Excel-файлами в Pandas
Мы изучили последовательность действий в работе с данными аналитики: чтение данных, их первичный анализ, исправление некорректных значений, статистический анализ и запись полученных результатов. Без них не обходится практически ни один проект, поэтому важно уметь работать с инструментами, которые позволяют их выполнять. Библиотека Pandas предоставляет такие методы.
Также мы познакомились с фильтрацией значений таблиц по индексам строк и столбцов объекта DataFrame библиотеки Pandas. Изложенные методы позволяют получать различные срезы данных в соответствии с условиями на индексы.
Еще мы разобрали подходы к фильтрации элементов DataFrame
. Научились искать пропуски и избавляться от них. Узнали, как создавать сложные логические маски для поиска элементов, и заменять значения в найденных позициях. Эти инструменты и навыки работы с ними необходимы для аналитика любого уровня, поскольку применяются на всех этапах цикла обработки и анализа данных.
Мы познакомились с несколькими способами преобразования строк и столбцов объекта DataFrame
библиотеки Pandas и рассмотрели различные типы графиков, которые доступны в Pandas для визуализации данных. Визуализация данных упрощает поиск выбросов и пропущенных значений, анализ статистических и интегральных характеристик и формулирование гипотез о закономерностях.
Также мы познакомились с возможностями библиотеки Pandas по агрегации данных. Разобрали примеры агрегации с помощью метода agg()
, а также более сложные примеры с использованием метода groupby()
. На практике данные методы применяются довольно часто в силу того, что агрегация данных позволяет выявлять закономерности, тренды и другие информативные показатели.
В конце мы разобрали методы Pandas для объединения табличных данных. Рассмотренные методы применяются по мере усложнения производимой операции. Еще мы познакомились с основными методами библиотеки Pandas для работы с табличными данными в формате Microsoft Excel: .xls, .xlsx. Мы научились их читать и записывать.
Также мы уделили внимание работе с файлами, в которых есть несколько листов, а также форматированию данных при записи. Набор этих навыков позволяет строить процессы по автоматизации обработки и анализу табличных данных, которые представляются в формате Excel.
Дополнительные материалы
Остались вопросы? Задайте их в разделе «Обсуждение»
Вам ответят команда поддержки Хекслета или другие студенты
Для полного доступа к курсу нужен базовый план
Базовый план откроет полный доступ ко всем курсам, упражнениям и урокам Хекслета, проектам и пожизненный доступ к теории пройденных уроков. Подписку можно отменить в любой момент.