Скидки до 28% + 2-ая профессия бесплатно и подарки на 50 000₽

как убрать выбросы pandas

Аватар пользователя Ivan Mamtsev
Ivan Mamtsev
29 мая 2024

Для удаления выбросов в данных с помощью библиотеки pandas, можно использовать метод фильтрации исходного датафрейма. Вот несколько способов, которые помогут вам убрать выбросы:

  1. Используйте стандартное отклонение (standard deviation) для определения выбросов. Вы можете удалить строки, в которых значение признака отклоняется более чем на несколько стандартных отклонений от среднего значения:
mean = df['column_name'].mean()
std = df['column_name'].std()
threshold = 3
df = df[(df['column_name'] < mean + threshold * std) & (df['column_name'] > mean - threshold * std)]
  1. Используйте квантили (quantiles) для определения выбросов. Вы можете установить пороговые значения для квартилей и удалить строки, значения которых находятся за пределами этих порогов:
q_low = df['column_name'].quantile(0.25)
q_hi = df['column_name'].quantile(0.75)
q_range = q_hi - q_low
df = df[(df['column_name'] < q_hi + 1.5 * q_range) & (df['column_name'] > q_low - 1.5 * q_range)]
  1. Используйте метод межквартильного размаха (interquartile range) для определения выбросов. Вы можете удалить строки, значения которых находятся за пределами интервала умноженного на коэффициент:
q1 = df['column_name'].quantile(0.25)
q3 = df['column_name'].quantile(0.75)
iqr = q3 - q1
df = df[(df['column_name'] < q3 + 1.5 * iqr) & (df['column_name'] > q1 - 1.5 * iqr)]

Выбор метода удаления выбросов зависит от особенностей ваших данных и контекста задачи. При выборе метода также важно учитывать возможные последствия удаления данных, так как это может повлиять на результаты анализа.

0 0

Есть что добавить? Зарегистрируйтесь

или войдите в аккаунт

Отправляя форму, вы принимаете «Соглашение об обработке персональных данных» и условия «Оферты», а также соглашаетесь с «Условиями использования»

Курсы по программированию в Хекслете

Программирование

Веб-разработка

Разработка, верстка и деплой сайтов и веб-приложений, трудоустройство для разработчиков

Frontend-разработка

Разработка внешнего интерфейса сайтов и веб-приложений и верстка

Создание сайтов

Разработка сайтов и веб-приложений на JS, Python, Java, PHP и Ruby on Rails

Backend-разработка

Разработка серверной части сайтов и веб-приложений

Тестирование

Ручное тестирование и автоматизированное тестирование на JS, Python, Java и PHP

Аналитика данных

Сбор, анализ и интерпретация данных на Python

Интенсивные курсы

Интенсивное обучение для продолжающих

DevOps

Автоматизация настройки локального окружения и серверов, развертывания и деплоя

Математика для программистов

Обучение разделам математики, которые будут полезны при изучении программирования

JavaScript

Разработка сайтов и веб-приложений и автоматизированное тестирование на JS

Тест-драйв

Python

Веб-разработка, автоматическое тестирование и аналитика данных на Python

Java

Веб-разработка и автоматическое тестирование на Java

PHP

Веб-разработка и автоматическое тестирование на PHP

Ruby

Разработка сайтов и веб-приложений на Ruby on Rails

Go

Курсы по веб-разработке на языке Go

Верстка

HTML

Современная верстка с помощью HTML и CSS

SQL

Проектирование базы данных, выполнение SQL-запросов и изучение реляционных СУБД

Git

Система управления версиями Git, регулярные выражения и основы командой строки

Бесплатные курсы

Бесплатные курсы по тестированию, дата-аналитике, верстке, программированию на Python, Java, PHP и JavaScript.

Базы данных

Фреймворки