Узнайте, какой
вы программист?
Проверьте себя в Бинго от Хекслета, получите звание и приятные бонусы

как найти дубликаты pandas

Аватар пользователя Maksim Litvinov
Maksim Litvinov
09 сентября 2024

Чтобы найти дубликаты в датафрейме pandas, можно использовать методо duplicated() или функцией drop_duplicates().

Метод duplicated() позволяет найти все строки, которые повторяются в данных. Метод возвращает серию булевых значений, где True указывает на дубликаты:

duplicates = df.duplicated()
print(duplicates)

Функция drop_duplicates() позволяет удалить все дубликаты из данных. По умолчанию оставляет первое вхождение строки. Но это поведение можно изменить с помощью параметра keep='last' и оставить последнее вхождение:

df.drop_duplicates(inplace=True)

Также можно указать столбцы, по которым нужно искать дубликаты, с помощью параметра subset=['col1', 'col2'].

1 0

Есть что добавить? Зарегистрируйтесь

или войдите в аккаунт

Отправляя форму, вы принимаете «Соглашение об обработке персональных данных» и условия «Оферты», а также соглашаетесь с «Условиями использования»

Курсы по программированию в Хекслете

Backend-разработка

Разработка серверной части сайтов и веб-приложений

Frontend-разработка

Разработка внешнего интерфейса сайтов и веб-приложений и верстка

Создание сайтов

Разработка сайтов и веб-приложений на JS, Python, Java, PHP и Ruby on Rails

Тестирование

Ручное тестирование и автоматизированное тестирование на JS, Python, Java и PHP

Аналитика данных

Сбор, анализ и интерпретация данных на Python

Интенсивные курсы

Интенсивное обучение для продолжающих

DevOps

Автоматизация настройки локального окружения и серверов, развертывания и деплоя

Веб-разработка

Разработка, верстка и деплой сайтов и веб-приложений, трудоустройство для разработчиков

Математика для программистов

Обучение разделам математики, которые будут полезны при изучении программирования

JavaScript

Разработка сайтов и веб-приложений и автоматизированное тестирование на JS

Python

Веб-разработка, автоматическое тестирование и аналитика данных на Python

Java

Веб-разработка и автоматическое тестирование на Java

PHP

Веб-разработка и автоматическое тестирование на PHP

Ruby

Разработка сайтов и веб-приложений на Ruby on Rails

Go

Курсы по веб-разработке на языке Go

HTML

Современная верстка с помощью HTML и CSS

SQL

Проектирование базы данных, выполнение SQL-запросов и изучение реляционных СУБД

Git

Система управления версиями Git, регулярные выражения и основы командой строки

Бесплатные курсы

Бесплатные курсы по тестированию, дата-аналитике, верстке, программированию на Python, Java, PHP и JavaScript.