/
Вопросы и ответы
/
Аналитика данных
/

как найти дубликаты pandas

как найти дубликаты pandas

3 года назад

Arthur Cheremisin

Ответы

1

Чтобы найти дубликаты в датафрейме pandas, можно использовать методо duplicated() или функцией drop_duplicates().

Метод duplicated() позволяет найти все строки, которые повторяются в данных. Метод возвращает серию булевых значений, где True указывает на дубликаты:

duplicates = df.duplicated()
print(duplicates)

Функция drop_duplicates() позволяет удалить все дубликаты из данных. По умолчанию оставляет первое вхождение строки. Но это поведение можно изменить с помощью параметра keep='last' и оставить последнее вхождение:

df.drop_duplicates(inplace=True)

Также можно указать столбцы, по которым нужно искать дубликаты, с помощью параметра subset=['col1', 'col2'].

2 года назад

Maksim Litvinov

+7 800 100 22 47

бесплатно по РФ

+7 495 085 21 62

бесплатно по Москве

108813 г. Москва, вн.тер.г. поселение Московский,
г. Московский, ул. Солнечная, д. 3А, стр. 1, помещ. 20Б/3
ОГРН 1217300010476
ИНН 7325174845