как найти дубликаты pandas
Ответы
Maksim Litvinov
09 сентября 2024
Чтобы найти дубликаты в датафрейме pandas, можно использовать методо duplicated()
или функцией drop_duplicates()
.
Метод duplicated()
позволяет найти все строки, которые повторяются в данных. Метод возвращает серию булевых значений, где True
указывает на дубликаты:
duplicates = df.duplicated()
print(duplicates)
Функция drop_duplicates()
позволяет удалить все дубликаты из данных. По умолчанию оставляет первое вхождение строки. Но это поведение можно изменить с помощью параметра keep='last'
и оставить последнее вхождение:
df.drop_duplicates(inplace=True)
Также можно указать столбцы, по которым нужно искать дубликаты, с помощью параметра subset=['col1', 'col2']
.
1
0