как посчитать дубликаты pandas
Ответы
Ivan Mamtsev
29 мая 2024
Для подсчета дубликатов в DataFrame с помощью библиотеки pandas можно использовать метод duplicated()
. Этот метод возвращает булеву серию, указывающую, является ли каждая строка дубликатом или нет. Чтобы посчитать количество дубликатов, можно использовать метод sum()
для подсчета количества значений True
в булевой серии.
Пример кода:
import pandas as pd
# создание DataFrame
data = {'A': [1, 2, 2, 3, 4],
'B': ['a', 'b', 'b', 'c', 'd']}
df = pd.DataFrame(data)
# поиск дубликатов
duplicates = df.duplicated()
# подсчет дубликатов
num_duplicates = duplicates.sum()
Этот код создает DataFrame, находит дубликаты с помощью метода duplicated()
и подсчитывает количество дубликатов с помощью метода sum()
.
0
0