/
Вопросы и ответы
/
Аналитика данных
/

как посчитать дубликаты pandas

как посчитать дубликаты pandas

3 года назад

Arthur Cheremisin

Ответы

0

Для подсчета дубликатов в DataFrame с помощью библиотеки pandas можно использовать метод duplicated(). Этот метод возвращает булеву серию, указывающую, является ли каждая строка дубликатом или нет. Чтобы посчитать количество дубликатов, можно использовать метод sum() для подсчета количества значений True в булевой серии.

Пример кода:

import pandas as pd

# создание DataFrame
data = {'A': [1, 2, 2, 3, 4],
        'B': ['a', 'b', 'b', 'c', 'd']}
df = pd.DataFrame(data)

# поиск дубликатов
duplicates = df.duplicated()

# подсчет дубликатов
num_duplicates = duplicates.sum()

Этот код создает DataFrame, находит дубликаты с помощью метода duplicated() и подсчитывает количество дубликатов с помощью метода sum().

2 года назад

Ivan Mamtsev

+7 800 100 22 47

бесплатно по РФ

+7 495 085 21 62

бесплатно по Москве

108813 г. Москва, вн.тер.г. поселение Московский,
г. Московский, ул. Солнечная, д. 3А, стр. 1, помещ. 20Б/3
ОГРН 1217300010476
ИНН 7325174845