Python: Деревья

Теория: Агрегация

Агрегация данных — наиболее важная операция при работе с деревьями. Подсчитать общее число файлов в директории, общий размер всех файлов, получить список всех файлов, найти все файлы по шаблону, все это — примеры агрегирования данных.

Ключевой момент в агрегирующих операциях — это накопление результата. Для этой задачи хорошо подходит обход дерева в глубину с использованием рекурсивного процесса, который подробно рассматривается в предыдущем уроке. С его помощью мы обходим все узлы дерева и собираем результат, начиная с самого нижнего уровня. В этом уроке мы погрузимся в эти темы и научимся на практике реализовывать агрегацию.

Как работает агрегация

Рассмотрим агрегацию с использованием рекурсивного процесса на примере подсчета общего количества узлов в дереве. Другими словами, попробуем выяснить, сколько всего файлов и директорий содержится в нашем файловом дереве:

from hexlet import fs

tree = fs.mkdir(
    "/",
    [
        fs.mkdir(
            "etc",
            [
                fs.mkfile("bashrc"),
                fs.mkfile("consul.cfg"),
            ],
        ),
        fs.mkfile("hexletrc"),
        fs.mkdir(
            "bin",
            [
                fs.mkfile("ls"),
                fs.mkfile("cat"),
            ],
        ),
    ],
)


# В реализации используем рекурсивный процесс,
# чтобы добраться до самого дна дерева
def get_nodes_count(node):
    if fs.is_file(node):
        # Возвращаем 1 для учета текущего файла
        return 1
    # Если узел — директория, получаем его потомков
    children = fs.get_children(node)
    # Самая сложная часть
    # Считаем количество потомков для каждого потомка,
    # вызывая рекурсивно нашу функцию get_nodes_count
    descendant_counts = list(map(get_nodes_count, children))
    # Возвращаем 1 (текущая директория) + общее количество потомков
    return 1 + sum(descendant_counts)


get_nodes_count(tree)
# 8

Кода здесь немного, но он неочевидный. Есть несколько ключевых моментов:

  1. Функция проверяет тип узла:
  • Если узел — это файл, тогда из функции возвращается единица
  • Если узел — это директория, тогда получаем потомков и для каждого потомка вновь вызываем нашу функцию, затем повторяем алгоритм заново
  1. Вызов функции на каждом потомке возвращает свой собственный результат — количество его потомков. Эти результаты образуют список с числами, которые нужно объединить
  2. В конце считаем общее количество всех потомков узла и добавляем к нему единицу (она обозначает текущий узел сам по себе)

Перед тем, как двигаться дальше, поизучайте этот код и попрактикуйтесь локально на своем компьютере. Это единственный способ разобраться с такой неочевидной темой как агрегация.

Рекомендуемые программы

Завершено

0 / 10