Зарегистрируйтесь для доступа к 15+ бесплатным курсам по программированию с тренажером

Цепочка операций Python: Функции

Функция sorted() хорошо демонстрирует важность и удобство функций высшего порядка для решения повседневных задач. Описав алгоритм один раз, мы можем получать различные варианты поведения, специфицируя их прямо по месту сортировки. То же самое относится к map(), filter() и reduce().

При использовании функций высшего порядка принято разделять задачу на подзадачи и выполнять их последовательно друг за другом, выстраивая в цепочку операций. Такое решение выглядит как протаскивание данных сквозь цепочку функций-преобразователей.

В СИКП такой подход сравнивают с тем, как происходит обработка сигналов при проектировании электросхем. Ток, протекая по схеме, проходит через цепочку преобразователей: фильтров, подавителей шума, усилителей и так далее. Напряжение (и создаваемый им ток) в этом случае выполняет роль данных, а преобразователи – роль функций.

Обработка сигналов

Предположим, что мы пишем функцию, которая принимает на вход список путей файловой системы, находит среди них файлы с расширением .py без учета регистра и возвращает имена этих файлов. Для решения этой задачи нам понадобятся следующие функции:

  • pathlib.Path(filepath) - создает объект Path, который предоставляет удобные методы для работы с путями файловой системы
  • path.is_file() — проверяет, является ли объект обычным "регулярным" файлом (а не директорией, ссылкой или другим типом файлов)
  • path.suffix — извлекает "расширение" из имени файла
  • path.stem— извлекает имя файла из полного пути
import os
import pathlib

def get_py_file_names(paths):
    result = []
    for filepath in paths:
        # Создаем объект Path для удобной работы с путями
        path = pathlib.Path(filepath)

        # Извлекаем расширение и приводим к нижнему регистру
        extension = path.suffix.lower()

        # Проверяем, существует ли путь, является ли файлом и имеет ли расширение .py
        if path.is_file() and extension == '.py':
            # Нормализуем путь и добавляем в результирующий список
            result.append(path.stem.lower())

    return result

# Пример использования
names = get_py_file_names(['solution.py', 'solution_test.py', 'README.md', '.venv'])
print(names)  # => ['solution', 'solution_test']

В примере выше типовое решение с использованием цикла. Его алгоритм можно описать так:

  1. Просматриваем каждый путь
  2. Если текущий путь — обычный файл с расширением .py (без учета регистра), то добавляем в результирующий список

Но если хорошо подумать, то можно увидеть, что эта задача распадается на две: фильтрацию и отображение.

import pathlib

# описываем предикат
def is_py_file(path):
  return pathlib.Path(path).is_file() \
        and pathlib.Path(path).suffix.lower() == '.py'

def get_py_file_names(paths):
    # используем генераторное выражение, чтобы не создавать промежуточные списки
    py_files = (path for path in paths if is_py_file(path))

    return [pathlib.Path(path).stem.lower() for path in py_files]

names = get_py_file_names(['solution.py', 'solution_test.py', 'README.md', '.venv'])
print(names) # => ['solution', 'solution_test']

Код получился чуть короче (без учета комментариев), и выразительнее, но главное не его размер. С увеличением количества операций и их сложности, код, разбитый таким образом, читается и анализируется значительно проще, так как каждая операция выполняется независимо для всего набора сразу. В голове приходится держать меньше деталей и можно сразу увидеть то, как операция влияет на все данные. Однако, научиться правильно разбивать задачу на подзадачи не так просто, как может показаться вначале. Нужна некоторая практика и сноровка перед тем, как ваш код станет удобоварим.

Standard Interfaces

Сама возможность такого разбиения основывается на простой идее, которую иногда называют "стандартные интерфейсы". Заключается она в том, что на входе и выходе из функций ожидается один и тот же тип данных, в нашем случае, список. Это позволяет соединять функции и строить цепочки, выполняющие большое количество разных задач, без необходимости реализовывать новые функции. Рассмотренные ранее операции — отображение, фильтрация и агрегация — комбинируясь друг с другом, позволяют решать подавляющее число задач по обработке коллекций. С чем-то подобным мы все встречались в своей жизни, когда собирали конструкторы Lego. Небольшое число примитивных деталей за счет одинаковых соединений позволяет строить конструкции практически неограниченной сложности.

Кстати, подобные цепочки нередко заканчиваются на агрегации, так как агрегация почти всегда выполняется в конце и сводит коллекцию к некоторому значению.

Производительность

За кадром остался вопрос производительности. Возможно, кто-то из вас догадался, что на каждый вызов функции, обрабатывающей коллекцию, мы получаем проход по всему списку. Чем больше таких функций, тем больше проходов. Казалось бы, код замедляется, зачем так делать? На практике дополнительные проходы — практически никогда не проблема (см. ссылку "Продуманная оптимизация" в дополнительных материалах). Задачи, в которых требуется одномоментная обработка десятков и сотен тысяч элементов, встречаются крайне редко. Большая часть операций происходит со списками до тысяч элементов. А для такого списка одним проходом больше одним меньше — разницы, можно сказать, никакой.

Также не забывайте использовать ленивые вычисления, где это можно. Часто в промежуточных шагах обработки нам не нужна сама коллекция в памяти. По сути мы можем накапливать необходимые действия, а во время первого использования выполнить сразу все одним проходом.


Дополнительные материалы

  1. Обработка сигналов
  2. Продуманная оптимизация

Аватары экспертов Хекслета

Остались вопросы? Задайте их в разделе «Обсуждение»

Вам ответят команда поддержки Хекслета или другие студенты

Об обучении на Хекслете

Для полного доступа к курсу нужен базовый план

Базовый план откроет полный доступ ко всем курсам, упражнениям и урокам Хекслета, проектам и пожизненный доступ к теории пройденных уроков. Подписку можно отменить в любой момент.

Получить доступ
1000
упражнений
2000+
часов теории
3200
тестов

Открыть доступ

Курсы программирования для новичков и опытных разработчиков. Начните обучение бесплатно

  • 130 курсов, 2000+ часов теории
  • 1000 практических заданий в браузере
  • 360 000 студентов
Отправляя форму, вы принимаете «Соглашение об обработке персональных данных» и условия «Оферты», а также соглашаетесь с «Условиями использования»

Наши выпускники работают в компаниях:

Логотип компании Альфа Банк
Логотип компании Aviasales
Логотип компании Yandex
Логотип компании Tinkoff
Рекомендуемые программы
профессия
Обучитесь разработке бэкенда сайтов и веб-приложений — серверной части, которая отвечает за логику и базы данных
10 месяцев
с нуля
Старт 7 ноября

Используйте Хекслет по-максимуму!

  • Задавайте вопросы по уроку
  • Проверяйте знания в квизах
  • Проходите практику прямо в браузере
  • Отслеживайте свой прогресс

Зарегистрируйтесь или войдите в свой аккаунт

Отправляя форму, вы принимаете «Соглашение об обработке персональных данных» и условия «Оферты», а также соглашаетесь с «Условиями использования»
Изображение Тото

Задавайте вопросы, если хотите обсудить теорию или упражнения. Команда поддержки Хекслета и опытные участники сообщества помогут найти ответы и решить задачу