Зарегистрируйтесь, чтобы продолжить обучение

Уход от циклов и векторизованные вычисления Python: Numpy-массивы

Numpy

Библиотека Numpy помогает придерживаться двух принципов:

  • Упрощение разработки и поддержки готового кода
  • Оптимизация вычислений

Для этого разработчики библиотеки использовали следующие подходы и механизмы:

  • Одинаковый интерфейс методов для выполнения операций над массивами разной размерности и типа
  • Укладывание и векторизация для замены циклов

В этом уроке мы рассмотрим примеры векторизованных функций и методов — причем и встроенных в Numpy, и реализованных самостоятельно.

Арифметические операции

Начнем с самой простой арифметической операции — сложения:

import numpy as np

# Сумма элементов вектора
test_vector = np.array([1,5,9])
print(np.sum(test_vector))
# => 15

# Сумма элементов матрицы
test_matrix = np.array(
    [
        [2, 4, 6],
        [1, 2, 8],
    ]
)
print(np.sum(test_matrix))
# => 23

Интерфейс функции np.sum() позволяет применять ее к массивам разной размерности без изменения синтаксиса. Реализация без циклов делается в одну строчку кода как для векторов, так и для матриц.

В случае одномерной структуры (вектора) сложение элементов можно производить только по одному направлению. В случае матрицы все немного по-другому — их элементы можно складывать по двум осям:

  • По строкам
  • По столбцам

Для суммирования по каждой из осей достаточно параметризовать функцию np.sum() таким образом:

# Сумма элементов матрицы по столбцам
print(np.sum(test_matrix, axis=0))
# => [ 3  6 14]

# Сумма элементов матрицы по строкам
print(np.sum(test_matrix, axis=1))
# => [12 11]

Интерфейс многих функций библиотеки Numpy сделан по аналогии с np.sum(). Например, чтобы найти средние значения в матрице по строкам и столбцам, можно воспользоваться функцией np.mean() с теми же параметрами:

# Среднее элементов матрицы по столбцам
print(np.mean(test_matrix, axis=0))
# => [1.5 3.  7. ]

# Среднее элементов матрицы по строкам
print(np.mean(test_matrix, axis=1))
# => [4. 3.67]

Методы массивов также реализованы с учетом возможности действия по разным осевым направлением. Синтаксических отличий от функций нет. Рассмотрим на примере метода для нахождения минимального значения.

# Минимальный элемент матрицы по столбцам
print(test_matrix.min(axis=0))
# => [1 2 6]

# Минимальный элемент матрицы по строкам
print(test_matrix.min(axis=1))
# => [2 1]

Векторизация не только присутствует в библиотеке Numpy. В более широком смысле это один из подходов к параллельным вычислениям, которые реализуются на уровне процессоров и видеокарт.

При этом важно понимать, что векторизация в Numpy не всегда помогает оптимизировать скорость выполнения функций. Иногда этого просто нельзя достичь.

Кроме ускорения, есть еще одна цель. Это унификация интерфейса написанных функций — она повышает читаемость кода. Это важно в разработке любых программ, ведь небольшое количество строк и единообразие кода снижают вероятность возникновения ошибок и упрощают поддержку.

Создание векторизованных функций

Чтобы создать собственную векторизованную функцию, можно использовать функцию np.vectorize().

Рассмотрим ее применение на примере функции fill_over_bound(). Она находит значения, выходящие за пределы некоторой границы, а затем меняет их на значение этой границы:

# Исходная функция
def fill_over_bound(a, b):
    '''Limit elements from array a by value b'''
    returned_value = a
    if a > b:
        returned_value = b
    return returned_value

# Векторизованный вариант
vectorized_fill_over_bound = np.vectorize(fill_over_bound)

Векторизованный вариант исходной функции можно применять к массивам разной размерности:

vector_array = [1,2,3,4,5,6]
matrix_array = [[1,6],[14,15]]
bound_value = 4

print(vectorized_fill_over_bound(vector_array, bound_value))
# => [1 2 3 4 4 4]

print(vectorized_fill_over_bound(matrix_array, bound_value))
# => [[1 4]
#  [4 4]]

При этом использование np.vectorize() необходимо. Попытка использовать не векторизованный вариант функции приведет к ошибке:

fill_over_bound(matrix_array, bound_value)
# => TypeError: '>' not supported between instances of 'list' and 'int'

Представим, что нам нужно подготовить данные о продажах сети магазинов за неделю.

Предположим, что для оценки качества работы магазинов мы решили рассматривать только типичные значения продаж. Типичным будем называть только те значения, которые не отклоняются от среднего показателя на величину более одного стандартного отклонения.

Перед аналитиком стоит такая задача — преобразовать все значения к типичному диапазону, заменив выбивающиеся значения на значения ближайшей к нему границы. Так выглядит список продаж:

# Список продаж
orders =  [
    [7, 1, 7, 8],
    [4, 2, 4, 5],
    [3, 5, 2, 3],
    [8, 12, 8, 7],
    [15, 11, 13, 9],
    [21, 18, 17, 21],
    [25, 16, 25, 94]
]
orders = np.array(orders)

А типичный диапазон к нему будет выглядеть вот так:

# Среднее
mean_val = orders.mean()
# Стандартное отклонение
sigma_val = orders.std()

# Построение типичного диапазона
print(f'({mean_val:.2f} - {sigma_val:.2f}, {mean_val:.2f} + {sigma_val:.2f})')
# => (13.25 - 17.02, 13.25 + 17.02)

# Типичный диапазон
print(f'({mean_val - sigma_val:.2f}, {mean_val + sigma_val:.2f})')
# => (-3.77, 30.27)

Теперь посмотрим на векторизованную функцию, которая заменяет нетипичные значения на ближайшую границу диапазона:

def fill_sigma_values(value, mean_val, sigma_val):
    prepared_value = value
    low_bound = mean_val - sigma_val
    upper_bound = mean_val + sigma_val

    if value < low_bound:
        prepared_value = low_bound
    elif value > upper_bound:
        prepared_value = upper_bound

    return prepared_value

fill_sigma_values = np.vectorize(fill_sigma_values)

Чтобы получить типичный массив продаж, остается только применить эту функцию к исходным данным:

print(fill_sigma_values(orders, mean_val, sigma_val))
# => [[ 7  1  7  8]
#  [ 4  2  4  5]
#  [ 3  5  2  3]
#  [ 8 12  8  7]
#  [15 11 13  9]
#  [21 18 17 21]
#  [25 16 25 30]]

Обратите внимание, что в примере выше функция не поменяла тип исходного массива. В итоге мы получили целочисленный массив типичных продаж.

Выводы

В этом уроке вы узнали больше о векторизации. Этот подход позволяет сократить время выполнения функций и упростить интерфейс для их использования. Теперь у вас есть необходимые знания, которые помогут создавать свои векторизированные функции и применять встроенные в библиотеку Numpy.


Самостоятельная работа

Представим такую ситуацию. В отделе аналитики магазина новый тимлид, из-за чего существенно изменился подход к написанию кода. Теперь предпочтение отдается только Numpy-подобным конструкциям. Команда аналитиков должна переписать решение двух задач по обработке данных кликов со страниц сайта. Данные не поменялись — как и раньше, это массив (матрица кликов). Строки матрицы — дни наблюдений, столбцы — страницы сайта.

Шаг 1. Напишите функцию get_int_columns_mean(clicks_values: np.ndarray), которая возвращает целочисленный массив средних значений кликов для каждой страницы сайта. Напоминаем, что циклы использовать не стоит.

Нажмите, чтобы увидеть ответ
def get_int_columns_mean(clicks_values):
    return np.mean(clicks_values, axis=0).astype(int)

Аватары экспертов Хекслета

Остались вопросы? Задайте их в разделе «Обсуждение»

Вам ответят команда поддержки Хекслета или другие студенты

Для полного доступа к курсу нужен базовый план

Базовый план откроет полный доступ ко всем курсам, упражнениям и урокам Хекслета, проектам и пожизненный доступ к теории пройденных уроков. Подписку можно отменить в любой момент.

Получить доступ
1000
упражнений
2000+
часов теории
3200
тестов

Открыть доступ

Курсы программирования для новичков и опытных разработчиков. Начните обучение бесплатно

  • 130 курсов, 2000+ часов теории
  • 1000 практических заданий в браузере
  • 360 000 студентов
Отправляя форму, вы принимаете «Соглашение об обработке персональных данных» и условия «Оферты», а также соглашаетесь с «Условиями использования»

Наши выпускники работают в компаниях:

Логотип компании Альфа Банк
Логотип компании Aviasales
Логотип компании Yandex
Логотип компании Tinkoff
Рекомендуемые программы
профессия
новый
Google таблицы, SQL, Python, Superset, Tableau, Pandas, визуализация данных, Anaconda, Jupyter Notebook, A/B-тесты, ROI
9 месяцев
с нуля
Старт 26 декабря

Используйте Хекслет по-максимуму!

  • Задавайте вопросы по уроку
  • Проверяйте знания в квизах
  • Проходите практику прямо в браузере
  • Отслеживайте свой прогресс

Зарегистрируйтесь или войдите в свой аккаунт

Отправляя форму, вы принимаете «Соглашение об обработке персональных данных» и условия «Оферты», а также соглашаетесь с «Условиями использования»