Иногда встречаются задачи, в которых требуется отфильтровать записи после группировки.
Для примера представим, что нам нужно вывести суммарное время, проведенное на платформе каждым пользователем:
SELECT
user_id,
SUM(spent_minutes)
FROM course_reviews
GROUP BY user_id
ORDER BY user_id;
user_id | sum |
---|---|
1 |
69 |
2 |
60 |
3 |
9 |
4 |
68 |
9 |
77 |
16 |
27 |
View on DB Fiddle
Мы видим, что кто-то из пользователей провел много времени, а кто-то — совсем мало. Мы можем выбрать пользователей, которые провели на платформе меньше 30 минут, а затем связаться с ними и узнать, что именно им не понравилось.
Подобные условия невозможно задать с помощью WHERE
, потому что они применяются к выборке до момента группировки. У нас немного другой случай — мы хотим задать условие на результат агрегатной функции после проведения группировки.
В этой задаче понадобится дополнение к GROUP BY
, которое называется HAVING
. Именно его мы изучим в этом уроке.
Ключевое слово HAVING
С помощью ключевого слова HAVING
мы можем задать условия на строки выборки после группировки данных.
Попробуем найти пользователей, которые потратили менее 30 минут в онлайн-школе. Для этого напишем такой запрос:
SELECT
user_id,
SUM(spent_minutes)
FROM course_reviews
GROUP BY user_id
HAVING SUM(spent_minutes) < 30
ORDER BY user_id;
user_id | sum |
---|---|
3 |
9 |
16 |
27 |
23 |
4 |
67 |
27 |
75 |
27 |
78 |
13 |
View on DB Fiddle
Таких пользователей оказалось 6 человек.
Чем HAVING
отличается от WHERE
Давайте дополним наш запрос — укажем, что искать пользователей мы будем только среди первых 40 человек. Для этого добавим условие user_id < = 40
:
SELECT
user_id,
SUM(spent_minutes)
FROM course_reviews
WHERE user_id <= 40
GROUP BY user_id
HAVING SUM(spent_minutes) < 30
ORDER BY user_id;
user_id | sum |
---|---|
3 |
9 |
16 |
27 |
23 |
4 |
View on DB Fiddle
Обратим внимание на синтаксис запроса. Условия в HAVING
проверяются после группировки, поэтому они задаются после предложения GROUP BY
. В этом и состоит отличие от условий WHERE
, которые применяются к строкам исходной таблицы до группировки.
Таким образом, сначала мы убрали из исходной таблицы всех пользователей с user_id > 40
, затем провели группировку и посчитали суммарное время, а после этого отсеяли тех, кто пользовался платформой дольше 30 минут.
В этой ситуации мы могли бы добавить условие на user_id
и в HAVING
и получили бы тот же результат:
SELECT
user_id,
SUM(spent_minutes)
FROM course_reviews
GROUP BY user_id
HAVING SUM(spent_minutes) < 30 AND user_id <= 40
ORDER BY user_id;
user_id | sum |
---|---|
3 |
9 |
16 |
27 |
23 |
4 |
View on DB Fiddle
Такой запрос будет выполняться дольше, особенно если таблицы будут большими. Лучше сперва исключить ненужных пользователей, сгруппировать уже отфильтрованные данные и затем посчитать агрегатные функции.
Выводы
В этом уроке мы научились задавать условия на значение полей после группировки и применения агрегатных функций. Теперь вы знаете, как отфильтровать строки в сгруппированных данных с помощью HAVING
.
Еще мы разобрали разницу между WHERE
и HAVING
:
-
Если мы задаем условия через
WHERE
, они применяются к строкам исходной таблицы до группировки данных. ПоэтомуWHERE
записывается доGROUP BY
-
Если мы задаем условия через
HAVING
, они проверяются уже после группировки данных и записываются после предложенияGROUP BY
Дополнительные материалы
Остались вопросы? Задайте их в разделе «Обсуждение»
Вам ответят команда поддержки Хекслета или другие студенты