Иногда встречаются задачи, в которых требуется отфильтровать записи после группировки.
Для примера представим, что нам нужно вывести суммарное время, проведенное на платформе каждым пользователем:
SELECT
user_id,
SUM(spent_minutes)
FROM course_reviews
GROUP BY user_id
ORDER BY user_id;
| user_id | sum |
|---|---|
| 1 | 69 |
| 2 | 60 |
| 3 | 9 |
| 4 | 68 |
| 9 | 77 |
| 16 | 27 |
View on DB Fiddle
Мы видим, что кто-то из пользователей провел много времени, а кто-то — совсем мало. Мы можем выбрать пользователей, которые провели на платформе меньше 30 минут, а затем связаться с ними и узнать, что именно им не понравилось.
Подобные условия невозможно задать с помощью WHERE, потому что они применяются к выборке до момента группировки. У нас немного другой случай — мы хотим задать условие на результат агрегатной функции после проведения группировки.
В этой задаче понадобится дополнение к GROUP BY, которое называется HAVING. Именно его мы изучим в этом уроке.
Ключевое слово HAVING
С помощью ключевого слова HAVING мы можем задать условия на строки выборки после группировки данных.
Попробуем найти пользователей, которые потратили менее 30 минут в онлайн-школе. Для этого напишем такой запрос:
SELECT
user_id,
SUM(spent_minutes)
FROM course_reviews
GROUP BY user_id
HAVING SUM(spent_minutes) < 30
ORDER BY user_id;
| user_id | sum |
|---|---|
| 3 | 9 |
| 16 | 27 |
| 23 | 4 |
| 67 | 27 |
| 75 | 27 |
| 78 | 13 |
View on DB Fiddle
Таких пользователей оказалось 6 человек.
Чем HAVING отличается от WHERE
Давайте дополним наш запрос — укажем, что искать пользователей мы будем только среди первых 40 человек. Для этого добавим условие user_id <= 40:
SELECT
user_id,
SUM(spent_minutes)
FROM course_reviews
WHERE user_id <= 40
GROUP BY user_id
HAVING SUM(spent_minutes) < 30
ORDER BY user_id;
| user_id | sum |
|---|---|
| 3 | 9 |
| 16 | 27 |
| 23 | 4 |
View on DB Fiddle
Обратим внимание на синтаксис запроса. Условия в HAVING проверяются после группировки, поэтому они задаются после предложения GROUP BY. В этом и состоит отличие от условий WHERE, которые применяются к строкам исходной таблицы до группировки.
Таким образом, сначала мы убрали из исходной таблицы всех пользователей с user_id > 40, затем провели группировку и посчитали суммарное время, а после этого отсеяли тех, кто пользовался платформой дольше 30 минут.
В этой ситуации мы могли бы добавить условие на user_id и в HAVING и получили бы тот же результат:
SELECT
user_id,
SUM(spent_minutes)
FROM course_reviews
GROUP BY user_id
HAVING SUM(spent_minutes) < 30 AND user_id <= 40
ORDER BY user_id;
| user_id | sum |
|---|---|
| 3 | 9 |
| 16 | 27 |
| 23 | 4 |
View on DB Fiddle
Такой запрос будет выполняться дольше, особенно если таблицы будут большими. Лучше сперва исключить ненужных пользователей, сгруппировать уже отфильтрованные данные и затем посчитать агрегатные функции.
Выводы
В этом уроке мы научились задавать условия на значение полей после группировки и применения агрегатных функций. Теперь вы знаете, как отфильтровать строки в сгруппированных данных с помощью HAVING.
Еще мы разобрали разницу между WHERE и HAVING:
- Если мы задаем условия через
WHERE, они применяются к строкам исходной таблицы до группировки данных. ПоэтомуWHEREзаписывается доGROUP BY - Если мы задаем условия через
HAVING, они проверяются уже после группировки данных и записываются после предложенияGROUP BY