Зарегистрируйтесь для доступа к 15+ бесплатным курсам по программированию с тренажером

Группировка. Обратная связь Регулярные выражения (Regexp)

Конспект урока

Рассмотрим дополнительные возможности и различные виды группировки.

Группировка с обратной связью

У нас есть группа символов, из которой мы выбираем либо ta, либо tu:


/(ta|tu)/

ta-tu ta-ta tu-tu


Предположим, что мы хотим найти только те подстроки, в которых левая и правая части совпадают: ta - ta и tu - tu. Попробуем дополнить наше выражение ещё одним условием "или" и увидим, что реализовать задуманное нам не удалось:


/(ta|tu)-(ta|tu)/

ta-tu ta-ta tu-tu


Здесь нам поможет группировка с обратной связью. Она работает следующим образом. Мы используем специальное обозначение \1, которое говорит, что символы из первой группы — а у нас одна-единственная группа — нужно подставить вместо \1. Таким образом, совпадают подстроки с одинаковыми левыми и правыми частями:


/(ta|tu)-\1/

ta-tu ta-ta tu-tu


По умолчанию все группы символов, которые мы создаем, записываются в специальную область памяти и маркируются символами от \1 до \9. Если бы мы использовали квантификацию, то это не повлияло бы на результат, потому что она не участвует в обратной связи и берётся только первое вхождение в область памяти:


/(ta|tu)+-\1/

ta-tu ta-ta tu-tu


Именованные группы

Если вы используете несколько групп, то не очень удобно запоминать их по номерам. Гораздо проще пользоваться именами. Для этого нужно добавить ?<имя> после открытия скобки.


/(?<group1>ta|tu)-\k<group1>/

ta-tu ta-ta tu-tu


Теперь для осуществления операций с группой в своём коде вы можете ссылаться на группу по имени group1.

Группировка без обратной связи

Мы можем отключить обратную связь, поставив ?: внутри нашей группы:


/(?:ta|tu)-\1/

ta-tu ta-ta tu-tu


После этого группа перестанет сохраняться в специальную область памяти, и при её вызове возникнет ошибка, потому что такой группы в памяти не существует. При использовании этого подхода регулярное выражение становится очень сложно читать, однако оно работает быстрее. Это вполне рабочий метод, если у вас много групп, и часть из них вам уже не нужна, или вы не хотите их использовать, чтобы они не занимали много места и не мешали заниматься дальнейшей группировкой.

Атомарная группировка

Примеры в конспекте были доработаны, чтобы лучше показать особенности работы атомарной группировки.

Еще одна интересная разновидность группировки без обратной связи, которая называется атомарной. NB! Атомарная группировка не поддерживается некоторыми популярными языками программирования, в том числе JavaScript и Python. Но можно в гугле найти решения для их эмуляции на имеющихся конструкциях.

Для атомарной группировки вместо : используется символ >:


/a(?>bc|b|x)cc/

abcc axcc abcc


Когда мы добавляем символы атомарной группировки ?>, происходит следующее: сначала находится символ a, затем — bc, после чего идет поиск cc.

Давайте разберёмся, как она работает. Если мы уберём символы ?>, то регулярное выражение находит три подстроки: abcc, axcc и abcc:


/a(bc|b|x)cc/

abcc axcc abcc


В обычном случае в примере выше поиск откатился бы до a и продолжил бы проверку с b, поскольку стоит символ альтернативы |. После этого мы бы дошли до cc и проверка бы сработала.

При атомарной группировке возврат по строке до символа a отключается, и происходит дальнейшее движение по альтернативам bc -> b -> x, а после x — сопоставление cc.

Когда найдено первое совпадение из атомарной группы (?>bc|b|x), другие варианты из этой группы не рассматриваются. Дальше идет поиск со следующего символа из анализируемой строки с первого символа регулярного выражения.

Мы могли бы найти совпадение с подстрокой с атомарной группировкой, только если бы добавили к abcc еще один символ c:


/a(?>bc|b|x)cc/

abccc axcc abcc


После того как при атомарной группировке были пройдены все альтернативы из группы, дальнейший поиск прекращается.


Аватары экспертов Хекслета

Остались вопросы? Задайте их в разделе «Обсуждение»

Вам ответят команда поддержки Хекслета или другие студенты.

Для полного доступа к курсу нужен базовый план

Базовый план откроет полный доступ ко всем курсам, упражнениям и урокам Хекслета, проектам и пожизненный доступ к теории пройденных уроков. Подписку можно отменить в любой момент.

Получить доступ
1000
упражнений
2000+
часов теории
3200
тестов

Открыть доступ

Курсы программирования для новичков и опытных разработчиков. Начните обучение бесплатно.

  • 130 курсов, 2000+ часов теории
  • 1000 практических заданий в браузере
  • 360 000 студентов
Отправляя форму, вы принимаете «Соглашение об обработке персональных данных» и соглашаетесь с «Условиями использования»

Наши выпускники работают в компаниях:

Логотип компании Альфа Банк
Логотип компании Aviasales
Логотип компании Yandex
Логотип компании Tinkoff
Рекомендуемые программы

С нуля до разработчика. Возвращаем деньги, если не удалось найти работу.

Иконка программы Фронтенд-разработчик
Профессия
с нуля
Разработка фронтенд-компонентов для веб-приложений
1 декабря 10 месяцев
Иконка программы Онлайн-буткемп. Фронтенд-разработчик
Профессия
Новый с нуля
Интенсивное обучение профессии в режиме полного дня
15 декабря 4 месяца
Иконка программы Python-разработчик
Профессия
с нуля
Разработка веб-приложений на Django
1 декабря 10 месяцев
Иконка программы Java-разработчик
Профессия
с нуля
Разработка приложений на языке Java
1 декабря 10 месяцев
Иконка программы PHP-разработчик
Профессия
с нуля
Разработка веб-приложений на Laravel
1 декабря 10 месяцев
Иконка программы Node.js-разработчик
Профессия
с нуля
Разработка бэкенд-компонентов для веб-приложений
1 декабря 10 месяцев
Иконка программы Fullstack-разработчик
Профессия
с нуля
Разработка фронтенд- и бэкенд-компонентов для веб-приложений
1 декабря 16 месяцев

Используйте Хекслет по-максимуму!

  • Задавайте вопросы по уроку
  • Проверяйте знания в квизах
  • Проходите практику прямо в браузере
  • Отслеживайте свой прогресс

Зарегистрируйтесь или войдите в свой аккаунт

Отправляя форму, вы принимаете «Соглашение об обработке персональных данных» и соглашаетесь с «Условиями использования»