XPath

Question

XPath

Nikolai Gagarinov · Accepted Answer

XPath — это язык, предназначенный для обращения к узлам XML-разметки и выборки данных по заданным правилам. Он описывает путь к элементам внутри дерева документа и позволяет извлекать, фильтровать и интерпретировать информацию. XML продолжает использоваться в большом числе систем: корпоративных выгрузках, конфигурациях, RSS-лентах, офисных форматах. XPath остается универсальным инструментом доступа к этим данным благодаря компактному синтаксису и высокой точности запросов.

Назначение XPath

XML-документы могут быть объемными и содержать сотни или тысячи узлов. Ручной просмотр малоэффективен, поэтому XPath применяют для точного поиска элементов по их положению, структуре и характеристикам. Язык подходит для анализа данных, обработки выгрузок, навигации по HTML-разметке и участия в трансформациях XSLT.

XPath решает следующие задачи:

переход к конкретному узлу без ручного обхода дерева;
выборка элементов по атрибутам и значениям;
построение сложных фильтров на основе предикатов;
поиск фрагментов HTML, включая элементы без уникальных идентификаторов;
участие в XSLT-преобразованиях, где XPath определяет области входного XML.

Эти возможности делают язык востребованным в тестировании, разработке, парсинге данных, SEO-аналитике и верстке, где требуется быстрый и точный доступ к структуре документа.

Структура XML, важная для XPath

XML представляется в виде дерева узлов. Каждый узел обладает типом, положением в иерархии и связями с соседними элементами. Понимание структуры упрощает составление корректных запросов.

Типы узлов включают:

элементы;
текстовые фрагменты;
атрибуты;
комментарии;
инструкции обработки;
пространства имен.

У документа есть единый корневой элемент. Остальные компоненты формируют иерархию «предок — потомок». Узел верхнего уровня служит родителем вложенных элементов, а каждый элемент может содержать ноль или более дочерних узлов.

Встречаются атомарные узлы — сущности, не имеющие потомков. Например, текстовый блок без вложенных элементов.

Пути в XPath

Запросы XPath строятся на путях, которые могут быть абсолютными и относительными. Абсолютный путь начинается с символа / и указывает маршрут от корня. Такой запрос однозначно определяет положение элемента в документе.

Относительный путь начинается с // и ищет элементы в любой части дерева. Он гибче, так как позволяет обращаться к нужным узлам без строгой привязки к структуре.

Пример абсолютного пути:

1

/catalog/book/title

Пример относительного пути:

1

//book/title

Относительный путь дает больше свободы при работе с документами, структура которых может изменяться или быть частично неизвестной.

Синтаксис XPath

Запросы состоят из имени тега, предикатов и функций. Базовая форма включает путь и условия выбора.

Пример:

1

//item[@type='image']

Здесь item — имя тега, а условие внутри предиката ограничивает выборку узлами с указанным атрибутом.

Имя тега может быть конкретным или универсальным (*). Указание имени позволяет искать нужные элементы в любых частях документа. Атрибуты в запросах описываются через символ @, например @href или @name.

Предикаты

Предикаты помещаются в квадратные скобки и задают свойства, которым должны соответствовать элементы. Они поддерживают:

фильтрацию по позиции:

1

//row[1]

фильтрацию по атрибуту

1

//item[@id='12']

объединение условий с помощью логических операторов.

Поддерживаемые операторы включают and, or, not, а также сравнения: =, !=, >, <, >=, <=.

Пример составного условия:

1

//product[@category='books' and @available='true']

Предикаты позволяют значительно сузить выборку и получить ровно те элементы, которые соответствуют заданным критериям.

Функции XPath

XPath поддерживает функции для работы с текстовым содержимым узлов и дополнительной фильтрации данных. Это расширяет возможности простых поисковых выражений.

Ключевые функции:

text() — обращение к текстовому содержимому узла;
contains() — проверка подстроки в тексте или атрибуте;
функции сравнения, математические функции, функции для работы с узлами.

Пример запроса по тексту:

1

//title[text()='Документ']

Пример частичного совпадения:

1

//title[contains(text(),'Док')]

Функции позволяют искать элементы не только по структуре, но и по смысловому содержимому.

XPath и CSS-селекторы

XPath применяется к HTML-документам наряду с CSS-селекторами. Оба подхода используются для поиска элементов, но обладают разными возможностями.

Отличия XPath:

может находить родительские узлы, что недоступно в CSS-селекторах;
поддерживает поиск по тексту;
позволяет строить многоуровневые цепочки условий с логическими операторами.

CSS-селекторы быстрее в простых сценариях и активно применяются в DOM-манипуляциях, но XPath предпочтителен при сложной логике выбора и работе с большими документами. На практике оба инструмента используются параллельно.

Области применения XPath

XPath используется в разных профессиональных областях, где требуется точное извлечение структурированных данных:

тестирование: проверка элементов интерфейса и их свойств;
веб-разработка: парсинг HTML, выборка данных из страниц;
SEO-анализ: обработка больших XML-файлов, выгрузок, sitemap;
верстка: навигация по структуре документов без ручного поиска;
интеграционные решения: фильтрация и маршрутизация данных в XML-сообщениях.

Язык остается универсальным средством доступа к структурированной разметке даже в современных системах.

Как устроены запросы XPath

Запросы объединяют путь, предикаты и функции. Они могут быть простыми или составными. Основные конструкции:

Выбор узлов по имени:
1
//user
Поиск по атрибутам:
1
//link[@href='/home']
Поиск по тексту:
1
//h1[text()='Главная']
Фильтрация по значениям:
1
//item[@count>10]
Обращение к любому тегу:
1
//*[@id='main']

XPath формирует набор узлов, удовлетворяющих критериям. Результатом запроса может быть один элемент, множество элементов или пустое множество.

Иерархические связи в XPath

Язык позволяет перемещаться по структуре в различных направлениях:

parent:: — переход к родителю;
child:: — выбор вложенных элементов;
descendant:: — выбор всех потомков;
ancestor:: — выбор всех предков;
following-sibling:: и preceding-sibling:: — работа с соседними элементами.

Например:

1

//section/ancestor::body

Такие оси дают гибкость, недоступную большинству других механизмов выборки элементов.

Использование XPath в XSLT

XPath — обязательная часть XSLT-трансформаций. В XSLT правила преобразования определяются через выражения XPath. Они управляют выбором данных, фильтрацией, условными ветками, генерацией новых структур. Применение XPath делает трансформации точными, предсказуемыми и воспроизводимыми.