Как работать с длинными документами в LLM?
9 часов назад
Никита Вихров
Ответы
Как работать с длинными документами в LLM
Документ не влезает в контекст — классическая проблема. PDF на 200 страниц, кодовая база из 50 файлов, лог на 100 000 строк. Разбираем три стратегии: разбивка на чанки, суммаризация, иерархическая обработка.
Стратегия 1: Map-Reduce
Обрабатываем каждый чанк отдельно, потом объединяем результаты:
Стратегия 2: иерархическая суммаризация
Суммаризируем чанки, потом суммаризируем суммари — для очень длинных документов:
Стратегия 3: скользящее окно для анализа
Для задач где важен локальный контекст — анализ кода, поиск паттернов:
Когда какую стратегию
Map-Reduce — когда нужен ответ на конкретный вопрос по всему документу. Работает для Q&A, извлечения данных, анализа.
Иерархическая суммаризация — когда нужно общее резюме очень длинного документа. Документы, книги, большие логи.
Скользящее окно — когда важен локальный контекст и нужно найти паттерны. Анализ кода, логов, последовательных данных.
На курсе «ИИ для разработчиков» на Хекслете разбирают как работать с реальными данными через агентов и пайплайны — включая обработку больших документов.
9 часов назад
Никита Вихров



.png)

