Как оценивать качество RAG
11 часов назад
Никита Вихров
Ответы
Как оценивать качество RAG
«Кажется работает» — не метрика. RAG-система может выдавать уверенные ответы, которые неправильны в 30% случаев, и ты не узнаешь об этом без систематической оценки. Разберём как это измерять и автоматизировать.
Три ключевых метрики
Context Recall — нашёл ли поиск нужные документы? Если правильный ответ есть в базе, но поиск его не вернул — всё остальное не важно.
Context Precision — насколько найденные документы релевантны? Если из 5 найденных документов только 1 полезен — контекст засорён и модель может запутаться.
Answer Faithfulness — не выдумала ли модель что-то сверх найденных документов? Ответ должен опираться на контекст, а не на «знания» модели.
Автоматическая оценка через LLM
Золотые метки — дорого и медленно. Быстрый вариант: оцениваем качество другой моделью.
Тестовый датасет — основа оценки
Без тестовых данных оценивать нечего. Собери датасет из реальных вопросов:
Как интерпретировать результаты
Низкий Context Recall → поиск не находит нужные документы. Чини chunking, embedding-модель или порог релевантности.
Низкий Context Precision → поиск находит много лишнего. Уменьши top_k, добавь re-ranking или подними порог similarity.
Низкий Answer Faithfulness → модель выдумывает сверх контекста. Сделай system prompt строже, явно запрети отвечать без источника.
Автоматизация в CI
Хорошая RAG-система — это не только правильный код, но и процесс: тестовый датасет, метрики, автоматическая проверка при каждом изменении. Без этого ты деплоишь вслепую.
Как выстраивать такой процесс в реальном проекте — разбирается на курсе «ИИ для разработчиков» на Хекслете. Весь материал — практика на живом проекте, а не абстрактные схемы. Автор курса Кирилл Мокевнин — разработчик с 18-летним опытом и основатель Хекслета.
11 часов назад
Никита Вихров





