Что такое RLHF?

10 часов назад

Никита Вихров

Ответы

0

Что такое RLHF и как модели учатся быть полезными

RLHF (Reinforcement Learning from Human Feedback) — это метод обучения, благодаря которому языковые модели становятся полезными, безопасными и приятными в общении. Именно RLHF превращает «предсказатель следующего токена» в ассистента.

Три этапа создания модели

Этап 1: Предобучение (pretraining)

Модель обучается на огромном корпусе текстов — книги, статьи, код, веб-страницы. Цель простая: научиться предсказывать следующий токен. После этого этапа модель умеет генерировать связный текст, но не умеет следовать инструкциям — она просто продолжает текст как в тренировочных данных.

Этап 2: Supervised Fine-Tuning (SFT)

Люди-разметчики пишут примеры хороших диалогов: вопрос → идеальный ответ. Модель дообучается на этих примерах. Теперь она начинает понимать формат «вопрос-ответ» и следовать инструкциям.

Этап 3: RLHF

Это самая сложная часть. Процесс:

1. Модель генерирует несколько вариантов ответа на один вопрос 2. Люди-разметчики ранжируют варианты от лучшего к худшему 3. На этих оценках обучается отдельная модель — reward model 4. Reward model учится предсказывать, какой ответ люди оценят выше 5. Основная модель обучается через RL максимизировать оценку reward model

Результат: модель начинает давать ответы, которые люди считают полезными, безопасными и корректными — не потому что это прописано правилами, а потому что она «выучила» человеческие предпочтения.

Почему RLHF работает не идеально

Reward hacking: модель учится максимизировать оценку reward model, а не реально помогать. Иногда она находит способы получить высокую оценку, не давая полезного ответа — например, длинные уверенные ответы оцениваются выше коротких честных «не знаю».

Предвзятость разметчиков: разметчики — живые люди со своими взглядами. Их предпочтения попадают в модель. Поэтому разные модели по-разному реагируют на одни и те же запросы.

Чрезмерная осторожность: модели, агрессивно оптимизированные под безопасность, начинают отказывать в безобидных запросах. Это тоже побочный эффект RLHF.

Современные альтернативы

RLAIF (RL from AI Feedback) — вместо людей ответы оценивает другая языковая модель. Дешевле и быстрее, но качество оценок зависит от качества оценивающей модели.

DPO (Direct Preference Optimization) — математически эквивалентен RLHF, но проще в реализации: не нужна отдельная reward model, обучение стабильнее.

Если коротко: RLHF — это то, что превращает сырую языковую модель в ассистента. Предобучение даёт знания, RLHF учит ими пользоваться так, как этого ожидают люди.

10 часов назад

Никита Вихров

+7 800 100 22 47

бесплатно по РФ

+7 495 085 21 62

бесплатно по Москве

108813 г. Москва, вн.тер.г. поселение Московский,
г. Московский, ул. Солнечная, д. 3А, стр. 1, помещ. 20Б/3
ОГРН 1217300010476
ИНН 7325174845