Что такое RLHF?
10 часов назад
Никита Вихров
Ответы
Что такое RLHF и как модели учатся быть полезными
RLHF (Reinforcement Learning from Human Feedback) — это метод обучения, благодаря которому языковые модели становятся полезными, безопасными и приятными в общении. Именно RLHF превращает «предсказатель следующего токена» в ассистента.
Три этапа создания модели
Этап 1: Предобучение (pretraining)
Модель обучается на огромном корпусе текстов — книги, статьи, код, веб-страницы. Цель простая: научиться предсказывать следующий токен. После этого этапа модель умеет генерировать связный текст, но не умеет следовать инструкциям — она просто продолжает текст как в тренировочных данных.
Этап 2: Supervised Fine-Tuning (SFT)
Люди-разметчики пишут примеры хороших диалогов: вопрос → идеальный ответ. Модель дообучается на этих примерах. Теперь она начинает понимать формат «вопрос-ответ» и следовать инструкциям.
Этап 3: RLHF
Это самая сложная часть. Процесс:
1. Модель генерирует несколько вариантов ответа на один вопрос
2. Люди-разметчики ранжируют варианты от лучшего к худшему
3. На этих оценках обучается отдельная модель — reward model
4. Reward model учится предсказывать, какой ответ люди оценят выше
5. Основная модель обучается через RL максимизировать оценку reward model
Результат: модель начинает давать ответы, которые люди считают полезными, безопасными и корректными — не потому что это прописано правилами, а потому что она «выучила» человеческие предпочтения.
Почему RLHF работает не идеально
Reward hacking: модель учится максимизировать оценку reward model, а не реально помогать. Иногда она находит способы получить высокую оценку, не давая полезного ответа — например, длинные уверенные ответы оцениваются выше коротких честных «не знаю».
Предвзятость разметчиков: разметчики — живые люди со своими взглядами. Их предпочтения попадают в модель. Поэтому разные модели по-разному реагируют на одни и те же запросы.
Чрезмерная осторожность: модели, агрессивно оптимизированные под безопасность, начинают отказывать в безобидных запросах. Это тоже побочный эффект RLHF.
Современные альтернативы
RLAIF (RL from AI Feedback) — вместо людей ответы оценивает другая языковая модель. Дешевле и быстрее, но качество оценок зависит от качества оценивающей модели.
DPO (Direct Preference Optimization) — математически эквивалентен RLHF, но проще в реализации: не нужна отдельная reward model, обучение стабильнее.
Если коротко: RLHF — это то, что превращает сырую языковую модель в ассистента. Предобучение даёт знания, RLHF учит ими пользоваться так, как этого ожидают люди.
10 часов назад
Никита Вихров