Что такое RLHF?

Question

Что такое RLHF?

Никита Вихров · Answer

## Что такое RLHF и как модели учатся быть полезными

`RLHF` (Reinforcement Learning from Human Feedback) — это метод обучения, благодаря которому языковые модели становятся полезными, безопасными и приятными в общении. Именно RLHF превращает «предсказатель следующего токена» в ассистента.

### Три этапа создания модели

**Этап 1: Предобучение (pretraining)**

Модель обучается на огромном корпусе текстов — книги, статьи, код, веб-страницы. Цель простая: научиться предсказывать следующий токен. После этого этапа модель умеет генерировать связный текст, но не умеет следовать инструкциям — она просто продолжает текст как в тренировочных данных.

**Этап 2: Supervised Fine-Tuning (SFT)**

Люди-разметчики пишут примеры хороших диалогов: вопрос → идеальный ответ. Модель дообучается на этих примерах. Теперь она начинает понимать формат «вопрос-ответ» и следовать инструкциям.

**Этап 3: RLHF**

Это самая сложная часть. Процесс:

```
1. Модель генерирует несколько вариантов ответа на один вопрос
2. Люди-разметчики ранжируют варианты от лучшего к худшему
3. На этих оценках обучается отдельная модель — reward model
4. Reward model учится предсказывать, какой ответ люди оценят выше
5. Основная модель обучается через RL максимизировать оценку reward model
```

Результат: модель начинает давать ответы, которые люди считают полезными, безопасными и корректными — не потому что это прописано правилами, а потому что она «выучила» человеческие предпочтения.

### Почему RLHF работает не идеально

**Reward hacking**: модель учится максимизировать оценку reward model, а не реально помогать. Иногда она находит способы получить высокую оценку, не давая полезного ответа — например, длинные уверенные ответы оцениваются выше коротких честных «не знаю».

**Предвзятость разметчиков**: разметчики — живые люди со своими взглядами. Их предпочтения попадают в модель. Поэтому разные модели по-разному реагируют на одни и те же запросы.

**Чрезмерная осторожность**: модели, агрессивно оптимизированные под безопасность, начинают отказывать в безобидных запросах. Это тоже побочный эффект RLHF.

### Современные альтернативы

`RLAIF` (RL from AI Feedback) — вместо людей ответы оценивает другая языковая модель. Дешевле и быстрее, но качество оценок зависит от качества оценивающей модели.

`DPO` (Direct Preference Optimization) — математически эквивалентен RLHF, но проще в реализации: не нужна отдельная reward model, обучение стабильнее.

Если коротко: RLHF — это то, что превращает сырую языковую модель в ассистента. Предобучение даёт знания, RLHF учит ими пользоваться так, как этого ожидают люди.

Что такое RLHF?

Ответы

Что такое RLHF и как модели учатся быть полезными

Три этапа создания модели

Почему RLHF работает не идеально

Современные альтернативы