Что такое инференс?
10 часов назад
Никита Вихров
Ответы
0
Что такое инференс
Инференс (inference) — это процесс получения ответа от обученной модели. Когда вы отправляете промпт и получаете ответ — это и есть инференс.
Важно не путать с обучением: обучение происходит один раз на мощных кластерах и занимает недели. Инференс — каждый раз, когда модель отвечает на запрос.
Инференс потребляет ресурсы:
- Память — вся модель должна поместиться в RAM или VRAM
- Вычисления — каждый токен генерируется последовательно
- Время — чем больше модель и длиннее ответ, тем дольше
Именно поэтому большие модели дороже: инференс GPT-4 стоит на порядок больше, чем GPT-3.5.
Локальный инференс — запуск модели на своём компьютере. Инструменты: ollama, llama.cpp, LM Studio. Подходит для небольших моделей (7–13B параметров) на современном MacBook или ПК с видеокартой.
Если коротко: инференс — это «запуск» модели на практике, в отличие от её создания.
10 часов назад
Никита Вихров
108813 г. Москва, вн.тер.г. поселение Московский,
г. Московский, ул. Солнечная, д. 3А, стр. 1, помещ. 20Б/3
ОГРН 1217300010476
ИНН 7325174845