Что такое мультимодальные модели?
10 часов назад
Никита Вихров
Ответы
0
Что такое мультимодальные модели
Мультимодальная модель — это языковая модель, которая работает не только с текстом, но и с другими типами данных: изображениями, аудио, видео, файлами.
Примеры:
- отправить скриншот ошибки и спросить «что не так?»
- загрузить схему базы данных картинкой и попросить написать SQL
- передать аудиозапись и получить транскрипцию с резюме
Популярные мультимодальные модели: GPT-4o, Claude 3, Gemini.
Чем отличается от обычной модели: текстовая модель принимает только текст. Мультимодальная — понимает содержимое изображений и других медиа наравне с текстом.
В вайбкодинге это особенно полезно: можно сфотографировать макет интерфейса и попросить написать HTML, или скинуть скриншот с багом вместо того, чтобы долго его описывать словами.
Если коротко: мультимодальность — это когда модели можно показать, а не только рассказать.
10 часов назад
Никита Вихров
108813 г. Москва, вн.тер.г. поселение Московский,
г. Московский, ул. Солнечная, д. 3А, стр. 1, помещ. 20Б/3
ОГРН 1217300010476
ИНН 7325174845