Буква «о» в названии GPT-4o означает omni, то есть всесторонний (всё и сразу). Новая ИИ-модель лучше воспринимает изображение и аудио по сравнению с существующими моделями, а также реагирует на голос, как человек во время разговора. В ближайшее время компания-разработчик платформы OpenAI добавит обновлённые решения в инструменты разработчиков и пользователей.
OpenAI анонсировала новую версию своей генеративной нейросети под названием GPT-4o. По словам Мира Мурати, технического директора разработчика, GPT-4o имеет интеллект уровня GPT-4, но более высокие возможности в работе с текстом и изображениями, а также с аудио. Она одинаково хорошо воспринимает голос, текст и визуальные образы.
К возможностям GPT-4 Turbo, которая обучалась на сочетании изображений и текста, была добавлена аналитика речи. GPT-4o получила контекстное окно в 128 тыс. токенов. Благодаря этому ИИ-чат-бот ChatGPT гораздо более осознанно понимает голосовые запросы и речь в целом. Например, ему можно будет задать вопрос и прервать его, когда он отвечает. По словам OpenAI, модель GPT-4o обеспечивает реагирование в реальном времени и может улавливать эмоции в голосе пользователя, отвечая в ответ голосом в различных эмоциональных стилях в соответствии с текущей ситуацией.
GPT-4o также улучшит визуальные возможности ChatGPT. Исходя из предложенной фотографии или экрана рабочего стола, ChatGPT теперь сможет быстро отвечать на сопутствующие вопросы: от «Что происходит в этом программном коде» до «Какую рубашку какого бренда носит этот человек?».
С 15 мая нейросеть GPT-4o доступна как платным, так и бесплатным пользователям ChatGPT. При этом существуют ограничения. Для подписчиков платных тарифных планов ChatGPT Plus и Team ограничение на количество сообщений будет в 5 раз выше. При превышении лимита ChatGPT автоматически переключится на GPT-3.5 для бесплатных пользователей и на GPT-4 – для платных.
Стоит отметить, что пользователям ChatGPT с GPT-4o на бесплатной основе станут доступны некоторые функции, которые прежде работали только у платных подписчиков. Так, обновлённый чат-бот сможет искать информацию не только в своей ИИ-модели, но также в интернете; анализировать данные и создавать графики; работать с пользовательскими изображениями и файлами; а также лучше помнить прежние взаимодействия с пользователем. Также бесплатные пользователи получат доступ к GPT Store.
OpenAI сообщила, что GPT-4o поддерживает больше 50 языков с улучшенной производительностью. Кроме того, скорость работы API OpenAI GPT-4o в два раза быстрее, чем в случае с GPT-4 Turbo, вдвое дешевле и имеет более высокие лимиты по скорости.