В Яндексе приступили к созданию по-настоящему универсальной нейросети SpeechGPT, которая будет способна обрабатывать разные виды вводных данных. Предполагается, что новая платформа будет воспринимать текст и речь одинаково хорошо. Она должна отвечать текстом и голосовыми фразами на запросы, решать разные задачи на стыке текста и речи. В рамках работ по созданию мультимодальной нейросети «Яндекс» открыл несколько десятков вакансий среди специалистов по машинному обучению.

На стыке текста и речи: в Яндексе анонсировали работу над мультимодальной нейросетью SpeechGPT.

Нейросеть SpeechGPT станет органическим продолжением существующих ИИ-сервисов «Яндекса». Например, с ассистентом «Алиса» уже сейчас можно общаться как голосом, так и текстом, а возможность обрабатывать одновременно текст и картинки есть в сервисе «Нейро». Но между мультимодальным пользовательским опытом и мультимодальностью самой нейросети есть разница, считают эксперты: в первом случае данные переводятся из одного вида в другой.

Так, голосовой ассистент сначала преобразовывает речь в текст, затем его анализирует другая нейросеть, а уже третья превращает ответ обратно из текста в речь. Причём на каждом из этих шагов данные упрощаются.

Мультимодальные модели учитывают контент разных типов без задержек и призваны улавливать эмоции, которые теряются при конвертации; так работает, к примеру, GPT-4o от OpenAI.

Аналитики полагают, что MVP-версия (минимально жизнеспособный продукт) SpeechGPT может появиться в ближайшие месяцы, а затем будет дорабатываться. Скорее всего, SpeechGPT будет встраиваться в уже существующие сервисы – будет происходить постепенная замена текущих нейросетевых моделей на более современные.