В Яндексе приступили к созданию по-настоящему универсальной нейросети SpeechGPT, которая будет способна обрабатывать разные виды вводных данных. Предполагается, что новая платформа будет воспринимать текст и речь одинаково хорошо. Она должна отвечать текстом и голосовыми фразами на запросы, решать разные задачи на стыке текста и речи. В рамках работ по созданию мультимодальной нейросети «Яндекс» открыл несколько десятков вакансий среди специалистов по машинному обучению.
Нейросеть SpeechGPT станет органическим продолжением существующих ИИ-сервисов «Яндекса». Например, с ассистентом «Алиса» уже сейчас можно общаться как голосом, так и текстом, а возможность обрабатывать одновременно текст и картинки есть в сервисе «Нейро». Но между мультимодальным пользовательским опытом и мультимодальностью самой нейросети есть разница, считают эксперты: в первом случае данные переводятся из одного вида в другой.
Так, голосовой ассистент сначала преобразовывает речь в текст, затем его анализирует другая нейросеть, а уже третья превращает ответ обратно из текста в речь. Причём на каждом из этих шагов данные упрощаются.
Мультимодальные модели учитывают контент разных типов без задержек и призваны улавливать эмоции, которые теряются при конвертации; так работает, к примеру, GPT-4o от OpenAI.
Аналитики полагают, что MVP-версия (минимально жизнеспособный продукт) SpeechGPT может появиться в ближайшие месяцы, а затем будет дорабатываться. Скорее всего, SpeechGPT будет встраиваться в уже существующие сервисы – будет происходить постепенная замена текущих нейросетевых моделей на более современные.