Команда «ВКонтакте» объявила об открытии доступа к своим технологиям распознавания речи для сторонних разработчиков. Опция доступна через веб-интерфейс на специальной странице и через публичный API «ВКонтакте». Решение подойдет для стартапов, инди-проектов, личных pet-проектов для обучения и саморазвития.
Сторонние разработчики могут использовать технологии «ВКонтакте» для считывания голоса и перевода его в текст. ASR (Automatic Speech Recognition) используется для расшифровки голосовых сообщений, генерации субтитров в видео, персональных рекомендаций. В рамках доступных инструментов можно выбрать одну из двух моделей ASR.
Нейтральная подойдет для разборчивой речи, как в телешоу или интервью, а спонтанная поможет, когда нужно обработать более обыденную речь со сленгом и ненормативной лексикой. Нейросети «ВКонтакте» умеют удалять из расшифровки шумы и паузы, понимают неразборчивую речь: одна отвечает за распознавание речи, вторая находит подходящие слова, а третья расставляет знаки препинания.
Все доступны инструменты построены таким образом, чтобы справляться с ежедневной обработкой сотен миллионов сообщений разной длительности, качества и наполнения. Каждое сообщение расшифровывается примерно за 1,5 секунды после отправки.
«Каждый месяц пользователи отправляют более 2 млрд голосовых сообщений - это миллионы часов аудио, которые обрабатывают нейросети компании», - заявил СТО «ВКонтакте» Александр Тоболь.