На конференции AI Journey команда разработчиков «Сбербанка» анонсировала обновлённую генеративную модель искусственного интеллекта Kandinsky 3.0, предназначенную для создания изображений. Кроме того, была представлена нейросеть Kandinsky Video, способная создавать 8-секундные видеоролики на основе текстового описания.
По словам разработчиков, главным нововведением Kandinsky 3.0 стало обучение нейросети элементам отечественного культурного кода. В первую очередь это коснулось советских и российских знаменитостей и персонажей, архитектурных достопримечательностей, культурных объектов и объектов народного творчества. Например, нейросеть теперь знакома с гжелью. Усовершенствована функция редактирования изображения. Кроме того, появилась возможность дорисовки картины в режиме бесконечного полотна.
По умолчанию Kandinsky 3.0 создаёт картинки c разрешением 1024 × 1024 пикселей, но есть возможность выбрать другое соотношение сторон. При обучении команда разработки использовала массив из 1,5 млрд пар изображений с текстовыми описаниями. Нейросеть также получила поддержку генерации 4-секундных видеороликов по текстовому описанию — они имеют разрешение 640 × 640 пикселей с частотой 24 кадра в секунду. Генерация одной секунды видео занимает примерно 20 секунд. Модели анимации включают перемещения объектов, их приближение, удаление и другие приёмы. Основу алгоритма составляет перерисовка изображения по текстовому описанию.
Нейросеть Kandinsky Video позволяет генерировать видеоряд продолжительностью до 8 секунд с частотой 30 кадров в секунду. Архитектура Kandinsky Video включает в себя два основных блока. Первый блок отвечает за генерацию ключевых кадров, используемых для создания структуры сюжета видео, а второй — генерирует интерполяционные кадры, за счёт чего достигается плавность движения в финальном ролике. Оба блока построены на базе модели синтеза изображений по текстовым описаниям Kandinsky 3.0.
В настоящее время Kandinsky Video может создавать видео с разрешением 512 × 512 пикселей и разным соотношением сторон. Для обучения алгоритма использовался датасет из более чем 300 тыс. пар «текст-видео». Сам же процесс генерации ролика занимает до 3 минут. Алгоритм создаёт видео с движением как объекта, так и фона. Это отличает сгенерированные нейросетью видео от анимационных роликов, в которых динамика достигается за счёт моделирования полёта камеры относительно статичной сцены.
Отмечается, что ранее некоторые пользователи нейросети Kandinsky 2.2 в тестовом режиме получили доступ к функции создания анимационных роликов. Всего одного запроса достаточно для генерации видео продолжительностью до 4 секунд с выбранными эффектами анимации, частотой 24 кадра в секунду и разрешением 640 × 640 пикселей. Пользователи новой версии Kandinsky 3.0 также могут генерировать ролики по текстовому описанию в режиме анимации.
Поработать с моделью Kandinsky 3.0 можно на платформе fusionbrain.ai, на сайте rudalle.ru, при помощи ботов в Telegram и «ВКонтакте», в переписке с чат-ботом GigaChat, в приложениях «СберБанк Онлайн» и «Салют», а также в умных устройствах от «Сбербанка» по команде «запусти художника». Доступ к созданию анимации в Telegram производится по предварительной заявке.