ИТ-команда «Сбера» представила крупное обновление своих моделей искусственного интеллекта под общим названием GigaChat 2.0. Новые разработки по ряду критериев превосходят ведущие мировые аналоги, в том числе OpenAI GPT-4o, DeepSeek-V3 и Alibaba Qwen2.5. Мы попытались понять, как ИИ-модели нового поколения от «Сбера» могут помочь пользователям.

Флагманом обновлённой линейки является большая языковая модель GigaChat 2 MAX: она стала мощнее по сравнению с первым поколением. В задачах, связанных с русским языком, результаты модели превзошли показатели многих зарубежных аналогов.
GigaChat 2 Pro предназначена для случаев, когда важны точность и творческий подход. Она выступает на уровне MAX первого поколения, но потребляет меньше ресурсов. Модель GigaChat 2 Lite, предназначенная для решения простых задач, по качеству поднялась до уровня Pro предыдущего поколения.
Модели GigaChat 2.0 улучшили знания в математике, естественных и гуманитарных науках, а также усовершенствовали навыки программирования. Благодаря этому компании могут создавать более продуктивных ИИ-агентов, способных рассуждать и выполнять задачи в несколько этапов. Разработчикам агентов на Python и JavaScript будет полезна совместимость GigaChat с SDK LangChain.
В моделях семейства GigaChat 2.0 улучшена работа с контекстом беседы: они способны отвечать на сложные длинные вопросы и анализировать увеличенные объёмы текста. Если ранее максимальный объём составлял 48 страниц A4 (шрифт 14 pt), то теперь этот показатель вырос до 200 страниц. Это позволяет создавать более качественные чат-боты на основе GigaChat 2.0. Вдвое увеличилась способность следовать инструкциям пользователя, а качество ответов на вопросы повысилось на 25 %.
Флагманская GigaChat 2 MAX заняла первое место среди ИИ-моделей в независимом тесте MERA для русского языка. В бенчмарках MMLU на русском и английском она показала результаты на уровне мировых лидеров и по некоторым критериям превзошла их. В частности, она давала более качественные ответы на фактические вопросы и точнее следовала заданному формату, чем DeepSeek-V3, Alibaba Qwen2.5 (Qwen-2.5-75b) и OpenAI GPT-4o. Кроме того, GigaChat 2 MAX продемонстрировала лучшие результаты в тесте HumanEval на написание кода и продвинутые знания в точных науках.