Сотрудники челябинской компании Napoleon IT под кодовым названием [CLS][UNK][PAD][PAD] приняли участие во Всероссийском конкурсе «Цифровой прорыв». В хакатоне, посвященному креативным индустриям, коммуникациям и контенту, команда успешно решила кейс от информационного агентства Интерфакс и заняла первое место.
В общей сложности в хакатоне Всероссийского конкурса «Цифровой прорыв» принимали участие 155 команд. В течение 48 часов молодые специалсты трудились над решением кейсов от 8 компаний и Министерств. Задачи были посвящены искусственному интеллекту, цифровой трансформации, Design, Big Data, Web, Mobile. По итогам конкурса были определены 24 команды-победителя.
[CLS][UNK][PAD][PAD] – команда международного разработчика Napoleon IT выбрала для решения кейс от крупнейшей в России негосударственной информационной группы Интерфакса. Необходимо было разработать программное решение, которое будет в автоматическом режиме генерировать названия для тематических подборок (сюжетов).
На данный момент сбор новостей в сюжеты у Интерфакса происходит автоматически по новостям, которые посвящены одной теме, событию или объекту. Например, «Олимпиада-2020», «Пандемия коронавируса», «ПМЭФ – 2021», «Выборы в США – 2020». Этим подборкам новостей нужны подходящие названия, которые необходимо генерировать автоматически.
Главная проблема заключалась в том, что текущая система анализирует большой поток новостей, автоматически рекомендует теги и собирает группы новостей, но при этом нет модуля генерации релевантных заголовков. Если для ее решения подключать группу из людей, которые будут все обрабатывать вручную, то необходимо было бы большее число человеческих ресурсов, утомительный и ручной труд, а скорость работы неизбежно снизилась.
Чтобы понять все проблемные места команда [CLS][UNK][PAD][PAD] провела аналитику сайта Интерфакса и других СМИ, а также custdev среди более 100 пользователей для выявление основных болей в потреблении контента, восприятии заголовков и группировки новостей. Результаты опросов и мониторинга показали, что пользователям важна группировка по событиям. Зачастую они смотрят новости в рабочих целях и читают их полностью. Как возможный конкурент с похожим функционалом был проанализирован Яндекс Дзен. На подобных платформах с рекомендательными видами контента после анализа каждой публикации присваиваются определенные интересы и формируется собственная подборка контента.
Общим решением проблемы стала разработка сервиса генерации заголовков, созданного на основе нейронной сети Bert, куда принимаются группы новостей, а далее к ним формируются автоматические заголовок. Для начала команда обучала эту сеть на десятках тысячей новостей пониманию лексики и контекста новостей. Когда сеть научилась читать новости, ее дообучили на написание заголовков на данных, предоставленных Интерфаксом и содержащих 200 групп новостей с названиями. Для ускорения обучения и генерации заголовков использовались только первые два предложения новостей, т.к. в них содержится смысл новости, а дальше идут детали не нужные для создания заголовка. При этом основной риск при генерации заголовков при помощи нейросетевой модели – генерация фейковых заголовков.
Также команда дала рекомендации по дальнейшему развитию системы, нивелированию рисков создания фейковых заголовков и просчитала экономическую эффективность внедрения данных технологий, которые помогли бы сэкономить Интерфаксу на найме 10 дополнительных сотрудников для группировки подобных новостей вручную.
Работа [CLS][UNK][PAD][PAD] получила высокую оценку от Владимира Герасимова, первого заместителя генерального директора, Группа «Интерфакс»: «Вы уже попали в те самые новости, к которым на хакатоне стояла задача автоматически создавать заголовки сюжетов. Задачи такого рода постоянно расширяются: у «Интерфакса уже более 20% новостей пишут алгоритмы. К решению ещё одной задачи — по автоматической генерации заголовков для новостных сюжетов — мы сегодня приблизились вместе с вами. Вы молодцы!»
СЕО компании Napoleon IT Павел Подкорытов также оценил работу команды: «Этот сервис может быть использован Интерфаксом для верификации названия статьи и ее содержания. Залог успеха каждого СМИ – это оперативное предоставление актуальной информации в удобном для читателя виде. В Интерфакса все новости и сюжеты собраны в тематические подборки, что позволяет видеть общую новостную картину дня и ориентироваться в информационной повестке. Это экономит время многих читателей».
«Я думаю, замена рутинного человеческого труда роботизированным – это позитивное явление, в том числе в журналистике. У людей освобождается больше времени на творческие задачи. Думаю, искусственный интеллект вполне может заменить человека в придумывании заголовков для новостей. Они строятся по очень простому правилу, которому учат на первом курсе журфака. Надо в одном предложении рассказать, что произошло, кто действующий персонаж, где случилось событие, иногда можно добавить подробность, которая делает новость уникальной. Это достаточно простой набор фактов, которые можно найти в тексте. Мне кажется, что совсем заменить журналистов роботы не смогут, это все-таки слишком «человеческая» профессия в вопросах выбора тем и доверительного общения с героями. Но, возможно, так думать – слишком самонадеянно», – отметил редактор отдела экономики ИА «Первое областное».
Napoleon IT – глобальная продуктовая компания, предоставляющая с 2011 года доступ к инновационным технологиям, уникальным талантам и международной экспертизе, с собственной научно-образовательной базой и глубокой экспертизой в AI. Офисы компании находятся в Москве, Санкт-Петербурге и Лос-Анджелесе. Компания является резидентом фонда Skolkovo.