В Новосибирске научили ИИ кратко пересказывать научные статьи

Новосибирск. 25 июня. ИНТЕРФАКС - Выпускница междисциплинарного направления математической лингвистики Новосибирского госуниверситета (НГУ) Алена Цанда создала первый открытый мультимодальный набор данных для машинного обучения (датасет) для реферирования научных статей и протестировала на нем языковые модели, сообщили "Интерфаксу" в НГУ.

"Особенность датасета - его мультимодальность: он включает в себя не только тексты статей и их аннотации, но также таблицы и рисунки с описаниями", - отметили в пресс-службе.

Разработка молодой исследовательницы стала первым подобным датасетом для работы с русскоязычными научными текстами, размещенным в открытом доступе.

Отмечается, что для научного домена подобных датасетов в открытом доступе обнаружено не было.

"Наш мультимодальный датасет создавался для суммаризации текстов, главной идеей которой является генерация краткого содержания. Данная задача, в частности, для научных текстов, становится всё более актуальной в связи с растущим количеством информации в Интернете", - поясняет разработчик.

На данный момент в датасете собрано и обработано 480 статей, каждая из которых представляет собой отдельную директорию.

Текстовая информация статьи сохранена в текстовых файлах, включающих название работы, аннотацию к ней и ее полный текст. Графическая информация (все рисунки и таблицы в статьях) сохранялась вручную в виде скриншотов.

Описания рисунков и таблиц представлены в формате JSON. Этот текстовый формат легко читается как людьми, так и машинами. Всего в датасете описано 496 рисунков и 279 таблиц.

На своем датасете разработчики протестировали популярные большие языковые модели: Gigachat (SBER), YandexGPT (Яндекс) и GPT-3.5 Turbo (OpenAI).

"Интересным моментом в тестировании была такая особенность современных языковых моделей, как цензура. Цензура необходима для обеспечения безопасности систем искусственного интеллекта. Модель Gigachat, к примеру, посчитала неэтичными 59% статей датасета", - отмечает Цанда.

Разработчик планирует расширить датасет такими техническими областями, как математика и физика - трудности обработки подобных статьей связаны с хранением большого количества формул, что до сих пор является нерешенным вопросом.

Цанда работала над мультимодальным датасетом вместе со своим научным руководителем старшим преподавателем кафедры фундаментальной и прикладной лингвистики, кандидатом технических наук Еленой Бручес. Совместно они написали статью для участия в международной конференции по искусственному интеллекту AINL 2024.

Разработчики планирует на основе собранных данных попробовать другие подходы к суммаризации текстов, а также создать свой инструмент для генерации аннотаций к научным статьям.