"Исследование методов автоматического реферирования". Татьяна Викторовна Батура, ИСИ СО РАН, НГУ, 10.6.2022

Состав коллектива

  • Батура Татьяна Викторовна, старший научный сотрудник ЛМСС ИСИ СО РАН, доцент кафедры СИ ФИТ НГУ
  • Березин Сергей Андреевич, студент ММФ НГУ, BDA&AI, 2 курс магистратуры
  • Ваулин Данил Николаевич, студент ФИТ НГУ, кафедра систем информатики, 4 курс
  • Паульс Алексей Евгеньевич, студент ФИТ НГУ, кафедра систем информатики, 2 курс магистратуры
  • Шварц Никита Андреевич, аспирант ФИТ НГУ, кафедра систем информатики, 1 курс

Аннотация

Исследован метод настройки префикса (prefix-tuning) для моделей BART и mBART. Эксперименты проводились на 3 датасетах: CNN/Daily Mail (новостные тексты на английском языке), Gazeta (новостные тексты на русском языке), RuSERRC (научные тексты на русском языке). Метод настройки префикса показал сравнительно хорошие результаты при использовании на русскоязычных текстах в условиях малого количества данных. Количество примеров при обучении может быть уменьшено в 50 раз без значительной потери качества генерируемых коротких рефератов.

Разработан новый метод абстрактной суммаризации (MNELM), учитывающий ключевые термины в научных текстах. Предлагаемая модель показывает хорошие результаты в метриках суммирования по сравнению с обычным подходом и быстрее сходится. Предварительное обучение помогает модели сосредоточиться на словах, специфичных для предметной области, тогда как базовая модель учится восстанавливать в основном общеупотребимые слова.

Предложен метод предобучения языковой модели с помощью семантической сегментации текста. Применение семантической сегментации немного ухудшает качество и заметно увеличивает размер саммари, но при этом справляется с главной задачей — позволяет обрабатывать длинные тексты полностью, в отличие от других существующих на сегодняшний день языковых моделей.

Грантовая поддержка

  • Грант РФФИ 19-07-01134 «Создание моделей, методов и программных средств анализа текстов на естественном языке для использования в интеллектуальных информационных системах», 2019–2021гг., руководитель Батура Татьяна Викторовна.

Публикации

  • Ваулин Д.Н. Разработка программного модуля автоматического реферирования текстов с применением метода настройки префикса // Сборник тезисов МНСК-2022. (РИНЦ) (работа награждена дипломом 2 степени).