, , , , , ,

"Исследование методов автоматического реферирования". Татьяна Викторовна Батура, ИСИ СО РАН, НГУ, 10.6.2022

iis_nsu_tvbatura_202206.pdf

Состав коллектива

Аннотация

Исследован метод настройки префикса (prefix-tuning) для моделей BART и mBART. Эксперименты проводились на 3 датасетах: CNN/Daily Mail (новостные тексты на английском языке), Gazeta (новостные тексты на русском языке), RuSERRC (научные тексты на русском языке). Метод настройки префикса показал сравнительно хорошие результаты при использовании на русскоязычных текстах в условиях малого количества данных. Количество примеров при обучении может быть уменьшено в 50 раз без значительной потери качества генерируемых коротких рефератов.

Разработан новый метод абстрактной суммаризации (MNELM), учитывающий ключевые термины в научных текстах. Предлагаемая модель показывает хорошие результаты в метриках суммирования по сравнению с обычным подходом и быстрее сходится. Предварительное обучение помогает модели сосредоточиться на словах, специфичных для предметной области, тогда как базовая модель учится восстанавливать в основном общеупотребимые слова.

Предложен метод предобучения языковой модели с помощью семантической сегментации текста. Применение семантической сегментации немного ухудшает качество и заметно увеличивает размер саммари, но при этом справляется с главной задачей — позволяет обрабатывать длинные тексты полностью, в отличие от других существующих на сегодняшний день языковых моделей.

Грантовая поддержка

Публикации