"Дистилляция BERT-based модели моделями рекуррентных нейронных сетей в задаче распознавания именованных сущностей на корпусе экономических текстов". Илья Павлович Малахов, бакалавриат НГУ, 14.8.2022
Состав коллектива
- Малахов Илья Павлович, бакалавриат ЭФ НГУ, направление бизнес-информатика, кафедра применения математических методов в экономике
Аннотация
Размеры современных state of the art моделей машинного обучения растут с каждым годом, что является препятствием к их использованию в условиях высоких требований к производитлеьности и размеру модели, например, на мобильных устройствах. Для решения подобной проблемы может помочь метод называемый дистилляцией знаний (KD, knowledge distillation), нацеленный на то, чтобы обучить малую модель имитиовать поведение большой более точной предобученной модели. В данной работе мы исследуем возможность приблизиться к качеству модели построенной на основе BERT-base, используя несколько рекуррентных архитектур нейронных сетей и подоход KD на задаче распознавания именованных сущностей в текстах экономической тематики. Было показано, что KD позволяет значительно улучшить качество прогнозирования по сравнению с обычным подходом к обучению модели с нуля. Более того, в нашей задаче рекуррентым малым моделям обученным с использованием KD подхода удалось достичь качества не сильно хуже исходной модели на основе BERT-base.
Публикации
- Compressing Bert 25 Times by RNN in Named Entity Recognition Task, Ilya Malakhov, Novosibirsk State University, 2022 - https://www.dialog-21.ru/media/5727/malakhovi130.pdf