"Безопасное предобучение глубоких языковых моделей на синтетическом псевдоязыке". Таисия Евгеньевна Горбачева, бакалавриат НГУ, 21.6.2023
Состав коллектива
- Горбачева Таисия Евгеньевна, студентка НГУ
- Бондаренко Иван Юрьевич, старший преподаватель ФиПЛ, научный руководитель
Аннотация
На сегодняшний день нейросети крайне популярны и применяются во многих областях нашей жизни, в том числе для решения задач обработки естественного языка (NLP). Как известно, нейросети работают по принципу чёрного ящика, так как нельзя однозначно понять, как система принимает решение и, следовательно, гарантировать, какой итог будет после обучения. Соответственно, вопрос того, как обеспечить «безопасность» нейросети, является актуальным. Мы предположили, что одним из методов решения проблемы можно считать обучение нейросети на датасете, о котором полностью известно, какой он, то есть на том, который будет полностью создан нами. Для автоматического создания текста был выбран такой способ генерирования, как контекстно-свободная грамматика. Для проведения сравнения и оценки эффективности мы дважды предобучили трансформер RoBERTa: на сгенерированных предложениях и на выборке фраз естественного языка, которая также была подготовлена нами. Результаты тестирования показали, что модели имеют одинаковые оценки, то есть использование данных, автоматически созданных при помощи правил контекстно-свободной грамматики, даёт преимущество для «безопасности» искусственного интеллекта за счет того, что мы можем полностью контролировать состав выборки. Поскольку синтетические данные не уступают в качестве естественным, мы можем говорить о том, что на этапе предобучения модели типа RoBERTa действительно достаточно научиться распознавать только синтаксические и морфологические закономерности языка, которые могут быть успешно созданы довольно таким простым способом, как контекстно-свободная грамматика.