, , , ,

"Безопасное предобучение глубоких языковых моделей на синтетическом псевдоязыке". Таисия Евгеньевна Горбачева, бакалавриат НГУ, 21.6.2023

nsu_tegorbacheva_202306.pdf

Состав коллектива

Аннотация

На сегодняшний день нейросети крайне популярны и применяются во многих областях нашей жизни, в том числе для решения задач обработки естественного языка (NLP). Как известно, нейросети работают по принципу чёрного ящика, так как нельзя однозначно понять, как система принимает решение и, следовательно, гарантировать, какой итог будет после обучения. Соответственно, вопрос того, как обеспечить «безопасность» нейросети, является актуальным. Мы предположили, что одним из методов решения проблемы можно считать обучение нейросети на датасете, о котором полностью известно, какой он, то есть на том, который будет полностью создан нами. Для автоматического создания текста был выбран такой способ генерирования, как контекстно-свободная грамматика. Для проведения сравнения и оценки эффективности мы дважды предобучили трансформер RoBERTa: на сгенерированных предложениях и на выборке фраз естественного языка, которая также была подготовлена нами. Результаты тестирования показали, что модели имеют одинаковые оценки, то есть использование данных, автоматически созданных при помощи правил контекстно-свободной грамматики, даёт преимущество для «безопасности» искусственного интеллекта за счет того, что мы можем полностью контролировать состав выборки. Поскольку синтетические данные не уступают в качестве естественным, мы можем говорить о том, что на этапе предобучения модели типа RoBERTa действительно достаточно научиться распознавать только синтаксические и морфологические закономерности языка, которые могут быть успешно созданы довольно таким простым способом, как контекстно-свободная грамматика.