Размеры современных state of the art моделей машинного обучения растут с каждым годом, что является препятствием к их использованию в условиях высоких требований к производитлеьности и размеру модели, например, на мобильных устройствах. Для решения подобной проблемы может помочь метод называемый дистилляцией знаний (KD, knowledge distillation), нацеленный на то, чтобы обучить малую модель имитиовать поведение большой более точной предобученной модели. В данной работе мы исследуем возможность приблизиться к качеству модели построенной на основе BERT-base, используя несколько рекуррентных архитектур нейронных сетей и подоход KD на задаче распознавания именованных сущностей в текстах экономической тематики. Было показано, что KD позволяет значительно улучшить качество прогнозирования по сравнению с обычным подходом к обучению модели с нуля. Более того, в нашей задаче рекуррентым малым моделям обученным с использованием KD подхода удалось достичь качества не сильно хуже исходной модели на основе BERT-base.