Нейросеть «Сбера» для распознавания речи заняла первое место по знанию русского языка

На волне популярности нейросетей российские компании совершенствуют возможности работы нейросетей с русским языком

В новостях «Код Дурова» появилась информация о лучшей модели текстовой обработки на русском языке, разработанной SberDevices. Эта модель, называемая ruRoberta-large finetune, получила высшую оценку в главном русскоязычном рейтинге текстовых моделей Russian SuperGLUE. Она показала удивительное понимание текста и оказалась точнее других моделей, уступая только человеку.

Также в этом рейтинге представлены еще четыре модели от SberDevices. Представители компании объяснили, что ruRoberta является вариацией архитектуры BERT, которая была обучена на большом объеме текста с задачей восстановления маскированных слов. Обучение этой модели на суперкомпьютере «Кристофари» заняло три недели и использовался токенизатор BBPE от нейросети ruGPT-3.

Лидерборд Russian SuperGLUE является первым рейтингом нейросетей для русского языка. Рейтинг определяется по способности нейросети выполнять задания, связанные с логикой, здравым смыслом, целеполаганием и пониманием текста. Этот проект является открытым и используется всеми исследователями данных, работающими с русскоязычными нейросетями.

Наша конечная цель — создание надёжных интеллектуальных систем для решения разноплановых задач на русском языке, которые могут стать предшественниками сильного искусственного интеллекта отечественной сборки

Давид Рафаловский
Исполнительный вице-президент Сбербанка, CTO Сбера, руководитель блока «Технологии»

Источник: Ferra