Энкодерная языковая модель ruRoberta-large (355 млн параметров, finetune), разработанная SberDevices, признана лучшей по оценке главного русскоязычного бенчмарка Russian SuperGLUE, уступив место только человеку. Место в рейтинге зависит от того, насколько качественно нейросеть выполняет задания на логику, здравый смысл, целеполагание и понимание смысла текста. Это открытый проект, которым пользуются все исследователи данных, работающие с русскоязычными языковыми моделями.

Также на сегодняшний день в топ-10 входят ещё 5 моделей SberDevices: ruT5-large-finetune, ruBert-large finetune, ruT5-base-finetune, ruBert-base finetune, RuGPT3XL few-shot.

Оценка общего понимания языка моделью формируется на основе результатов девяти заданий и включает в себя диагностический датасет (LiDiRus) – тест, в котором размечены различные языковые явления, такие как логика, предикативно-аргументная структура (например, кореференция, номинализация) и др. Диагностический датасет показал, что модель ruRoberta-large (finetune) не просто запоминает задания или угадывает результат, а выучивает особенности и осваивает разнообразие феноменов русского языка. Это доказывает высокий скор LiDiRus – 0,343, в то время как “человеческий” составил 0,626.

Каждая модель также должна решить остальные восемь заданий, среди которых DaNetQA — набор вопросов на здравый смысл и знание, с ответом да или нет, RCB (Russian Commitment Bank) — классификация наличия причинно-следственных связей между текстом и гипотезой из него, PARus (Plausible Alternatives for Russian) — целеполагание, выбор из альтернативных вариантов на основе здравого смысла и другие.

Вот такие, например, задания даются модели:

  • DaNetQA – набор вопросов на здравый смысл с ответом «да» или «нет»

Passage: В период с 1969 по 1972 год по программе «Аполлон» было выполнено 6 полётов с посадкой на Луне. Всего на Луне высаживались 12 астронавтов США.

Question: Был ли человек на луне?

Answer: Да;

  • RCB (Russian Commitment Bank) – задача классификации, нужно понять, есть ли причинно-следственные связи между текстом и гипотезой, сделанной на его основе

Premise: Сумма ущерба составила одну тысячу рублей. Уточняется, что на место происшествия выехала следственная группа, которая установила личность злоумышленника. Им оказался местный житель, ранее судимый за подобное правонарушение.

Hypothesis: Ранее местный житель совершал подобное правонарушение.

Label: Entailment (можно сделать вывод такой как в гипотезе из текста или нет);

  • PARus (Plausible Alternatives for Russian) – целеполагание, нужно сделать выбор из альтернативных вариантов на основе здравого смысла.

Premise: Мой компьютер разбился. (Нужно определить, какое следствие у этого действия.)

Сhoice 1: Я установил новые колонки.

Сhoice 2: Я потерял все данные.

После успешного обучения модели ruBERT мы принялись за работу над моделью ruRoBERTa. По факту это тот же BERT, обученный на большом корпусе текста, только на задачу восстановления маскированных токенов, на большом размере батча и с токенизатором BBPE от нейросети ruGPT-3.

Обучение ruRoBERTa заняло 3 недели на 64 GPU Tesla V100 (суперкомпьютер «Кристофари»), итоговый датасет (250 Гб текста) похож на тот, что использовался для ruGPT-3, однако из него удалили английский и часть «грязного» Common Crawl. Здесь можно почитать, как шло обучение.

Репозиторий с примерами применения: https://github.com/sberbank-ai/model-zoo.

А наши русскоязычные GPT-модели можно найти здесь: https://github.com/sberbank-ai/ru-gpts.

Источник: Habr

Подписаться
Уведомить о
guest
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии

Похожие записи: