Описание модели

Модель представляет собой дообученную версию nielsr/lilt-xlm-roberta-base для анализа документов, подтверждающих индивидуальные достижения, которая позволит автоматически извлекать важную информацию из отсканированных документов.

Модель способна распознавать следующие классы:

Дата получения (DATE)
ФИО владельца (FULL_NAME)
Тип документа (DOC_TYPE)
Причина получения (REASON_OBTAINING)
Место, которое занял владелец (PLACE)

Датасет

Датасет PIAD (Parsing Individual Ahievement Documents) включает в себя 215 отсканированных документов, подтверждающих индивидуальные достижения.

PIAD не выложен в открытый доступ, так как некоторые элементы содержат персональные данные.

Ссылки

Разработчик: Agapitov Denis
Репозиторий GitHub: lilt-finetuning-piad-ya-ocr
Дообученная версия модели: nielsr/lilt-xlm-roberta-base