Akajackson
commited on
Commit
•
a740441
1
Parent(s):
e03ee1d
Update README.md
Browse files
README.md
CHANGED
@@ -5,3 +5,24 @@ language:
|
|
5 |
- ru
|
6 |
- en
|
7 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5 |
- ru
|
6 |
- en
|
7 |
---
|
8 |
+
## Описание модели
|
9 |
+
Модель Donut (end-to-end transformer) для распознавания текстов на русском языке.
|
10 |
+
https://github.com/clovaai/donut
|
11 |
+
|
12 |
+
Для обучения сгенерирован датасет SynthDoG из 100тыс изображений, с текстами, взятыми из произведений русской литературы.
|
13 |
+
https://huggingface.co/datasets/Akajackson/donut_synthdog_rus
|
14 |
+
|
15 |
+
Модель обучена на ноутбуке от уважаемого NielsRogge с заменой оригинального токенайзера на DeepPavlov/xlm-roberta-large-en-ru на площадке Kaggle.
|
16 |
+
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Donut/CORD/Fine_tune_Donut_on_a_custom_dataset_(CORD)_with_PyTorch_Lightning.ipynb
|
17 |
+
|
18 |
+
Метрика на валидации Normed ED: 0.04597701149425287.
|
19 |
+
|
20 |
+
## Возможности модели
|
21 |
+
Данная модель является базовой для следующих задач:
|
22 |
+
* распознавание различных типов документов;
|
23 |
+
* ответы на вопросы по документу;
|
24 |
+
* классификация документов.
|
25 |
+
|
26 |
+
Для решения Вашей задачи возможно использовать выше упомянутые ноутбуки.
|
27 |
+
Датасет необходимо разметить в формате, который указан в репозитории Donut.
|
28 |
+
|