Akajackson commited on
Commit
a740441
1 Parent(s): e03ee1d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +21 -0
README.md CHANGED
@@ -5,3 +5,24 @@ language:
5
  - ru
6
  - en
7
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5
  - ru
6
  - en
7
  ---
8
+ ## Описание модели
9
+ Модель Donut (end-to-end transformer) для распознавания текстов на русском языке.
10
+ https://github.com/clovaai/donut
11
+
12
+ Для обучения сгенерирован датасет SynthDoG из 100тыс изображений, с текстами, взятыми из произведений русской литературы.
13
+ https://huggingface.co/datasets/Akajackson/donut_synthdog_rus
14
+
15
+ Модель обучена на ноутбуке от уважаемого NielsRogge с заменой оригинального токенайзера на DeepPavlov/xlm-roberta-large-en-ru на площадке Kaggle.
16
+ https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Donut/CORD/Fine_tune_Donut_on_a_custom_dataset_(CORD)_with_PyTorch_Lightning.ipynb
17
+
18
+ Метрика на валидации Normed ED: 0.04597701149425287.
19
+
20
+ ## Возможности модели
21
+ Данная модель является базовой для следующих задач:
22
+ * распознавание различных типов документов;
23
+ * ответы на вопросы по документу;
24
+ * классификация документов.
25
+
26
+ Для решения Вашей задачи возможно использовать выше упомянутые ноутбуки.
27
+ Датасет необходимо разметить в формате, который указан в репозитории Donut.
28
+