ukr-models commited on
Commit
f6b2ab2
1 Parent(s): 0bc5c58

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +33 -0
README.md ADDED
@@ -0,0 +1,33 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - uk
4
+ tags:
5
+ - ukrainian
6
+ widget:
7
+ - text: "Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера."
8
+ license: mit
9
+ ---
10
+ ## Model Description
11
+ Fine-tuning of [XLM-RoBERTa-Uk](https://huggingface.co/ukr-models/xlm-roberta-base-uk) model on [synthetic morphological dataset](https://huggingface.co/datasets/ukr-models/Ukr-Synth), returns both UPOS and morphological features (joined by double underscore symbol)
12
+
13
+ ## How to Use
14
+
15
+ Huggingface pipeline way (returns tokens with labels):
16
+ ```py
17
+ from transformers import TokenClassificationPipeline, AutoTokenizer, AutoModelForTokenClassification
18
+ tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-morph')
19
+ model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-morph')
20
+ ppln = TokenClassificationPipeline(model=model, tokenizer=tokenizer)
21
+ ppln("Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера.")
22
+ ```
23
+
24
+ If you wish to get predictions split by words, not by tokens, you may use the following approach (download script get_predictions.py from the repository, it uses [package tokenize_uk](https://pypi.org/project/tokenize_uk/) for splitting)
25
+ ```py
26
+ from transformers import AutoTokenizer, AutoModelForTokenClassification
27
+ from get_predictions import get_word_predictions
28
+
29
+ tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-morph')
30
+ model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-morph')
31
+
32
+ get_word_predictions(model, tokenizer, ["Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера."])
33
+ ```