ukr-models
/

uk-morph

Token Classification

Inference Endpoints

Model card Files Files and versions Community

ukr-models commited on Apr 8, 2022

Commit

f6b2ab2

•

1 Parent(s): 0bc5c58

Create README.md

Files changed (1) hide show

README.md +33 -0

README.md ADDED Viewed

	@@ -0,0 +1,33 @@

+---
+language:
+- uk
+tags:
+- ukrainian
+widget:
+ - text: "Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера."
+license: mit
+---
+## Model Description
+Fine-tuning of [XLM-RoBERTa-Uk](https://huggingface.co/ukr-models/xlm-roberta-base-uk) model on [synthetic morphological dataset](https://huggingface.co/datasets/ukr-models/Ukr-Synth), returns both UPOS and morphological features (joined by double underscore symbol)
+## How to Use
+Huggingface pipeline way (returns tokens with labels):
+```py
+from transformers import TokenClassificationPipeline, AutoTokenizer, AutoModelForTokenClassification
+tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-morph')
+model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-morph')
+ppln = TokenClassificationPipeline(model=model, tokenizer=tokenizer)
+ppln("Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера.")
+```
+If you wish to get predictions split by words, not by tokens, you may use the following approach (download script get_predictions.py from the repository, it uses [package tokenize_uk](https://pypi.org/project/tokenize_uk/) for splitting)
+```py
+from transformers import AutoTokenizer, AutoModelForTokenClassification
+from get_predictions import get_word_predictions
+tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-morph')
+model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-morph')
+get_word_predictions(model, tokenizer, ["Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера."])
+```