Automatic correction of README.md metadata for keys. Contact [email protected] for any question
6eeb1c6
language: uz | |
tags: | |
- uzbert | |
- uzbek | |
- bert | |
- cyrillic | |
license: mit | |
datasets: | |
- webcrawl | |
# UzBERT base model (uncased) | |
Pretrained model on Uzbek language (Cyrillic script) using a masked | |
language modeling and next sentence prediction objectives. | |
## How to use | |
You can use this model directly with a pipeline for masked language modeling: | |
```python | |
>>> from transformers import pipeline | |
>>> unmasker = pipeline('fill-mask', model='coppercitylabs/uzbert-base-uncased') | |
>>> unmasker("Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг [MASK], мутафаккири ва давлат арбоби бўлган.") | |
[ | |
{ | |
'token_str': 'шоири', | |
'token': 13587, | |
'score': 0.7974384427070618, | |
'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг шоири, мутафаккир ##и ва давлат арбоби бўлган.' | |
}, | |
{ | |
'token_str': 'олими', | |
'token': 18500, | |
'score': 0.09166576713323593, | |
'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг олими, мутафаккир ##и ва давлат арбоби бўлган.' | |
}, | |
{ | |
'token_str': 'асосчиси', | |
'token': 7469, | |
'score': 0.02451123297214508, | |
'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг асосчиси, мутафаккир ##и ва давлат арбоби бўлган.' | |
}, | |
{ | |
'token_str': 'ёзувчиси', | |
'token': 22439, | |
'score': 0.017601722851395607, | |
'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг ёзувчиси, мутафаккир ##и ва давлат арбоби бўлган.' | |
}, | |
{ | |
'token_str': 'устози', | |
'token': 11494, | |
'score': 0.010115668177604675, | |
'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг устози, мутафаккир ##и ва давлат арбоби бўлган.' | |
} | |
] | |
``` | |
## Training data | |
UzBERT model was pretrained on \~625K news articles (\~142M words). | |
## BibTeX entry and citation info | |
```bibtex | |
@misc{mansurov2021uzbert, | |
title={{UzBERT: pretraining a BERT model for Uzbek}}, | |
author={B. Mansurov and A. Mansurov}, | |
year={2021}, | |
eprint={2108.09814}, | |
archivePrefix={arXiv}, | |
primaryClass={cs.CL} | |
} | |
``` | |