|
--- |
|
language: uz |
|
tags: |
|
- uzbert |
|
- uzbek |
|
- bert |
|
- cyrillic |
|
license: MIT |
|
datasets: |
|
- webcrawl |
|
--- |
|
|
|
# UzBERT base model (uncased) |
|
|
|
Pretrained model on Uzbek language (Cyrillic script) using a masked |
|
language modeling and next sentence prediction objectives. |
|
|
|
### How to use |
|
|
|
You can use this model directly with a pipeline for masked language modeling: |
|
|
|
```python |
|
>>> from transformers import pipeline |
|
>>> unmasker = pipeline('fill-mask', model='coppercitylabs/uzbert-base-uncased') |
|
>>> unmasker("Алишер Навоий – улуғ ўзбек ва бошқа туркий халқларнинг [MASK], мутафаккири ва давлат арбоби бўлган.") |
|
|
|
[ |
|
{ |
|
'token_str': 'шоири', |
|
'token': 13587, |
|
'score': 0.7974384427070618, |
|
'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг шоири, мутафаккир ##и ва давлат арбоби бўлган.' |
|
}, |
|
{ |
|
'token_str': 'олими', |
|
'token': 18500, |
|
'score': 0.09166576713323593, |
|
'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг олими, мутафаккир ##и ва давлат арбоби бўлган.' |
|
}, |
|
{ |
|
'token_str': 'асосчиси', |
|
'token': 7469, |
|
'score': 0.02451123297214508, |
|
'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг асосчиси, мутафаккир ##и ва давлат арбоби бўлган.' |
|
}, |
|
{ |
|
'token_str': 'ёзувчиси', |
|
'token': 22439, |
|
'score': 0.017601722851395607, |
|
'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг ёзувчиси, мутафаккир ##и ва давлат арбоби бўлган.' |
|
}, |
|
{ |
|
'token_str': 'устози', |
|
'token': 11494, |
|
'score': 0.010115668177604675, |
|
'sequence': 'алишер навоий – улуғ ўзбек ва бошқа туркий халқларнинг устози, мутафаккир ##и ва давлат арбоби бўлган.' |
|
} |
|
] |
|
``` |
|
|
|
## Training data |
|
|
|
UzBERT model was pretrained on \~625K news articles (\~142M words). |
|
|