File size: 2,749 Bytes
f11023b
e6d4427
6310e37
6c74d8e
 
bf4316f
6c74d8e
 
c6981c1
 
 
 
5ccb6b4
 
 
c25d2c8
 
f35b8e4
65a2c28
5014621
19e365c
99cc78b
 
 
1376f22
 
 
 
 
 
 
 
 
 
b9a19f3
 
1376f22
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
---
license: apache-2.0
widget:
- text: >-
    Қазақстан Еуразия құрлығының орталығында орналасқан және аумақтың көлемі
    бойынша (жер шарының бетінде 2%) әлемде тоғызыншы орынға ие. Қазақстан
    аумағы бүкіл Батыс Еуропадан үлкен. Қазақстан жер көлемі жөнінен дүние
    жүзінде нешінші орында?
  example_title: example 1
- text: >-
    Қар ұсақ мұз кристалдарынан тұрады. Қар деп атмосфералық жауын-шашынды айтады. Қар деген не?
  example_title: example 2
- text: >-
    Абай ақын туралы 4 томдық "Абай жолы" романы жазылған. Бұл романның авторы Мұхтар Әуезов. Бұл кітаптарда бала Абайдың тұлға, әрі болашақ ақын болып қалыптасқанға дейінгі уақыттар кезеңдермен жазылған. «Абай жолы» романын жазған кім?
  example_title: example 3
language:
- kk
---
## Model Details
- **Base: mt5**
- **Developed by**: Aldiyar Saken, Sultaniyar Quandyq, Alibek Kamiluly, Kurmash Apayev, Adai Shomanov and Aliya Nugumanova.

## Model Description

This model is based on the google/mt5-large model. The model was fine-tuned on a Kazakh language version of the Stanford Question Answering Dataset (SQuAD) using 30,000 samples.

## Inference

```python

from transformers import T5Tokenizer, T5TokenizerFast
from transformers import T5ForConditionalGeneration
import sentencepiece

tokenizer = T5Tokenizer.from_pretrained("Kyrmasch/t5-kazakh-qa")
model = T5ForConditionalGeneration.from_pretrained("Kyrmasch/t5-kazakh-qa")

context = "Қазақстан Еуразия құрлығының орталығында орналасқан және аумақтың көлемі бойынша (жер шарының бетінде 2%) әлемде тоғызыншы орынға ие. Қазақстан аумағы бүкіл Батыс Еуропадан үлкен."
question = "Қазақстан жер көлемі жөнінен дүние жүзінде нешінші орында?"

encoded = tokenizer.encode_plus(context, question, max_length=128, pad_to_max_length=True, truncation=True, return_tensors="pt")
input_ids = encoded["input_ids"].to('cpu')
attention_mask = encoded["attention_mask"].to('cpu')
output = model.generate(input_ids=input_ids, attention_mask=attention_mask, max_length=128)
answer = ''.join([tokenizer.decode(ids, skip_special_tokens=True) for ids in output])
```