File size: 1,501 Bytes
c793ae3
 
 
 
95b3910
 
 
 
c793ae3
 
95b3910
 
d8b41da
95b3910
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
---
tags:
- model_hub_mixin
- pytorch_model_hub_mixin
datasets:
- IgorVolochay/russian_jokes
language:
- ru
---

# Model card for model 

A transformer LM trained on russian_jokes dataset (validation loss = 2.347) with architecture described below.

Recipe details:
 * SwiGLU in FeedForward layer
 * RoPE positional encoding
 * MLA

Usage example: 

```python

tokenizer = ByteLevelBPETokenizer.from_pretrained('efromomr/llm-course-hw1')
check_model = TransformerForCausalLM.from_pretrained('efromomr/llm-course-hw1')
check_model = check_model.to(device)
check_model = check_model.eval()

text = "Заходит в бар"
input_ids = torch.tensor(tokenizer.encode(text), device=device)[None, :]
model_output = model.generate(
    input_ids, max_new_tokens=200, eos_token_id=tokenizer.eos_token_id, do_sample=True, top_k=10
)
tokenizer.decode(model_output[0].tolist())
"""Заходит в бар и говорит ему: - Скажите, а почему ты такой развезлась?
- Он слышит на этот должен быть возможно, а ты - молодого водки, а ты же сама поймал?
 - Да, а вторая бумажка... - Да не могу ничего помещение.
 - Ну, и что? - Хочется, потому что у него на деньги надо пить.
 - А мне тебе не сказать. Подумаете, вчера тоже возвращаюсь, я тебя не изобрету! - Н"""
```