Update README.md
Browse files
README.md
CHANGED
@@ -2,8 +2,39 @@
|
|
2 |
tags:
|
3 |
- model_hub_mixin
|
4 |
- pytorch_model_hub_mixin
|
|
|
|
|
|
|
|
|
5 |
---
|
6 |
|
7 |
-
|
8 |
-
|
9 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
tags:
|
3 |
- model_hub_mixin
|
4 |
- pytorch_model_hub_mixin
|
5 |
+
datasets:
|
6 |
+
- IgorVolochay/russian_jokes
|
7 |
+
language:
|
8 |
+
- ru
|
9 |
---
|
10 |
|
11 |
+
# Model card for model
|
12 |
+
|
13 |
+
A transformer LM trained on russian_jokes dataset (validation loss = 2.347) with archiecture described below.
|
14 |
+
|
15 |
+
Recipe details:
|
16 |
+
* SwiGLU in FeedForward layer
|
17 |
+
* RoPE positional encoding
|
18 |
+
* MLA
|
19 |
+
|
20 |
+
Usage example:
|
21 |
+
|
22 |
+
```python
|
23 |
+
|
24 |
+
tokenizer = ByteLevelBPETokenizer.from_pretrained('efromomr/llm-course-hw1')
|
25 |
+
check_model = TransformerForCausalLM.from_pretrained('efromomr/llm-course-hw1')
|
26 |
+
check_model = check_model.to(device)
|
27 |
+
check_model = check_model.eval()
|
28 |
+
|
29 |
+
text = "Заходит в бар"
|
30 |
+
input_ids = torch.tensor(tokenizer.encode(text), device=device)[None, :]
|
31 |
+
model_output = model.generate(
|
32 |
+
input_ids, max_new_tokens=200, eos_token_id=tokenizer.eos_token_id, do_sample=True, top_k=10
|
33 |
+
)
|
34 |
+
tokenizer.decode(model_output[0].tolist())
|
35 |
+
"""Заходит в бар и говорит ему: - Скажите, а почему ты такой развезлась?
|
36 |
+
- Он слышит на этот должен быть возможно, а ты - молодого водки, а ты же сама поймал?
|
37 |
+
- Да, а вторая бумажка... - Да не могу ничего помещение.
|
38 |
+
- Ну, и что? - Хочется, потому что у него на деньги надо пить.
|
39 |
+
- А мне тебе не сказать. Подумаете, вчера тоже возвращаюсь, я тебя не изобрету! - Н"""
|
40 |
+
```
|