File size: 1,481 Bytes
4a9d9ad
 
 
 
0265396
 
 
 
 
4a9d9ad
 
8756bdd
 
 
 
 
 
 
 
0265396
 
 
 
 
 
 
 
 
75624ab
 
0265396
 
349fb7e
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
---
tags:
- model_hub_mixin
- pytorch_model_hub_mixin
datasets:
- IgorVolochay/russian_jokes
language:
- ru
pipeline_tag: text2text-generation
---

## Description:

Language model, based on Transformer architecture, trained to generate various russian jokes, using russian_jokes dataset.

Loss on validation: 2.488

[Experiments](https://wandb.ai/team-tryhard/LM-hw1?nw=nwuseriuriipustovalov)

## Architecture details:

* Multi-Head Latent Attention layer, as in DeepSeekV3 with latent dimension equal to 96
* SwiGLU activation in the FeedForward layer of the Transformer Block
* Decoupled Rotary Positional Embeddings, as in DeepSeekV3


## Generation examples:

* Заходит в бар -> Заходит в бар мужик и видит, что у него барин за рюмкой. Официант ему и говорит:- Мужики, вы, мужик, батюшки, исполнилось несколько слов, не волнуйтесь. Моя теща говорит врачу:- Доктор, да вы не болит.
* Заходит в бар -> Заходит в бар русский, подходит к бармену и видит: у кого-то среди клоунов сидят 3 еврея в небе и читают: "Давай 50 грамм и играть с косой, и зачем теперь это все 98%"


Version without MHLA is available at commit 076a6c7. It has a slightly smaller loss, but 10% more parameters.