|
--- |
|
tags: |
|
- model_hub_mixin |
|
- pytorch_model_hub_mixin |
|
datasets: |
|
- IgorVolochay/russian_jokes |
|
language: |
|
- ru |
|
pipeline_tag: text2text-generation |
|
--- |
|
|
|
## Description: |
|
|
|
Language model, based on Transformer architecture, trained to generate various russian jokes, using russian_jokes dataset. |
|
|
|
Loss on validation: 2.488 |
|
|
|
[Experiments](https://wandb.ai/team-tryhard/LM-hw1?nw=nwuseriuriipustovalov) |
|
|
|
## Architecture details: |
|
|
|
* Multi-Head Latent Attention layer, as in DeepSeekV3 with latent dimension equal to 96 |
|
* SwiGLU activation in the FeedForward layer of the Transformer Block |
|
* Decoupled Rotary Positional Embeddings, as in DeepSeekV3 |
|
|
|
|
|
## Generation examples: |
|
|
|
* Заходит в бар -> Заходит в бар мужик и видит, что у него барин за рюмкой. Официант ему и говорит:- Мужики, вы, мужик, батюшки, исполнилось несколько слов, не волнуйтесь. Моя теща говорит врачу:- Доктор, да вы не болит. |
|
* Заходит в бар -> Заходит в бар русский, подходит к бармену и видит: у кого-то среди клоунов сидят 3 еврея в небе и читают: "Давай 50 грамм и играть с косой, и зачем теперь это все 98%" |
|
|
|
|
|
Version without MHLA is available at commit 076a6c7. It has a slightly smaller loss, but 10% more parameters. |