README.md · xiryss/llm-course-hw1 at main

metadata

tags:
  - model_hub_mixin
  - pytorch_model_hub_mixin
datasets:
  - IgorVolochay/russian_jokes
language:
  - ru
pipeline_tag: text2text-generation

Description:

Language model, based on Transformer architecture, trained to generate various russian jokes, using russian_jokes dataset.

Loss on validation: 2.488

Multi-Head Latent Attention layer, as in DeepSeekV3 with latent dimension equal to 96
SwiGLU activation in the FeedForward layer of the Transformer Block
Decoupled Rotary Positional Embeddings, as in DeepSeekV3

Заходит в бар -> Заходит в бар мужик и видит, что у него барин за рюмкой. Официант ему и говорит:- Мужики, вы, мужик, батюшки, исполнилось несколько слов, не волнуйтесь. Моя теща говорит врачу:- Доктор, да вы не болит.
Заходит в бар -> Заходит в бар русский, подходит к бармену и видит: у кого-то среди клоунов сидят 3 еврея в небе и читают: "Давай 50 грамм и играть с косой, и зачем теперь это все 98%"

Version without MHLA is available at commit 076a6c7. It has a slightly smaller loss, but 10% more parameters.