--- tags: - model_hub_mixin - pytorch_model_hub_mixin datasets: - IgorVolochay/russian_jokes language: - ru pipeline_tag: text2text-generation --- ## Description: Language model, based on Transformer architecture, trained to generate various russian jokes, using russian_jokes dataset. Loss on validation: 2.488 [Experiments](https://wandb.ai/team-tryhard/LM-hw1?nw=nwuseriuriipustovalov) ## Architecture details: * Multi-Head Latent Attention layer, as in DeepSeekV3 with latent dimension equal to 96 * SwiGLU activation in the FeedForward layer of the Transformer Block * Decoupled Rotary Positional Embeddings, as in DeepSeekV3 ## Generation examples: * Заходит в бар -> Заходит в бар мужик и видит, что у него барин за рюмкой. Официант ему и говорит:- Мужики, вы, мужик, батюшки, исполнилось несколько слов, не волнуйтесь. Моя теща говорит врачу:- Доктор, да вы не болит. * Заходит в бар -> Заходит в бар русский, подходит к бармену и видит: у кого-то среди клоунов сидят 3 еврея в небе и читают: "Давай 50 грамм и играть с косой, и зачем теперь это все 98%" Version without MHLA is available at commit 076a6c7. It has a slightly smaller loss, but 10% more parameters.