--- tags: - model_hub_mixin - pytorch_model_hub_mixin datasets: - IgorVolochay/russian_jokes language: - ru --- # Model card for model A transformer LM trained on russian_jokes dataset (validation loss = 2.347) with architecture described below. Recipe details: * SwiGLU in FeedForward layer * RoPE positional encoding * MLA Usage example: ```python tokenizer = ByteLevelBPETokenizer.from_pretrained('efromomr/llm-course-hw1') check_model = TransformerForCausalLM.from_pretrained('efromomr/llm-course-hw1') check_model = check_model.to(device) check_model = check_model.eval() text = "Заходит в бар" input_ids = torch.tensor(tokenizer.encode(text), device=device)[None, :] model_output = model.generate( input_ids, max_new_tokens=200, eos_token_id=tokenizer.eos_token_id, do_sample=True, top_k=10 ) tokenizer.decode(model_output[0].tolist()) """Заходит в бар и говорит ему: - Скажите, а почему ты такой развезлась? - Он слышит на этот должен быть возможно, а ты - молодого водки, а ты же сама поймал? - Да, а вторая бумажка... - Да не могу ничего помещение. - Ну, и что? - Хочется, потому что у него на деньги надо пить. - А мне тебе не сказать. Подумаете, вчера тоже возвращаюсь, я тебя не изобрету! - Н""" ```