Model card for model
A transformer LM trained on russian_jokes dataset (validation loss = 2.347) with architecture described below.
Recipe details:
- SwiGLU in FeedForward layer
- RoPE positional encoding
- MLA
Usage example:
tokenizer = ByteLevelBPETokenizer.from_pretrained('efromomr/llm-course-hw1')
check_model = TransformerForCausalLM.from_pretrained('efromomr/llm-course-hw1')
check_model = check_model.to(device)
check_model = check_model.eval()
text = "Заходит в бар"
input_ids = torch.tensor(tokenizer.encode(text), device=device)[None, :]
model_output = model.generate(
input_ids, max_new_tokens=200, eos_token_id=tokenizer.eos_token_id, do_sample=True, top_k=10
)
tokenizer.decode(model_output[0].tolist())
"""Заходит в бар и говорит ему: - Скажите, а почему ты такой развезлась?
- Он слышит на этот должен быть возможно, а ты - молодого водки, а ты же сама поймал?
- Да, а вторая бумажка... - Да не могу ничего помещение.
- Ну, и что? - Хочется, потому что у него на деньги надо пить.
- А мне тебе не сказать. Подумаете, вчера тоже возвращаюсь, я тебя не изобрету! - Н"""
- Downloads last month
- 49
Inference Providers
NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API:
The model has no library tag.