File size: 1,501 Bytes
c793ae3 95b3910 c793ae3 95b3910 d8b41da 95b3910 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 |
---
tags:
- model_hub_mixin
- pytorch_model_hub_mixin
datasets:
- IgorVolochay/russian_jokes
language:
- ru
---
# Model card for model
A transformer LM trained on russian_jokes dataset (validation loss = 2.347) with architecture described below.
Recipe details:
* SwiGLU in FeedForward layer
* RoPE positional encoding
* MLA
Usage example:
```python
tokenizer = ByteLevelBPETokenizer.from_pretrained('efromomr/llm-course-hw1')
check_model = TransformerForCausalLM.from_pretrained('efromomr/llm-course-hw1')
check_model = check_model.to(device)
check_model = check_model.eval()
text = "Заходит в бар"
input_ids = torch.tensor(tokenizer.encode(text), device=device)[None, :]
model_output = model.generate(
input_ids, max_new_tokens=200, eos_token_id=tokenizer.eos_token_id, do_sample=True, top_k=10
)
tokenizer.decode(model_output[0].tolist())
"""Заходит в бар и говорит ему: - Скажите, а почему ты такой развезлась?
- Он слышит на этот должен быть возможно, а ты - молодого водки, а ты же сама поймал?
- Да, а вторая бумажка... - Да не могу ничего помещение.
- Ну, и что? - Хочется, потому что у него на деньги надо пить.
- А мне тебе не сказать. Подумаете, вчера тоже возвращаюсь, я тебя не изобрету! - Н"""
``` |