llm-course-hw1 / README.md
efromomr's picture
Update README.md
d8b41da verified
metadata
tags:
  - model_hub_mixin
  - pytorch_model_hub_mixin
datasets:
  - IgorVolochay/russian_jokes
language:
  - ru

Model card for model

A transformer LM trained on russian_jokes dataset (validation loss = 2.347) with architecture described below.

Recipe details:

  • SwiGLU in FeedForward layer
  • RoPE positional encoding
  • MLA

Usage example:


tokenizer = ByteLevelBPETokenizer.from_pretrained('efromomr/llm-course-hw1')
check_model = TransformerForCausalLM.from_pretrained('efromomr/llm-course-hw1')
check_model = check_model.to(device)
check_model = check_model.eval()

text = "Заходит в бар"
input_ids = torch.tensor(tokenizer.encode(text), device=device)[None, :]
model_output = model.generate(
    input_ids, max_new_tokens=200, eos_token_id=tokenizer.eos_token_id, do_sample=True, top_k=10
)
tokenizer.decode(model_output[0].tolist())
"""Заходит в бар и говорит ему: - Скажите, а почему ты такой развезлась?
- Он слышит на этот должен быть возможно, а ты - молодого водки, а ты же сама поймал?
 - Да, а вторая бумажка... - Да не могу ничего помещение.
 - Ну, и что? - Хочется, потому что у него на деньги надо пить.
 - А мне тебе не сказать. Подумаете, вчера тоже возвращаюсь, я тебя не изобрету! - Н"""