Model card for model

A transformer LM trained on russian_jokes dataset (validation loss = 2.347) with architecture described below.

Recipe details:

SwiGLU in FeedForward layer
RoPE positional encoding
MLA

Usage example:


tokenizer = ByteLevelBPETokenizer.from_pretrained('efromomr/llm-course-hw1')
check_model = TransformerForCausalLM.from_pretrained('efromomr/llm-course-hw1')
check_model = check_model.to(device)
check_model = check_model.eval()

text = "Заходит в бар"
input_ids = torch.tensor(tokenizer.encode(text), device=device)[None, :]
model_output = model.generate(
    input_ids, max_new_tokens=200, eos_token_id=tokenizer.eos_token_id, do_sample=True, top_k=10
)
tokenizer.decode(model_output[0].tolist())
"""Заходит в бар и говорит ему: - Скажите, а почему ты такой развезлась?
- Он слышит на этот должен быть возможно, а ты - молодого водки, а ты же сама поймал?
 - Да, а вторая бумажка... - Да не могу ничего помещение.
 - Ну, и что? - Хочется, потому что у него на деньги надо пить.
 - А мне тебе не сказать. Подумаете, вчера тоже возвращаюсь, я тебя не изобрету! - Н"""

efromomr
/

llm-course-hw1

Model card for model

Dataset used to train efromomr/llm-course-hw1