llm-course-hw1 / README.md
bdvs's picture
Update README.md
6a08323 verified
metadata
tags:
  - model_hub_mixin
  - pytorch_model_hub_mixin
datasets:
  - IgorVolochay/russian_jokes
language:
  - ru
  - en
pipeline_tag: text2text-generation

[Легковесный трансформер для генерации текста с ALiBi, GQA и SwiGLU.]

📖 Описание

Данная модель представляет собой трансформерную архитектуру, оптимизированную для работы с короткими текстами. Она использует:

  • ALiBi для позиционного кодирования
  • GQA для эффективного механизма внимания
  • SwiGLU в Feed-Forward блоке для лучшей обработки информации

Модель обучена на [IgorVolochay/russian_jokes] и предназначена для генерации осмысленного текста в пределах контекста ≤250 токенов.


This model has been pushed to the Hub using the PytorchModelHubMixin integration:

  • Library: [More Information Needed]
  • Docs: [More Information Needed]