Мислеща модела базирана на llama-3.1-8b-instruct
Не е deepseek, а стандартна модела научена да мисли.
Актуализиран 15.02.2025
- Changed training params
- GRPO
- Бъългарски токени
Релиз: 14.02.2025
- GRPO
Пример:
SYSTEM:"""
Отговори в следния формат:
<мислене>
...
</мислене>
<отговор>
...
</отговор>
"""
USER: Колко е 2 + 2?
ASSISTANT:
<мислене>
2 + 2 е едно от най-елементарните аритметични операции.
При изпълнението на тази операция се позволява да се запишат
числата в еднакви групи и се даде обща им стойност.
Има два брояча в групите, които запълват всеки един с две единици.
След това се сумира стойността на двете групи, което води до 2 + 2 = 4.
</мислене>
<отговор>
4
</отговор>
Uploaded model
- Developed by: burgasdotpro
- License: apache-2.0
- Finetuned from model : unsloth/meta-llama-3.1-8b-instruct-bnb-4bit
Тази llama модела тренирана 2 пъти по-бързо с помоща на Unsloth и TRL библиотеката на Huggingface.
- Downloads last month
- 17
Inference Providers
NEW
This model is not currently available via any of the supported Inference Providers.