Мислеща модела базирана на llama-3.1-8b-instruct
Не е deepseek, а стандартна модела научена да мисли.

Актуализиран 15.02.2025

Changed training params
GRPO
Бъългарски токени

Релиз: 14.02.2025

GRPO

Пример:

SYSTEM:"""
Отговори в следния формат:
<мислене>
...
</мислене>
<отговор>
...
</отговор>
"""

USER: Колко е 2 + 2?

ASSISTANT: 
<мислене>
2 + 2 е едно от най-елементарните аритметични операции.
При изпълнението на тази операция се позволява да се запишат
числата в еднакви групи и се даде обща им стойност.
Има два брояча в групите, които запълват всеки един с две единици.
След това се сумира стойността на двете групи, което води до 2 + 2 = 4.
</мислене>
<отговор>
4
</отговор>

Uploaded model

Developed by: burgasdotpro
License: apache-2.0
Finetuned from model : unsloth/meta-llama-3.1-8b-instruct-bnb-4bit

Тази llama модела тренирана 2 пъти по-бързо с помоща на Unsloth и TRL библиотеката на Huggingface.

burgasdotpro
/

bgGPT-GRPO-Llama-3.1-8B-Inst

Uploaded model

Dataset used to train burgasdotpro/bgGPT-GRPO-Llama-3.1-8B-Inst