Update README.md
Browse files
README.md
CHANGED
@@ -27,6 +27,11 @@ license: apache-2.0
|
|
27 |
|
28 |
**QVikhr-2.5-1.5B-Instruct-SMPO** представляет собой языковую модель, прошедшую специализированное обучение с использованием метода **SMPO**. Эта модель демонстрирует прогресс в методах выравнивания, особенно в области улучшения качества ответов через оптимизацию предпочтений.
|
29 |
|
|
|
|
|
|
|
|
|
|
|
30 |
## Обучение:
|
31 |
|
32 |
### Этап алайнмента с SMPO (Simple Margin Preference Optimization)
|
|
|
27 |
|
28 |
**QVikhr-2.5-1.5B-Instruct-SMPO** представляет собой языковую модель, прошедшую специализированное обучение с использованием метода **SMPO**. Эта модель демонстрирует прогресс в методах выравнивания, особенно в области улучшения качества ответов через оптимизацию предпочтений.
|
29 |
|
30 |
+
## Попробовать / Try now:
|
31 |
+
|
32 |
+
[](https://colab.research.google.com/drive/1xpTj8gLZAl2kbgciEAP9XxF5G18f7znr?usp=sharing)
|
33 |
+
|
34 |
+
|
35 |
## Обучение:
|
36 |
|
37 |
### Этап алайнмента с SMPO (Simple Margin Preference Optimization)
|