Update README.md
Browse files
README.md
CHANGED
@@ -16,7 +16,7 @@ license: apache-2.0
|
|
16 |
# Tifa-DeepSexV2-7b-MGRPO
|
17 |
|
18 |
|
19 |
-
|
20 |
|
21 |
|
22 |
# AMERICAN COMRADES, YOU CAN SEE CLEARLY THAT WE ARE NOT DEEPSEEK!! PLEASE STOP ATTACKING THE ZUOBEI SERVER!!!!
|
@@ -39,6 +39,10 @@ You See See You Fuck Good JOB!
|
|
39 |
- **母校上海复旦大学**
|
40 |
- **PRIME团队提供优化思路**
|
41 |
|
|
|
|
|
|
|
|
|
42 |
## MGRPO与层传播:
|
43 |
- **算法改变**:原始GRPO仅通过ORM策略进行偏好学习,但无法评判文学内容生成质量,本次训练使用**上海交通大学**博士**魏XX**、**洪XX**的启发,使用逻辑学算法,解决文学ORM策略设计难点,并且二次返回修改提示词进行错误总结。每次调整均经历2次完整传播过程,为GRPO+GRPO,所以暂时命名为MGRPO。
|
44 |
- **构架改变**:尝试改变Transformers传播方式,在层内循环处理进行训练,受到Universal Transformers与最新潜空间启发,在训练中让部分层循环激活,为了避免梯度爆炸使用梯度裁切技术,测试发现模型性能得到提升,更多工作还在测试中。
|
|
|
16 |
# Tifa-DeepSexV2-7b-MGRPO
|
17 |
|
18 |
|
19 |
+
非常抱歉列位,我延期的原因是严重低估了MGRPO的训练效率。实测发现,经过我“优化”的框架虽然能提升性能,但是训练效率下降3倍之多,显存容量占用也是三倍之多。所以延期至今,目前训练已完成7%,但是效果已足够证明策略优越,遂上传模型。目前正在从服务器中回传。很快将会上载。
|
20 |
|
21 |
|
22 |
# AMERICAN COMRADES, YOU CAN SEE CLEARLY THAT WE ARE NOT DEEPSEEK!! PLEASE STOP ATTACKING THE ZUOBEI SERVER!!!!
|
|
|
39 |
- **母校上海复旦大学**
|
40 |
- **PRIME团队提供优化思路**
|
41 |
|
42 |
+
## 训练效果
|
43 |
+
|
44 |
+

|
45 |
+
|
46 |
## MGRPO与层传播:
|
47 |
- **算法改变**:原始GRPO仅通过ORM策略进行偏好学习,但无法评判文学内容生成质量,本次训练使用**上海交通大学**博士**魏XX**、**洪XX**的启发,使用逻辑学算法,解决文学ORM策略设计难点,并且二次返回修改提示词进行错误总结。每次调整均经历2次完整传播过程,为GRPO+GRPO,所以暂时命名为MGRPO。
|
48 |
- **构架改变**:尝试改变Transformers传播方式,在层内循环处理进行训练,受到Universal Transformers与最新潜空间启发,在训练中让部分层循环激活,为了避免梯度爆炸使用梯度裁切技术,测试发现模型性能得到提升,更多工作还在测试中。
|