ValueFX9507
/

Tifa-DeepsexV2-7b-MGRPO-GGUF-Q4

Reinforcement Learning

incremental-pretraining

Inference Endpoints

Model card Files Files and versions Community

ValueFX9507 commited on 9 days ago

Commit

fc90fdf

·

verified ·

1 Parent(s): 7db374f

Update README.md

Files changed (1) hide show

README.md +5 -1

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ license: apache-2.0
 # Tifa-DeepSexV2-7b-MGRPO
-正在上传...
 # AMERICAN COMRADES, YOU CAN SEE CLEARLY THAT WE ARE NOT DEEPSEEK!! PLEASE STOP ATTACKING THE ZUOBEI SERVER!!!!
@@ -39,6 +39,10 @@ You See See You Fuck Good JOB!
 - **母校上海复旦大学**
 - **PRIME团队提供优化思路**
 ## MGRPO与层传播：
 - **算法改变**：原始GRPO仅通过ORM策略进行偏好学习，但无法评判文学内容生成质量，本次训练使用**上海交通大学**博士**魏XX**、**洪XX**的启发，使用逻辑学算法，解决文学ORM策略设计难点，并且二次返回修改提示词进行错误总结。每次调整均经历2次完整传播过程，为GRPO+GRPO，所以暂时命名为MGRPO。
 - **构架改变**：尝试改变Transformers传播方式，在层内循环处理进行训练，受到Universal Transformers与最新潜空间启发，在训练中让部分层循环激活，为了避免梯度爆炸使用梯度裁切技术，测试发现模型性能得到提升，更多工作还在测试中。

 # Tifa-DeepSexV2-7b-MGRPO
+非常抱歉列位，我延期的原因是严重低估了MGRPO的训练效率。实测发现，经过我“优化”的框架虽然能提升性能，但是训练效率下降3倍之多，显存容量占用也是三倍之多。所以延期至今，目前训练已完成7%，但是效果已足够证明策略优越，遂上传模型。目前正在从服务器中回传。很快将会上载。
 # AMERICAN COMRADES, YOU CAN SEE CLEARLY THAT WE ARE NOT DEEPSEEK!! PLEASE STOP ATTACKING THE ZUOBEI SERVER!!!!
 - **母校上海复旦大学**
 - **PRIME团队提供优化思路**
+## 训练效果
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/N2aA5Pjj1uB6U76SJZb78.png)
 ## MGRPO与层传播：
 - **算法改变**：原始GRPO仅通过ORM策略进行偏好学习，但无法评判文学内容生成质量，本次训练使用**上海交通大学**博士**魏XX**、**洪XX**的启发，使用逻辑学算法，解决文学ORM策略设计难点，并且二次返回修改提示词进行错误总结。每次调整均经历2次完整传播过程，为GRPO+GRPO，所以暂时命名为MGRPO。
 - **构架改变**：尝试改变Transformers传播方式，在层内循环处理进行训练，受到Universal Transformers与最新潜空间启发，在训练中让部分层循环激活，为了避免梯度爆炸使用梯度裁切技术，测试发现模型性能得到提升，更多工作还在测试中。