ValueFX9507
/

Tifa-DeepsexV2-7b-MGRPO-GGUF-Q4

Reinforcement Learning

incremental-pretraining

Inference Endpoints

Model card Files Files and versions Community

ValueFX9507 commited on 9 days ago

Commit

f49dc33

·

verified ·

1 Parent(s): 8984ffb

Update README.md

Files changed (1) hide show

README.md +12 -0

README.md CHANGED Viewed

@@ -44,6 +44,18 @@ You See See You Fuck Good JOB!
 - **构架改变**：尝试改变Transformers传播方式，在层内循环处理进行训练，受到Universal Transformers与最新潜空间启发，在训练中让部分层循环激活，为了避免梯度爆炸使用梯度裁切技术，测试发现模型性能得到提升，更多工作还在测试中。
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/NgE-hBmSRadDyuyMd42PU.png)
 ## 训练过程输出

 - **构架改变**：尝试改变Transformers传播方式，在层内循环处理进行训练，受到Universal Transformers与最新潜空间启发，在训练中让部分层循环激活，为了避免梯度爆炸使用梯度裁切技术，测试发现模型性能得到提升，更多工作还在测试中。
+## 奖励函数设计：
+- **为了让模型输出效果更好，我联合左北合计语言学小组，使用上交大博士逻辑学思路攻击设计4个主要函数**
+  - 逻辑奖励函数：把文本向量化之后，通过逻辑学算法，提取角色向量空间中的分布，与对话中倾向是否一致
+  - 文笔奖励函数：采用文笔库，选取10000条著作中截取的优秀文字片段作为比较，计算在空间中的离散分布，看能否匹配。
+  - 格式奖励函数：最简单的函数，包括重复性惩罚、输出内容换行惩罚、过拟合词惩罚、输出格式与system差距惩罚。
+  - 连贯性奖励函数：使用左北科技训练的向量空间计算器（我也不知道什么玩意）判断文本中断层的插值来返回函数。
+## 训练数据：
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/qwOZ_KWOUgNrAo4AeaKiJ.png)
+经过以上函数算法，成功了提升了模型准确率，实测在输出中提升明显。
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/NgE-hBmSRadDyuyMd42PU.png)
 ## 训练过程输出