ValueFX9507
/

Tifa-DeepsexV2-7b-MGRPO-GGUF-Q4

Reinforcement Learning

incremental-pretraining

Inference Endpoints

Model card Files Files and versions Community

ValueFX9507 commited on 9 days ago

Commit

7db374f

·

verified ·

1 Parent(s): 3be5923

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -46,10 +46,10 @@ You See See You Fuck Good JOB!
 ## 奖励函数设计：
 - **为了让模型输出效果更好，我联合左北合计语言学小组，使用上交大博士逻辑学思路攻击设计4个主要函数**
-  - 逻辑奖励函数：把文本向量化之后，通过逻辑学算法，提取角色向量空间中的分布，与对话中倾向是否一致
   - 文笔奖励函数：采用文笔库，选取10000条著作中截取的优秀文字片段作为比较，计算在空间中的离散分布，看能否匹配。
   - 格式奖励函数：最简单的函数，包括重复性惩罚、输出内容换行惩罚、过拟合词惩罚、输出格式与system差距惩罚。
-  - 连贯性奖励函数：使用左北科技训练的向量空间计算器（我也不知道什么玩意）判断文本中断层的插值来返回函数。
 ## 训练数据：

 ## 奖励函数设计：
 - **为了让模型输出效果更好，我联合左北合计语言学小组，使用上交大博士逻辑学思路攻击设计4个主要函数**
+  - 逻辑奖励函数：把文本向量化之后，通过逻辑学算法，提取角色向量空间中的分布，与对话中倾向是否一致。
   - 文笔奖励函数：采用文笔库，选取10000条著作中截取的优秀文字片段作为比较，计算在空间中的离散分布，看能否匹配。
   - 格式奖励函数：最简单的函数，包括重复性惩罚、输出内容换行惩罚、过拟合词惩罚、输出格式与system差距惩罚。
+  - 连贯性奖励函数：使用左北科技训练的向量空间计算器（我也不知道什么玩意）判断文本中断层的残差来返回函数。
 ## 训练数据：