ValueFX9507 commited on
Commit
f49dc33
·
verified ·
1 Parent(s): 8984ffb

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +12 -0
README.md CHANGED
@@ -44,6 +44,18 @@ You See See You Fuck Good JOB!
44
  - **构架改变**:尝试改变Transformers传播方式,在层内循环处理进行训练,受到Universal Transformers与最新潜空间启发,在训练中让部分层循环激活,为了避免梯度爆炸使用梯度裁切技术,测试发现模型性能得到提升,更多工作还在测试中。
45
 
46
 
 
 
 
 
 
 
 
 
 
 
 
 
47
  ![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/NgE-hBmSRadDyuyMd42PU.png)
48
 
49
  ## 训练过程输出
 
44
  - **构架改变**:尝试改变Transformers传播方式,在层内循环处理进行训练,受到Universal Transformers与最新潜空间启发,在训练中让部分层循环激活,为了避免梯度爆炸使用梯度裁切技术,测试发现模型性能得到提升,更多工作还在测试中。
45
 
46
 
47
+ ## 奖励函数设计:
48
+ - **为了让模型输出效果更好,我联合左北合计语言学小组,使用上交大博士逻辑学思路攻击设计4个主要函数**
49
+ - 逻辑奖励函数:把文本向量化之后,通过逻辑学算法,提取角色向量空间中的分布,与对话中倾向是否一致
50
+ - 文笔奖励函数:采用文笔库,选取10000条著作中截取的优秀文字片段作为比较,计算在空间中的离散分布,看能否匹配。
51
+ - 格式奖励函数:最简单的函数,包括重复性惩罚、输出内容换行惩罚、过拟合词惩罚、输出格式与system差距惩罚。
52
+ - 连贯性奖励函数:使用左北科技训练的向量空间计算器(我也不知道什么玩意)判断文本中断层的插值来返回函数。
53
+
54
+ ## 训练数据:
55
+
56
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/qwOZ_KWOUgNrAo4AeaKiJ.png)
57
+ 经过以上函数算法,成功了提升了模型准确率,实测在输出中提升明显。
58
+
59
  ![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/NgE-hBmSRadDyuyMd42PU.png)
60
 
61
  ## 训练过程输出