Update README.md
Browse files
README.md
CHANGED
@@ -44,6 +44,18 @@ You See See You Fuck Good JOB!
|
|
44 |
- **构架改变**:尝试改变Transformers传播方式,在层内循环处理进行训练,受到Universal Transformers与最新潜空间启发,在训练中让部分层循环激活,为了避免梯度爆炸使用梯度裁切技术,测试发现模型性能得到提升,更多工作还在测试中。
|
45 |
|
46 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
47 |

|
48 |
|
49 |
## 训练过程输出
|
|
|
44 |
- **构架改变**:尝试改变Transformers传播方式,在层内循环处理进行训练,受到Universal Transformers与最新潜空间启发,在训练中让部分层循环激活,为了避免梯度爆炸使用梯度裁切技术,测试发现模型性能得到提升,更多工作还在测试中。
|
45 |
|
46 |
|
47 |
+
## 奖励函数设计:
|
48 |
+
- **为了让模型输出效果更好,我联合左北合计语言学小组,使用上交大博士逻辑学思路攻击设计4个主要函数**
|
49 |
+
- 逻辑奖励函数:把文本向量化之后,通过逻辑学算法,提取角色向量空间中的分布,与对话中倾向是否一致
|
50 |
+
- 文笔奖励函数:采用文笔库,选取10000条著作中截取的优秀文字片段作为比较,计算在空间中的离散分布,看能否匹配。
|
51 |
+
- 格式奖励函数:最简单的函数,包括重复性惩罚、输出内容换行惩罚、过拟合词惩罚、输出格式与system差距惩罚。
|
52 |
+
- 连贯性奖励函数:使用左北科技训练的向量空间计算器(我也不知道什么玩意)判断文本中断层的插值来返回函数。
|
53 |
+
|
54 |
+
## 训练数据:
|
55 |
+
|
56 |
+

|
57 |
+
经过以上函数算法,成功了提升了模型准确率,实测在输出中提升明显。
|
58 |
+
|
59 |

|
60 |
|
61 |
## 训练过程输出
|