Seikaijyu
/

RWKV6-7B-v2.1-DCoT.state

Model card Files Files and versions Community

Seikaijyu commited on 10 days ago

Commit

62dc09a

•

1 Parent(s): 769e5c4

Update README.md

Files changed (1) hide show

README.md +5 -3

README.md CHANGED Viewed

@@ -26,11 +26,13 @@ PS: state tuning ≈ prompt tuning, prefex tuning
 |finished loss|0.549287|
 ### 结论
-微调达到的CoT可以用于展示其思考过程以得知模型理解什么，不理解什么，同时，一定程度上可以增强模型能力，但是如果模型本身就没有在预训练中包含的内容，这样的思考只会让你看到奇怪的中间过程，如图（RWKV6-v2.1数据集的数学知识很少）。
-![image/png](https://cdn-uploads.huggingface.co/production/uploads/6417b108b03817ada6444bb8/disoWuBKyvS1HsPfLzxhf.png)
-当然，我也测试过热门问题，如：“9.8和9.11哪个大？”这样的问题在RWKV的过程表示中则显得更加奇怪，甚至有时不会回答大或者小，如图（除了和训练语料有关系，RWKV6的词表的数字从0-99都有一个对应的词元，即相当于100进制，这样的词表问题也导致了这样的回答出现问题的发生。）
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/6417b108b03817ada6444bb8/_slVGcjHz0ZiEMjOJW58y.png)

 |finished loss|0.549287|
 ### 结论
+微调DCoT（或者CoT）可以用于展示其思考过程以得知模型理解什么，不理解什么，同时，一定程度上可以增强模型能力，但是如果模型本身就没有在预训练中包含的内容，这样的思考只会让你看到奇怪的中间过程
+当然，我也测试过热门问题，如：“9.8和9.11哪个大？”这样的问题在RWKV的过程表示中则显得更加奇怪，甚至有时不会回答大或者小。
+这基本归咎于RWKV6-v2.1数据集的数学知识很少，除了和训练语料有关系，和词表也有关系，在RWKV6的词表中，从0-99的数字都有一个对应的词元，这显然会让模型分不清0-99之间的区别，以及如“1122”这样的数字和其它如“119”的区别，这样的词表和语料问题共同导致了RWKV6的数学能力低下的发生。
+如图：
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/6417b108b03817ada6444bb8/disoWuBKyvS1HsPfLzxhf.png)
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/6417b108b03817ada6444bb8/_slVGcjHz0ZiEMjOJW58y.png)