Autumn-Whisper commited on
Commit
cc5eb0e
1 Parent(s): 07de4db

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -0
README.md CHANGED
@@ -25,6 +25,7 @@ base_model: "Qwen/Qwen2-7B-Instruct"
25
  ## 说明
26
 
27
  我第一次尝试蒸馏模型,在部分情况下模型表现良好,但是即便数据集如此庞大的情况下依然无法实现220B的逻辑效果,我把此归咎于模型参数量不足,在模型蒸馏上我依然是一个小白,还请各位多多指教。
 
28
  叶落PS:虽然我提供了不同的量化,但是我强烈推荐使用f16,因为量化过程中可能会丢失一些细腻的表达(由于词汇语义相似度过高,在向量空间中极其接近,量化会导致向量重叠)
29
  ## 数据集细节
30
 
 
25
  ## 说明
26
 
27
  我第一次尝试蒸馏模型,在部分情况下模型表现良好,但是即便数据集如此庞大的情况下依然无法实现220B的逻辑效果,我把此归咎于模型参数量不足,在模型蒸馏上我依然是一个小白,还请各位多多指教。
28
+
29
  叶落PS:虽然我提供了不同的量化,但是我强烈推荐使用f16,因为量化过程中可能会丢失一些细腻的表达(由于词汇语义相似度过高,在向量空间中极其接近,量化会导致向量重叠)
30
  ## 数据集细节
31