hexinran09 commited on
Commit
1a72477
·
verified ·
1 Parent(s): 703ef1d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +4 -1
README.md CHANGED
@@ -1,3 +1,6 @@
 
 
 
1
  DAT Metho test
2
 
3
 
@@ -10,4 +13,4 @@ Experiment set checkpoint-542
10
  大模型背景下
11
  在大型语言模型(LLMs)的背景下,知识蒸馏的目的不仅仅是简化模型结构,而且还包括提取和迁移模型的深层次知识和理解能力。这种知识不仅限于模型的直接输出,还包括其决策过程、推理模式和认知策略。通过设计精确的提示(prompts),可以从LLMs中提取特定领域的知识,从而使学生模型不仅能够模仿教师模型的答案,还能学习其推理过程。
12
  数据增强(DA)和知识蒸馏(KD)的关系
13
- 知识蒸馏(KD)和数据增强(DA)在提升小型模型性能方面相辅相成。简单来说,KD是一种让小型模型(学生)从大型模型(教师)学习的过程,而DA则是扩充数据集的方法,通过生成新的、多样化的训练样本来提高模型的泛化能力。在这个过程中,DA帮助生成更多的训练数据,这些数据随后通过KD过程使得学生模型能更好地学习教师模型的行为和决策方式。通过结合这两种技术,可以制作出既小巧又强大的模型,有效提升其性能和应用范围。
 
1
+ ---
2
+ license: apache-2.0
3
+ ---
4
  DAT Metho test
5
 
6
 
 
13
  大模型背景下
14
  在大型语言模型(LLMs)的背景下,知识蒸馏的目的不仅仅是简化模型结构,而且还包括提取和迁移模型的深层次知识和理解能力。这种知识不仅限于模型的直接输出,还包括其决策过程、推理模式和认知策略。通过设计精确的提示(prompts),可以从LLMs中提取特定领域的知识,从而使学生模型不仅能够模仿教师模型的答案,还能学习其推理过程。
15
  数据增强(DA)和知识蒸馏(KD)的关系
16
+ 知识蒸馏(KD)和数据增强(DA)在提升小型模型性能方面相辅相成。简单来说,KD是一种让小型模型(学生)从大型模型(教师)学习的过程,而DA则是扩充数据集的方法,通过生成新的、多样化的训练样本来提高模型的泛化能力。在这个过程中,DA帮助生成更多的训练数据,这些数据随后通过KD过程使得学生模型能更好地学习教师模型的行为和决策方式。通过结合这两种技术,可以制作出既小巧又强大的模型,有效提升其性能和应用范围。