hexinran09
/

xr_dat_test

Text Generation

Model card Files Files and versions Community

hexinran09 commited on Apr 18, 2024

Commit

1a72477

·

verified ·

1 Parent(s): 703ef1d

Update README.md

Files changed (1) hide show

README.md +4 -1

README.md CHANGED Viewed

@@ -1,3 +1,6 @@
 DAT Metho test
@@ -10,4 +13,4 @@ Experiment set checkpoint-542
 大模型背景下
 在大型语言模型（LLMs）的背景下，知识蒸馏的目的不仅仅是简化模型结构，而且还包括提取和迁移模型的深层次知识和理解能力。这种知识不仅限于模型的直接输出，还包括其决策过程、推理模式和认知策略。通过设计精确的提示（prompts），可以从LLMs中提取特定领域的知识，从而使学生模型不仅能够模仿教师模型的答案，还能学习其推理过程。
 数据增强(DA)和知识蒸馏(KD)的关系
-知识蒸馏（KD）和数据增强（DA）在提升小型模型性能方面相辅相成。简单来说，KD是一种让小型模型（学生）从大型模型（教师）学习的过程，而DA则是扩充数据集的方法，通过生成新的、多样化的训练样本来提高模型的泛化能力。在这个过程中，DA帮助生成更多的训练数据，这些数据随后通过KD过程使得学生模型能更好地学习教师模型的行为和决策方式。通过结合这两种技术，可以制作出既小巧又强大的模型，有效提升其性能和应用范围。

+---
+license: apache-2.0
+---
 DAT Metho test
 大模型背景下
 在大型语言模型（LLMs）的背景下，知识蒸馏的目的不仅仅是简化模型结构，而且还包括提取和迁移模型的深层次知识和理解能力。这种知识不仅限于模型的直接输出，还包括其决策过程、推理模式和认知策略。通过设计精确的提示（prompts），可以从LLMs中提取特定领域的知识，从而使学生模型不仅能够模仿教师模型的答案，还能学习其推理过程。
 数据增强(DA)和知识蒸馏(KD)的关系
+知识蒸馏（KD）和数据增强（DA）在提升小型模型性能方面相辅相成。简单来说，KD是一种让小型模型（学生）从大型模型（教师）学习的过程，而DA则是扩充数据集的方法，通过生成新的、多样化的训练样本来提高模型的泛化能力。在这个过程中，DA帮助生成更多的训练数据，这些数据随后通过KD过程使得学生模型能更好地学习教师模型的行为和决策方式。通过结合这两种技术，可以制作出既小巧又强大的模型，有效提升其性能和应用范围。