Upload README_CN.md with huggingface_hub
Browse files- README_CN.md +13 -11
README_CN.md
CHANGED
@@ -96,17 +96,19 @@ tags:
|
|
96 |
|
97 |
## Chat模型
|
98 |
|
99 |
-
|
100 |
-
|
101 |
-
|
102 |
-
|
103 |
-
|
|
|
|
|
104 |
|
105 |
-
|
106 |
-
|
107 |
-
|
108 |
-
|
109 |
-
|
110 |
|
111 |
我们在多种长度和多种任务的评测Benchmark上验证不同版本模型的性能。
|
112 |
|
@@ -546,4 +548,4 @@ bash finetune/ds_finetune.sh
|
|
546 |
|
547 |
本仓库源码遵循开源许可证Apache 2.0。
|
548 |
|
549 |
-
360智脑开源模型支持商用,若需将本模型及衍生模型用于商业用途,请通过邮箱([email protected])联系进行申请, 具体许可协议请见[《360智脑开源模型许可证》](https://github.com/Qihoo360/360zhinao/blob/main/360%E6%99%BA%E8%84%91%E5%BC%80%E6%BA%90%E6%A8%A1%E5%9E%8B%E8%AE%B8%E5%8F%AF%E8%AF%81.txt)。
|
|
|
96 |
|
97 |
## Chat模型
|
98 |
|
99 |
+
4K和32K的Chat模型使用相同的4K SFT数据训练。
|
100 |
+
|
101 |
+
我们采用了两阶段的方式训练长文本模型.
|
102 |
+
|
103 |
+
**第一阶段**:我们增大RoPE base,将上下文长度扩展至32K训练:
|
104 |
+
- 首先,对基础模型进行了约5B tokens的32K窗口继续预训练。
|
105 |
+
- 接着,SFT阶段使用了多种形式和来源的长文本数据,包括高质量的人工标注32K长文本数据。
|
106 |
|
107 |
+
**第二阶段**:我们将上下文长度扩展至360K进行训练,使用数据如下:
|
108 |
+
- 少量高质量人工标注数据。
|
109 |
+
- 由于带有标注的超长文本数据的稀缺性,我们构造了多种形式的合成数据:
|
110 |
+
- 多文档问答:类似[Ziya-Reader](https://arxiv.org/abs/2311.09198),我们基于360自有数据构造了多种类型的多文档问答数据,同时将问答改为多轮,显著提升长文本的训练效率。
|
111 |
+
- 单文档问答:类似[LLama2 Long](https://arxiv.org/abs/2309.16039),我们构造了基于超长文本各个片段的多轮问答数据。
|
112 |
|
113 |
我们在多种长度和多种任务的评测Benchmark上验证不同版本模型的性能。
|
114 |
|
|
|
548 |
|
549 |
本仓库源码遵循开源许可证Apache 2.0。
|
550 |
|
551 |
+
360智脑开源模型支持商用,若需将本模型及衍生模型用于商业用途,请通过邮箱([email protected])联系进行申请, 具体许可协议请见[《360智脑开源模型许可证》](https://github.com/Qihoo360/360zhinao/blob/main/360%E6%99%BA%E8%84%91%E5%BC%80%E6%BA%90%E6%A8%A1%E5%9E%8B%E8%AE%B8%E5%8F%AF%E8%AF%81.txt)。
|