zhaicunqi commited on
Commit
6a9e43b
1 Parent(s): 3d0a1c4

Upload README_CN.md with huggingface_hub

Browse files
Files changed (1) hide show
  1. README_CN.md +13 -11
README_CN.md CHANGED
@@ -96,17 +96,19 @@ tags:
96
 
97
  ## Chat模型
98
 
99
- 我们采用两阶段的方式训练长文本模型.
100
-
101
- **第一阶段**:我们增大RoPE base,将上下文长度扩展至32K训练:
102
- - 首先,对基础模型进行了约5B tokens的32K窗口继续预训练。
103
- - 接着,SFT阶段使用了多种形式和来源的长文本数据,包括高质量的人工标注32K长文本数据。
 
 
104
 
105
- **第二阶段**:我们将上下文长度扩展至360K进行训练,使用数据如下:
106
- - 少量高质量人工标注数据。
107
- - 由于带有标注的超长文本数据的稀缺性,我们构造了多种形式的合成数据:
108
- - 多文档问答:类似[Ziya-Reader](https://arxiv.org/abs/2311.09198),我们基于360自有数据构造了多种类型的多文档问答数据,同时将问答改为多轮,显著提升长文本的训练效率。
109
- - 单文档问答:类似[LLama2 Long](https://arxiv.org/abs/2309.16039),我们构造了基于超长文本各个片段的多轮问答数据。
110
 
111
  我们在多种长度和多种任务的评测Benchmark上验证不同版本模型的性能。
112
 
@@ -546,4 +548,4 @@ bash finetune/ds_finetune.sh
546
 
547
  本仓库源码遵循开源许可证Apache 2.0。
548
 
549
- 360智脑开源模型支持商用,若需将本模型及衍生模型用于商业用途,请通过邮箱([email protected])联系进行申请, 具体许可协议请见[《360智脑开源模型许可证》](https://github.com/Qihoo360/360zhinao/blob/main/360%E6%99%BA%E8%84%91%E5%BC%80%E6%BA%90%E6%A8%A1%E5%9E%8B%E8%AE%B8%E5%8F%AF%E8%AF%81.txt)。
 
96
 
97
  ## Chat模型
98
 
99
+ 4K和32K的Chat模型使用相同的4K SFT数据训练。
100
+
101
+ 我们采用了两阶段的方式训练长文本模型.
102
+
103
+ **第一阶段**:我们增大RoPE base,将上下文长度扩展至32K训练:
104
+ - 首先,对基础模型进行了约5B tokens的32K窗口继续预训练。
105
+ - 接着,SFT阶段使用了多种形式和来源的长文本数据,包括高质量的人工标注32K长文本数据。
106
 
107
+ **第二阶段**:我们将上下文长度扩展至360K进行训练,使用数据如下:
108
+ - 少量高质量人工标注数据。
109
+ - 由于带有标注的超长文本数据的稀缺性,我们构造了多种形式的合成数据:
110
+ - 多文档问答:类似[Ziya-Reader](https://arxiv.org/abs/2311.09198),我们基于360自有数据构造了多种类型的多文档问答数据,同时将问答改为多轮,显著提升长文本的训练效率。
111
+ - 单文档问答:类似[LLama2 Long](https://arxiv.org/abs/2309.16039),我们构造了基于超长文本各个片段的多轮问答数据。
112
 
113
  我们在多种长度和多种任务的评测Benchmark上验证不同版本模型的性能。
114
 
 
548
 
549
  本仓库源码遵循开源许可证Apache 2.0。
550
 
551
+ 360智脑开源模型支持商用,若需将本模型及衍生模型用于商业用途,请通过邮箱([email protected])联系进行申请, 具体许可协议请见[《360智脑开源模型许可证》](https://github.com/Qihoo360/360zhinao/blob/main/360%E6%99%BA%E8%84%91%E5%BC%80%E6%BA%90%E6%A8%A1%E5%9E%8B%E8%AE%B8%E5%8F%AF%E8%AF%81.txt)。