Qi Wang
commited on
Commit
•
983603d
1
Parent(s):
0b1ba65
Update README.md
Browse files
README.md
CHANGED
@@ -8,7 +8,7 @@ pipeline_tag: text2text-generation
|
|
8 |
|
9 |
[English](./readme_en.md) [简体中文](./readme.md)
|
10 |
|
11 |
-
这是一个参数量
|
12 |
|
13 |
这个超微型模型开发的目标是:
|
14 |
|
@@ -28,10 +28,10 @@ pipeline_tag: text2text-generation
|
|
28 |
|
29 |
训练参数:
|
30 |
|
31 |
-
1. 最长行(Max Sentence Length):
|
32 |
-
2. 词汇量(Vocab Size):
|
33 |
-
3. 正则化规则(Normalization Rule):
|
34 |
-
4. 覆盖率(Character coverage): 0.
|
35 |
|
36 |
和标准的Llama2分词器比较如下:
|
37 |
|
@@ -56,11 +56,11 @@ Llama2分词器是32000个token,针对英文字符进行了优化;而Baby LL
|
|
56 |
|
57 |
在单卡3090机器上进行预训练,模型model采用了llama2的架构,训练参数如下:
|
58 |
|
59 |
-
1. max_seq_len =
|
60 |
-
2. dim =
|
61 |
-
3. n_headers =
|
62 |
-
4. n_layers =
|
63 |
-
5. n_kv_headers =
|
64 |
|
65 |
## 演示
|
66 |
|
|
|
8 |
|
9 |
[English](./readme_en.md) [简体中文](./readme.md)
|
10 |
|
11 |
+
这是一个参数量115M左右的超微型小模型,采用Llama2架构,这里上传的版本是预训练版本,尚未进行SFT。近期将会推出SFT后的聊天版本。
|
12 |
|
13 |
这个超微型模型开发的目标是:
|
14 |
|
|
|
28 |
|
29 |
训练参数:
|
30 |
|
31 |
+
1. 最长行(Max Sentence Length): 2657
|
32 |
+
2. 词汇量(Vocab Size): 32000
|
33 |
+
3. 正则化规则(Normalization Rule): identity
|
34 |
+
4. 覆盖率(Character coverage): 0.9995
|
35 |
|
36 |
和标准的Llama2分词器比较如下:
|
37 |
|
|
|
56 |
|
57 |
在单卡3090机器上进行预训练,模型model采用了llama2的架构,训练参数如下:
|
58 |
|
59 |
+
1. max_seq_len = 1024
|
60 |
+
2. dim = 768
|
61 |
+
3. n_headers = 12
|
62 |
+
4. n_layers = 12
|
63 |
+
5. n_kv_headers = 12
|
64 |
|
65 |
## 演示
|
66 |
|