Update README_zh-CN.md
Browse files- README_zh-CN.md +8 -0
README_zh-CN.md
CHANGED
@@ -13,6 +13,14 @@
|
|
13 |
|
14 |
|
15 |
## Model Details
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
16 |
NanoLM-0.3B-Instruct-v1.1 的 tokenizer 与模型结构均与 [Qwen/Qwen2-0.5B](https://huggingface.co/Qwen/Qwen2-0.5B) 一致,但是层数从 24 变为了 12。因此,NanoLM-0.3B-Instruct-v1.1 仅有 0.3B,其中 non-embedding 参数仅有约 180M。但 NanoLM-0.3B-Instruct-v1.1 仍然有着良好的指令遵循能力。
|
17 |
|
18 |
下面是一些示例,出于复现的考虑,我将 `do_sample` 设置为 `False`。但实际使用中,您应当设置合适的采样参数。
|
|
|
13 |
|
14 |
|
15 |
## Model Details
|
16 |
+
|
17 |
+
| Nano LMs | Non-emb Params | Arch | Layers | Dim | Heads | Seq Len |
|
18 |
+
| :----------: | :------------------: | :---: | :----: | :-------: | :---: | :---: |
|
19 |
+
| 25M | 15M | MistralForCausalLM | 12 | 312 | 12 |2K|
|
20 |
+
| 70M | 42M | LlamaForCausalLM | 12 | 576 | 9 |2K|
|
21 |
+
| **0.3B** | **180M** | **Qwen2ForCausalLM** | **12** | **896** | **14** | **4K** |
|
22 |
+
| 1B | 840M | Qwen2ForCausalLM | 18 | 1536 | 12 |4K|
|
23 |
+
|
24 |
NanoLM-0.3B-Instruct-v1.1 的 tokenizer 与模型结构均与 [Qwen/Qwen2-0.5B](https://huggingface.co/Qwen/Qwen2-0.5B) 一致,但是层数从 24 变为了 12。因此,NanoLM-0.3B-Instruct-v1.1 仅有 0.3B,其中 non-embedding 参数仅有约 180M。但 NanoLM-0.3B-Instruct-v1.1 仍然有着良好的指令遵循能力。
|
25 |
|
26 |
下面是一些示例,出于复现的考虑,我将 `do_sample` 设置为 `False`。但实际使用中,您应当设置合适的采样参数。
|