Mxode commited on
Commit
845df6c
1 Parent(s): 6dcd97c

Update README_zh-CN.md

Browse files
Files changed (1) hide show
  1. README_zh-CN.md +8 -0
README_zh-CN.md CHANGED
@@ -13,6 +13,14 @@
13
 
14
 
15
  ## Model Details
 
 
 
 
 
 
 
 
16
  NanoLM-0.3B-Instruct-v1.1 的 tokenizer 与模型结构均与 [Qwen/Qwen2-0.5B](https://huggingface.co/Qwen/Qwen2-0.5B) 一致,但是层数从 24 变为了 12。因此,NanoLM-0.3B-Instruct-v1.1 仅有 0.3B,其中 non-embedding 参数仅有约 180M。但 NanoLM-0.3B-Instruct-v1.1 仍然有着良好的指令遵循能力。
17
 
18
  下面是一些示例,出于复现的考虑,我将 `do_sample` 设置为 `False`。但实际使用中,您应当设置合适的采样参数。
 
13
 
14
 
15
  ## Model Details
16
+
17
+ | Nano LMs | Non-emb Params | Arch | Layers | Dim | Heads | Seq Len |
18
+ | :----------: | :------------------: | :---: | :----: | :-------: | :---: | :---: |
19
+ | 25M | 15M | MistralForCausalLM | 12 | 312 | 12 |2K|
20
+ | 70M | 42M | LlamaForCausalLM | 12 | 576 | 9 |2K|
21
+ | **0.3B** | **180M** | **Qwen2ForCausalLM** | **12** | **896** | **14** | **4K** |
22
+ | 1B | 840M | Qwen2ForCausalLM | 18 | 1536 | 12 |4K|
23
+
24
  NanoLM-0.3B-Instruct-v1.1 的 tokenizer 与模型结构均与 [Qwen/Qwen2-0.5B](https://huggingface.co/Qwen/Qwen2-0.5B) 一致,但是层数从 24 变为了 12。因此,NanoLM-0.3B-Instruct-v1.1 仅有 0.3B,其中 non-embedding 参数仅有约 180M。但 NanoLM-0.3B-Instruct-v1.1 仍然有着良好的指令遵循能力。
25
 
26
  下面是一些示例,出于复现的考虑,我将 `do_sample` 设置为 `False`。但实际使用中,您应当设置合适的采样参数。