neavo commited on
Commit
8b7888b
·
verified ·
1 Parent(s): 6d193da

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +17 -16
README.md CHANGED
@@ -26,42 +26,43 @@ pipeline_tag: fill-mask
26
 
27
  | 模型 | 版本 | 说明 |
28
  | :--: | :--: | :--:|
29
- | [keyword_gacha_base_multilingual](https://huggingface.co/neavo/keyword_gacha_base_multilingual) | 20241212 | 基础模型 |
30
- | [keyword_gacha_ner_multilingual](https://huggingface.co/neavo/keyword_gacha_ner_multilingual) | 20241212 | 预训练实体识别模型 |
31
 
32
  ### 基础模型 Base
33
 
34
  - 在 [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练
35
- - 继续预训练的训练量大约 2B Token,包含 4 种不同语言的语料
36
  - 训练参数如下:
37
  - Batch Size : 8
38
- - Gradient Accumulation Steps : 16
39
- - Total Batch Size : 128
40
- - Learing Rate : 2e-5
41
  - Maximum Sequence Length : 256
42
- - Optimizer : ademamix_8bit
 
43
  - Warnup Ratio : 0.1
44
  - Train Precision : bf16
45
- - Max Train Epochs : 2
46
  - 使用说明
47
  - 暂无,基础模型一般不直接使用,需针对具体下游任务进行微调后使用
48
 
49
  ### 实体识别模型 NER
50
 
51
- - 在 Base 模型的基础上,使用了大约 50000 条合成语料进行 NER 任务的微调
52
  - 与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率
53
  - 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时
54
  - 实际任务环境中的实测数据,并非预设测试集上的 F1 Score 这类理论上的指标
55
  - 训练参数如下:
56
- - Batch Size : 48
57
- - Gradient Accumulation Steps : 2
58
- - Total Batch Size : 96
59
- - Learing Rate : 1e-5
60
- - Maximum Sequence Length : 256
61
- - Optimizer : ademamix_8bit
62
  - Warnup Ratio : 0.1
63
  - Train Precision : bf16
64
- - Max Train Epochs : 20
65
  - 使用说明
66
  - 待补充
67
 
 
26
 
27
  | 模型 | 版本 | 说明 |
28
  | :--: | :--: | :--:|
29
+ | [keyword_gacha_base_multilingual](https://huggingface.co/neavo/keyword_gacha_base_multilingual) | 20250122 | 基础模型 |
30
+ | [keyword_gacha_ner_multilingual](https://huggingface.co/neavo/keyword_gacha_ner_multilingual) | 20250122 | 预训练实体识别模型 |
31
 
32
  ### 基础模型 Base
33
 
34
  - 在 [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练
35
+ - 继续预训练的训练量大约 1B Token,包含 4 种不同语言的语料
36
  - 训练参数如下:
37
  - Batch Size : 8
38
+ - Gradient Accumulation Steps : 32
39
+ - Total Batch Size : 256
40
+ - Learing Rate : 5e-05
41
  - Maximum Sequence Length : 256
42
+ - Optimizer : adamw_torch
43
+ - LR Scheduler: warmup_stable_decay
44
  - Warnup Ratio : 0.1
45
  - Train Precision : bf16
46
+
47
  - 使用说明
48
  - 暂无,基础模型一般不直接使用,需针对具体下游任务进行微调后使用
49
 
50
  ### 实体识别模型 NER
51
 
52
+ - 在 Base 模型的基础上,使用了大约 80000 条合成语料进行 NER 任务的微调
53
  - 与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率
54
  - 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时
55
  - 实际任务环境中的实测数据,并非预设测试集上的 F1 Score 这类理论上的指标
56
  - 训练参数如下:
57
+ - Batch Size : 32
58
+ - Gradient Accumulation Steps : 1
59
+ - Total Batch Size : 32
60
+ - Learing Rate : 8e-06
61
+ - Optimizer : adamw_torch
62
+ - LR Scheduler: warmup_stable_decay
63
  - Warnup Ratio : 0.1
64
  - Train Precision : bf16
65
+
66
  - 使用说明
67
  - 待补充
68