Update README.md
Browse files
README.md
CHANGED
@@ -26,42 +26,43 @@ pipeline_tag: fill-mask
|
|
26 |
|
27 |
| 模型 | 版本 | 说明 |
|
28 |
| :--: | :--: | :--:|
|
29 |
-
| [keyword_gacha_base_multilingual](https://huggingface.co/neavo/keyword_gacha_base_multilingual) |
|
30 |
-
| [keyword_gacha_ner_multilingual](https://huggingface.co/neavo/keyword_gacha_ner_multilingual) |
|
31 |
|
32 |
### 基础模型 Base
|
33 |
|
34 |
- 在 [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练
|
35 |
-
- 继续预训练的训练量大约
|
36 |
- 训练参数如下:
|
37 |
- Batch Size : 8
|
38 |
-
- Gradient Accumulation Steps :
|
39 |
-
- Total Batch Size :
|
40 |
-
- Learing Rate :
|
41 |
- Maximum Sequence Length : 256
|
42 |
-
- Optimizer :
|
|
|
43 |
- Warnup Ratio : 0.1
|
44 |
- Train Precision : bf16
|
45 |
-
|
46 |
- 使用说明
|
47 |
- 暂无,基础模型一般不直接使用,需针对具体下游任务进行微调后使用
|
48 |
|
49 |
### 实体识别模型 NER
|
50 |
|
51 |
-
- 在 Base 模型的基础上,使用了大约
|
52 |
- 与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率
|
53 |
- 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时
|
54 |
- 实际任务环境中的实测数据,并非预设测试集上的 F1 Score 这类理论上的指标
|
55 |
- 训练参数如下:
|
56 |
-
- Batch Size :
|
57 |
-
- Gradient Accumulation Steps :
|
58 |
-
- Total Batch Size :
|
59 |
-
- Learing Rate :
|
60 |
-
-
|
61 |
-
-
|
62 |
- Warnup Ratio : 0.1
|
63 |
- Train Precision : bf16
|
64 |
-
|
65 |
- 使用说明
|
66 |
- 待补充
|
67 |
|
|
|
26 |
|
27 |
| 模型 | 版本 | 说明 |
|
28 |
| :--: | :--: | :--:|
|
29 |
+
| [keyword_gacha_base_multilingual](https://huggingface.co/neavo/keyword_gacha_base_multilingual) | 20250122 | 基础模型 |
|
30 |
+
| [keyword_gacha_ner_multilingual](https://huggingface.co/neavo/keyword_gacha_ner_multilingual) | 20250122 | 预训练实体识别模型 |
|
31 |
|
32 |
### 基础模型 Base
|
33 |
|
34 |
- 在 [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练
|
35 |
+
- 继续预训练的训练量大约 1B Token,包含 4 种不同语言的语料
|
36 |
- 训练参数如下:
|
37 |
- Batch Size : 8
|
38 |
+
- Gradient Accumulation Steps : 32
|
39 |
+
- Total Batch Size : 256
|
40 |
+
- Learing Rate : 5e-05
|
41 |
- Maximum Sequence Length : 256
|
42 |
+
- Optimizer : adamw_torch
|
43 |
+
- LR Scheduler: warmup_stable_decay
|
44 |
- Warnup Ratio : 0.1
|
45 |
- Train Precision : bf16
|
46 |
+
|
47 |
- 使用说明
|
48 |
- 暂无,基础模型一般不直接使用,需针对具体下游任务进行微调后使用
|
49 |
|
50 |
### 实体识别模型 NER
|
51 |
|
52 |
+
- 在 Base 模型的基础上,使用了大约 80000 条合成语料进行 NER 任务的微调
|
53 |
- 与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率
|
54 |
- 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时
|
55 |
- 实际任务环境中的实测数据,并非预设测试集上的 F1 Score 这类理论上的指标
|
56 |
- 训练参数如下:
|
57 |
+
- Batch Size : 32
|
58 |
+
- Gradient Accumulation Steps : 1
|
59 |
+
- Total Batch Size : 32
|
60 |
+
- Learing Rate : 8e-06
|
61 |
+
- Optimizer : adamw_torch
|
62 |
+
- LR Scheduler: warmup_stable_decay
|
63 |
- Warnup Ratio : 0.1
|
64 |
- Train Precision : bf16
|
65 |
+
|
66 |
- 使用说明
|
67 |
- 待补充
|
68 |
|