|
--- |
|
language: |
|
- zh |
|
- en |
|
- ja |
|
- ko |
|
pipeline_tag: fill-mask |
|
--- |
|
|
|
### 前言 |
|
|
|
- 一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列,在最开始是为了 [KeywordGacha](https://github.com/neavo/KeywordGacha) 而创造的 |
|
- [KeywordGacha](https://github.com/neavo/KeywordGacha) 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等内容文本中实体词语表的翻译辅助工具 |
|
- 在 [KeywordGacha](https://github.com/neavo/KeywordGacha) 的开发过程中,我们发现社区中并没有满足需求的语言模型模型,所以自己动手创造了一个 :) |
|
|
|
### 综述 |
|
|
|
- 通过针对性的预训练,本系列模型: |
|
- 对 `轻小说`、`游戏脚本`、`漫画脚本` 等故事性文本内容具有极好的理解能力 |
|
- 特别是 `剑与魔法`、`超能力战斗`、`异世界冒险` 等常见的 ACG 题材的故事内容 |
|
- AND NSFW IS OK |
|
- 支持多种语言 |
|
- 目前已针对以下语言进行了预训练:`中文`、`英文`、`日文`、`韩文` |
|
- 未来计划针对以下语言进行预训练:`俄文` |
|
- 目前我们提供以下预训练模型: |
|
|
|
| 模型 | 版本 | 说明 | |
|
| :--: | :--: | :--:| |
|
| [keyword_gacha_base_multilingual](https://huggingface.co/neavo/keyword_gacha_base_multilingual) | 20241212 | 基础模型 | |
|
| [keyword_gacha_ner_multilingual](https://huggingface.co/neavo/keyword_gacha_ner_multilingual) | 20241212 | 预训练实体识别模型 | |
|
|
|
### 基础模型 Base |
|
|
|
- 在 [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练 |
|
- 继续预训练的训练量大约 2B Token,包含 4 种不同语言的语料 |
|
- 训练参数如下: |
|
- Batch Size : 8 |
|
- Gradient Accumulation Steps : 16 |
|
- Total Batch Size : 128 |
|
- Learing Rate : 2e-5 |
|
- Maximum Sequence Length : 256 |
|
- Optimizer : ademamix_8bit |
|
- Warnup Ratio : 0.1 |
|
- Train Precision : bf16 |
|
- Max Train Epochs : 2 |
|
- 使用说明 |
|
- 暂无,基础模型一般不直接使用,需针对具体下游任务进行微调后使用 |
|
|
|
### 实体识别模型 NER |
|
|
|
- 在 Base 模型的基础上,使用了大约 50000 条合成语料进行 NER 任务的微调 |
|
- 与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率 |
|
- 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时 |
|
- 实际任务环境中的实测数据,并非预设测试集上的 F1 Score 这类理论上的指标 |
|
- 训练参数如下: |
|
- Batch Size : 48 |
|
- Gradient Accumulation Steps : 2 |
|
- Total Batch Size : 96 |
|
- Learing Rate : 1e-5 |
|
- Maximum Sequence Length : 256 |
|
- Optimizer : ademamix_8bit |
|
- Warnup Ratio : 0.1 |
|
- Train Precision : bf16 |
|
- Max Train Epochs : 20 |
|
- 使用说明 |
|
- 待补充 |
|
|
|
### 其他 |
|
- 训练脚本 [Github](https://github.com/neavo/KeywordGachaModel) |