neavo's picture
Update README.md
b1fae42 verified
|
raw
history blame
2.85 kB
---
language:
- zh
- en
- ja
- ko
pipeline_tag: fill-mask
---
### 前言
- 一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列,在最开始是为了 [KeywordGacha](https://github.com/neavo/KeywordGacha) 而创造的
- [KeywordGacha](https://github.com/neavo/KeywordGacha) 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等内容文本中实体词语表的翻译辅助工具
- 在 [KeywordGacha](https://github.com/neavo/KeywordGacha) 的开发过程中,我们发现社区中并没有满足需求的语言模型模型,所以自己动手创造了一个 :)
### 综述
- 通过针对性的预训练,本系列模型:
-`轻小说``游戏脚本``漫画脚本` 等故事性文本内容具有极好的理解能力
- 特别是 `剑与魔法``超能力战斗``异世界冒险` 等常见的 ACG 题材的故事内容
- AND NSFW IS OK
- 支持多种语言
- 目前已针对以下语言进行了预训练:`中文``英文``日文``韩文`
- 未来计划针对以下语言进行预训练:`俄文`
- 目前我们提供以下预训练模型:
| 模型 | 版本 | 说明 |
| :--: | :--: | :--:|
| [keyword_gacha_base_multilingual](https://huggingface.co/neavo/keyword_gacha_base_multilingual) | 20241212 | 基础模型 |
| [keyword_gacha_ner_multilingual](https://huggingface.co/neavo/keyword_gacha_ner_multilingual) | 20241212 | 预训练实体识别模型 |
### 基础模型 Base
- 在 [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练
- 继续预训练的训练量大约 2B Token,包含 4 种不同语言的语料
- 训练参数如下:
- Batch Size : 8
- Gradient Accumulation Steps : 16
- Total Batch Size : 128
- Learing Rate : 2e-5
- Maximum Sequence Length : 256
- Optimizer : ademamix_8bit
- Warnup Ratio : 0.1
- Train Precision : bf16
- Max Train Epochs : 2
- 使用说明
- 暂无,基础模型一般不直接使用,需针对具体下游任务进行微调后使用
### 实体识别模型 NER
- 在 Base 模型的基础上,使用了大约 50000 条合成语料进行 NER 任务的微调
- 与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率
- 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时
- 实际任务环境中的实测数据,并非预设测试集上的 F1 Score 这类理论上的指标
- 训练参数如下:
- Batch Size : 48
- Gradient Accumulation Steps : 2
- Total Batch Size : 96
- Learing Rate : 1e-5
- Maximum Sequence Length : 256
- Optimizer : ademamix_8bit
- Warnup Ratio : 0.1
- Train Precision : bf16
- Max Train Epochs : 20
- 使用说明
- 待补充
### 其他
- 训练脚本 [Github](https://github.com/neavo/KeywordGachaModel)