neavo
/

keyword_gacha_base_multilingual

Model card Files Files and versions Community

keyword_gacha_base_multilingual / README.md

neavo's picture

Update README.md

b1fae42 verified about 2 months ago

|

2.85 kB

	---
	language:
	- zh
	- en
	- ja
	- ko
	pipeline_tag: fill-mask
	---

	### 前言

	- 一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列，在最开始是为了 [KeywordGacha](https://github.com/neavo/KeywordGacha) 而创造的
	- [KeywordGacha](https://github.com/neavo/KeywordGacha) 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等内容文本中实体词语表的翻译辅助工具
	- 在 [KeywordGacha](https://github.com/neavo/KeywordGacha) 的开发过程中，我们发现社区中并没有满足需求的语言模型模型，所以自己动手创造了一个：）

	### 综述

	- 通过针对性的预训练，本系列模型：
	- 对 `轻小说`、`游戏脚本`、`漫画脚本` 等故事性文本内容具有极好的理解能力
	- 特别是 `剑与魔法`、`超能力战斗`、`异世界冒险` 等常见的 ACG 题材的故事内容
	- AND NSFW IS OK
	- 支持多种语言
	- 目前已针对以下语言进行了预训练：`中文`、`英文`、`日文`、`韩文`
	- 未来计划针对以下语言进行预训练：`俄文`
	- 目前我们提供以下预训练模型：

	\| 模型 \| 版本 \| 说明 \|
	\| :--: \| :--: \| :--:\|
	\| [keyword_gacha_base_multilingual](https://huggingface.co/neavo/keyword_gacha_base_multilingual) \| 20241212 \| 基础模型 \|
	\| [keyword_gacha_ner_multilingual](https://huggingface.co/neavo/keyword_gacha_ner_multilingual) \| 20241212 \| 预训练实体识别模型 \|

	### 基础模型 Base

	- 在 [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练
	- 继续预训练的训练量大约 2B Token，包含 4 种不同语言的语料
	- 训练参数如下：
	- Batch Size : 8
	- Gradient Accumulation Steps : 16
	- Total Batch Size : 128
	- Learing Rate : 2e-5
	- Maximum Sequence Length : 256
	- Optimizer : ademamix_8bit
	- Warnup Ratio : 0.1
	- Train Precision : bf16
	- Max Train Epochs : 2
	- 使用说明
	- 暂无，基础模型一般不直接使用，需针对具体下游任务进行微调后使用

	### 实体识别模型 NER

	- 在 Base 模型的基础上，使用了大约 50000 条合成语料进行 NER 任务的微调
	- 与人工校对的实体词语表进行对比，可以达到 `90%-95%` 的实际准确率
	- 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时
	- 实际任务环境中的实测数据，并非预设测试集上的 F1 Score 这类理论上的指标
	- 训练参数如下：
	- Batch Size : 48
	- Gradient Accumulation Steps : 2
	- Total Batch Size : 96
	- Learing Rate : 1e-5
	- Maximum Sequence Length : 256
	- Optimizer : ademamix_8bit
	- Warnup Ratio : 0.1
	- Train Precision : bf16
	- Max Train Epochs : 20
	- 使用说明
	- 待补充

	### 其他
	- 训练脚本 [Github](https://github.com/neavo/KeywordGachaModel)