|
--- |
|
license: cc-by-sa-4.0 |
|
language: |
|
- zh |
|
pipeline_tag: text-to-speech |
|
tags: |
|
- style-bert-vits2 |
|
- tts |
|
- childish |
|
- childish voice |
|
- chinese |
|
- text2audio |
|
- text-to-audio |
|
- text to audio |
|
- audio |
|
--- |
|
|
|
|
|
[X(Twitter) アカウント](https://twitter.com/peony__snow) |
|
|
|
|
|
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6629ba7d59854b02da014f64/i64Rx7UbX_-KPLA3uJEEO.png) |
|
|
|
# 这种模式的优势在于,生成的稚气平和的声音可以免费用于商业和非商业目的。 |
|
|
|
# このモデルの長所は幼げなおっとりしたボイス生成を商用・非商用問わず無料で自由に使える点です。 |
|
|
|
# The advantage of this model is that you can freely use the childish and unapologetic voice generation for free, both commercial and non-commercial. |
|
|
|
该模型是 RikkaBotan 的中文版。 |
|
如果您想让用户用日语说逻辑,[cool版](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_cool_original)。 |
|
如果你想让她用日语有感情地说话,[sweet版](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_sweet_original)。 |
|
如果你想让它说日语耳语,[ASMR 版](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_asmr_original)。 |
|
如果你想让我用英语说话,[英语版](https://huggingface.co/RikkaBotan/style_bert_vits2_english_original)。 |
|
试试。 |
|
|
|
このモデルはRikkaBotanの中国語バージョンです。 |
|
日本語で論理的に話してほしい場合は、[coolバージョン](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_cool_original) |
|
日本語で感情的に話してほしい場合は[sweetバージョン](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_sweet_original) |
|
日本語のささやき声で話してほしい場合は[ASMRバージョン](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_asmr_original) |
|
英語で話してほしい場合は[英語バージョン](https://huggingface.co/RikkaBotan/style_bert_vits2_english_original) |
|
を試してみてください。 |
|
|
|
This model is english version. |
|
If you want them to speak more descriptively in Japanese, try the [cool version](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_cool_original). |
|
If you want them to speak emotionally in Japanese, try the [sweet version](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_sweet_original) |
|
If you want them to speak whisper voice in Japanese, try the [ASMR version](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_asmr_original). |
|
If you want them to speak in English, try the [English version](https://huggingface.co/RikkaBotan/style_bert_vits2_english_original). |
|
|
|
# 试音/モデルのサンプル音声/sample voice |
|
|
|
このモデルのサンプル音声①です |
|
|
|
|
|
|
|
このモデルのサンプル音声②です。 |
|
|
|
|
|
|
|
# 型号说明/モデルの説明/model description |
|
|
|
该模型是一个文本到语音(TTS)模型、 |
|
style_bert_vits2,它是一个根据自己的语音数据训练的 TTS(文本到语音)模型。 |
|
与以前的模型相比,它的语音生成更准确、更自然。 |
|
由于训练数据只是创建该模型的研究人员本人的声音,因此该模型的使用许可与 style_bert_vits2 相同、 |
|
使用许可与 style_bert_vits2 相同。 |
|
无论是商业用途还是非商业用途,都可以免费自由使用。 |
|
|
|
このモデルはTTS(text-to-speech)モデルである、 |
|
style_bert_vits2を独自の音声データで学習させたモデルです。 |
|
これまでのモデルと比較して高精度かつ自然な音声生成が可能となっています。 |
|
学習データはモデルを作成した研究者本人の音声のみであるため、 |
|
ライセンスはstyle_bert_vits2と同様に |
|
商用・非商用問わず、自由に無料でご使用いただけます。 |
|
|
|
This model is a TTS (text-to-speech) model. |
|
This is a model that has trained style_bert_vits2 with my own voice data. |
|
style_bert_vits2 is a speech generation model. |
|
Compared to previous models, it is possible to generate highly accurate and natural speech. |
|
Since the training data is only the voice of the researcher who created the model, |
|
The license is the same as style_bert_vits2 |
|
You can use it freely and free of charge, regardless of whether it is commercial or non-commercial. |
|
|
|
# 使用模型时的承诺/モデルを使うときのお約束/limitation |
|
|
|
〇您可以做些什么/できること/What you can do |
|
|
|
可交付成果的处理 成果物の加工 Processing of deliverables |
|
|
|
交付品的商业用途 成果物の商用利用 Commercial use of deliverables |
|
|
|
将交付品用作学习材料 成果物の学習素材としての利用 Use of deliverables as learning materials |
|
|
|
用于 R-18 和 R-18G 表达式(但需要分区(请为您的小伙伴们着想) |
|
|
|
|
|
R-18、R-18G表現への利用(ただしゾーニングは必須です(小さなお友達のことをちゃんと考えてあげてね)) |
|
|
|
|
|
Use for R-18 and R-18G expressions (but zoning is required (please think about your little friends)) |
|
|
|
|
|
×您不能做的事/できないこと/What you cannot do |
|
|
|
语音模型的二次分配 音声モデルの二次配布 Secondary distribution of voice models |
|
|
|
批评或攻击他人 人を批判・攻撃すること Criticizing or attacking others |
|
|
|
呼吁支持或反对某一政治立场、宗教或意识形态 特定の政治的立場・宗教・思想への賛同または反対を呼びかけること Calling for support or opposition to a particular political position, religion, or ideology |
|
|
|
发布不分区的 R-18 声音 刺激の強い表現をゾーニングなしで公開すること Publishing R-18 voice without zoning |
|
|
|
对提供者不利 なりすましなど、提供者に不利益をもたらすこと detrimental to the provider |
|
|
|
# 用于商业用途的 VRM(Vroid)模型/商用利用可能なVRMも作りました。/ VRM(Vroid) model for commercial use |
|
|
|
|
|
请将此用于 AITuber 和视频创作。/AITuberや動画解説などに用いてください。/Please use this for AITuber and video creations |
|
|
|
|
|
[VRM(Vroid)Model](https://hub.vroid.com/characters/610722650807128806/models/3779097297253430502) |
|
|
|
|
|
# 如果您喜欢/できればやって欲しいこと/If you like |
|
|
|
如果您来信说您正在使用这种模式,我会很高兴! |
|
X(Twitter)や説明文でこのモデルを使ったことを書いてもらえると作者が喜びます。(必須ではありません) |
|
If you write that you are using this model, I will be glad! |
|
|
|
|
|
# 如何使用(此代码用于 colab)/モデルの使い方/how to use (コードはgoogle colab用です。 For google colab) |
|
|
|
|
|
使用模型有两种方法。 2通りの使用方法があります。必要に応じて選択してください。 There are 2 ways to use model. |
|
|
|
|
|
1.使用 style-bert-vits2 应用程序/style-bert-vits2のアプリを使ってボイスを生成する/to use style-bert-vits2 app |
|
|
|
|
|
①在 Style-Bert-VITS2/model_assets/rikka_botan/ 文件夹中放入 3 个文件 |
|
Style-Bert-VITS2 インストール先の Style-Bert-VITS2/model_assets/rikka_botan/ フォルダに config.json, safetensors, style_vectors.npy の 3ファイルを置きます。 |
|
Put 3 files on Style-Bert-VITS2/model_assets/rikka_botan/ folder |
|
使用该程序,我们可以保存文件。 以下のプログラムで自動的に保存できます。By using this program, we can save files. |
|
```python |
|
from google.colab import drive |
|
drive.mount("/content/drive") |
|
%cd /content/drive/MyDrive/ |
|
!mkdir Style-Bert-VITS2/ |
|
%cd Style-Bert-VITS2/ |
|
!mkdir model_assets/ |
|
%cd model_assets/ |
|
!mkdir rikka_botan/ |
|
from huggingface_hub import snapshot_download |
|
|
|
model_name = "RikkaBotan/style_bert_vits2_chinese_original" |
|
download_path = snapshot_download( |
|
repo_id=model_name, |
|
local_dir = f"rikka_botan/", |
|
local_dir_use_symlinks=False |
|
) |
|
``` |
|
|
|
②执行此程序 以下のプログラムを実行します execute this program |
|
|
|
```python |
|
!git clone https://github.com/litagin02/Style-Bert-VITS2.git |
|
%cd Style-Bert-VITS2/ |
|
!pip install -r requirements.txt |
|
!python initialize.py --skip_jvnv |
|
|
|
from google.colab import drive |
|
drive.mount("/content/drive") |
|
|
|
dataset_root = "/content/drive/MyDrive/Style-Bert-VITS2/Data" |
|
assets_root = "/content/drive/MyDrive/Style-Bert-VITS2/model_assets" |
|
import yaml |
|
with open("configs/paths.yml", "w", encoding="utf-8") as f: |
|
yaml.dump({"dataset_root": dataset_root, "assets_root": assets_root}, f) |
|
|
|
!python app.py --share |
|
``` |
|
③访问公共网址 public URLにアクセスします。access public url |
|
|
|
2.使用此代码 以下のコードを利用します。use this code |
|
|
|
```python |
|
# At first, we will install the required libraries |
|
!git clone https://github.com/litagin02/Style-Bert-VITS2.git |
|
%cd Style-Bert-VITS2/ |
|
!pip install -r requirements.txt |
|
!pip install style-bert-vits2 --no-build-isolation # To avoid bugs |
|
|
|
# load Japanese bert model |
|
from style_bert_vits2.nlp import bert_models |
|
from style_bert_vits2.constants import Languages |
|
|
|
bert_models.load_model(Languages.ZH, "hfl/chinese-roberta-wwm-ext-large") |
|
bert_models.load_tokenizer(Languages.ZH, "hfl/chinese-roberta-wwm-ext-large") |
|
|
|
# save model files to model_assets dir |
|
from pathlib import Path |
|
from huggingface_hub import hf_hub_download |
|
|
|
model_file = "rikka_botan_chinese.safetensors" |
|
config_file = "config.json" |
|
style_file = "style_vectors.npy" |
|
|
|
for file in [model_file, config_file, style_file]: |
|
print(file) |
|
hf_hub_download( |
|
"RikkaBotan/style_bert_vits2_chinese_original", |
|
file, |
|
local_dir="model_assets" |
|
) |
|
|
|
|
|
# By using saved model, we will test text-to-speech demo |
|
from style_bert_vits2.tts_model import TTSModel |
|
|
|
assets_root = Path("model_assets") |
|
|
|
model = TTSModel( |
|
model_path=assets_root / model_file, |
|
config_path=assets_root / config_file, |
|
style_vec_path=assets_root / style_file, |
|
device="cuda" # If you cannot use cuda, please input cpu |
|
) |
|
|
|
# Please input the Chinese text |
|
from IPython.display import Audio, display |
|
|
|
sr, audio = model.infer(text="please write text here") |
|
display(Audio(audio, rate=sr)) |
|
``` |
|
|
|
|
|
# 致谢/謝辞/Acknowledgments |
|
我们要感谢 [litagin](https://huggingface.co/litagin)先生/女士 开发了 style-bert-vits2。 |
|
此外,这个模型是在许多开发人员的努力下创建的。我们对前辈们的努力深表感谢。 |
|
|
|
|
|
style-bert-vits2を開発してくださった[litagin](https://huggingface.co/litagin)さんに感謝いたします |
|
また、本モデルは多くの研究者さんの努力の上にできています。先人たちの努力に深く感謝します。 |
|
|
|
|
|
We would like to thank Mr./Ms. [litagin](https://huggingface.co/litagin) for developing style-bert-vits2. |
|
Additionally, this model was created based on the efforts of many developers. We are deeply grateful for the efforts of our predecessors. |
|
|