RikkaBotan commited on
Commit
4383513
·
verified ·
1 Parent(s): 1f42154

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +215 -0
README.md CHANGED
@@ -1,3 +1,218 @@
1
  ---
2
  license: cc-by-sa-4.0
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: cc-by-sa-4.0
3
+ language:
4
+ - ja
5
+ pipeline_tag: text-to-speech
6
+ tags:
7
+ - style-bert-vits2
8
+ - style-bert-vits2-jp-extra
9
+ - tts
10
+ - childish
11
+ - childish voice
12
+ - japanese
13
+ - text2audio
14
+ - text-to-audio
15
+ - text to audio
16
+ - audio
17
  ---
18
+
19
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/6629ba7d59854b02da014f64/i64Rx7UbX_-KPLA3uJEEO.png)
20
+
21
+ # このモデルの長所は幼げなおっとりしたボイス生成を商用・非商用問わず無料で自由に使える点です。
22
+
23
+ # The advantage of this model is that you can freely use the childish and unapologetic voice generation for free, both commercial and non-commercial.
24
+
25
+ このモデルはRikkaBotanのASMRバージョンです。
26
+ ささやき声での演技に適しています。
27
+ もしもっと感情的に話してほしい場合は、[sweetバージョン](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_sweet_original)
28
+ 英語で話してほしい場合は[englishバージョン](https://huggingface.co/RikkaBotan/style_bert_vits2_english_original)
29
+ 論理的に話してほしい場合は[coolバージョン](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_cool_original)
30
+ を試してみてください。
31
+
32
+ This model is sweet version.
33
+ It is suitable for reading emotional text.
34
+ If you want them to speak more descriptively, try the [cool version](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_cool_original).
35
+ If you want them to speak in English, try the [English version](https://huggingface.co/RikkaBotan/style_bert_vits2_english_original)
36
+ If you want them to speak emotionally, try the [sweet version](https://huggingface.co/RikkaBotan/style_bert_vits2_jp_extra_sweet_original).
37
+
38
+ # モデルのサンプル音声/sample voice
39
+
40
+ このモデルのサンプル音声①です
41
+
42
+
43
+ <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/6629ba7d59854b02da014f64/nBkwX8cYuhr1HpYUqQXUX.mpga"></audio>
44
+
45
+ このモデルのサンプル音声②です。
46
+
47
+ <audio controls src="https://cdn-uploads.huggingface.co/production/uploads/6629ba7d59854b02da014f64/_Tk3s4vuK-N5VW-D_Gh2G.mpga"></audio>
48
+
49
+ # モデルの説明/model description
50
+
51
+ このモデルはTTS(text-to-speech)モデルである、
52
+ style_bert_vits2_jp_extraを独自の音声データで学習させたモデルです。
53
+ style_bert_vits2_jp_extraは日本語に特化した音声生成モデルであり、
54
+ これまでのモデルと比較して高精度かつ自然な音声生成が可能となっています。
55
+ 学習データはモデルを作成した研究者本人の音声のみであるため、
56
+ ライセンスはstyle_bert_vits2_jp_extraと同様に
57
+ 商用・非商用問わず、自由に無料でご使用いただけます。
58
+
59
+ This model is a TTS (text-to-speech) model.
60
+ This is a model that has trained style_bert_vits2_jp_extra with my own voice data.
61
+ style_bert_vits2_jp_extra is a speech generation model specialized for Japanese.
62
+ Compared to previous models, it is possible to generate highly accurate and natural speech.
63
+ Since the training data is only the voice of the researcher who created the model,
64
+ The license is the same as style_bert_vits2_jp_extra
65
+ You can use it freely and free of charge, regardless of whether it is commercial or non-commercial.
66
+
67
+ # モデルを使うときのお約束/limitation
68
+
69
+ 〇できること/What you can do
70
+
71
+ 成果物の加工 Processing of deliverables
72
+
73
+ 成果物の商用利用 Commercial use of deliverables
74
+
75
+ 成果物の学習素材としての利用 Use of deliverables as learning materials
76
+
77
+ R-18、R-18G表現への利用(ただしゾーニングは必須です(小さなお友達のことをちゃんと考えてあげてね))
78
+
79
+ Use for R-18 and R-18G expressions (but zoning is required (please think about your little friends))
80
+
81
+
82
+ ×できないこと/What you cannot do
83
+
84
+ 音声モデルの二次配布 Secondary distribution of voice models
85
+
86
+ 人を批判・攻撃すること Criticizing or attacking others
87
+
88
+ 特定の政治的立場・宗教・思想への賛同または反対を呼びかけること Calling for support or opposition to a particular political position, religion, or ideology
89
+
90
+ 刺激の強い表現をゾーニングなしで公開すること Publishing R-18 voice without zoning
91
+
92
+ なりすましなど、提供者に不利益をもたらすこと detrimental to the provider
93
+
94
+ # 商用利用可能なVRMも作りました。/ VRM(Vroid) model for commercial use
95
+
96
+
97
+ AITuberや動画解説などに用いてください。/Please use this for AITuber and video creations
98
+
99
+
100
+ [VRM(Vroid)Model](https://hub.vroid.com/characters/610722650807128806/models/3779097297253430502)
101
+
102
+
103
+ # できればやって欲しいこと/If you like
104
+
105
+ X(Twitter)や説明文でこのモデルを使ったことを書いてもらえると作者が喜びます。(必須ではありません)
106
+ If you write that you are using this model, I will be glad!
107
+
108
+
109
+ # モデルの使い方/how to use (コードはgoogle colab用です。 For google colab)
110
+
111
+
112
+ 2通りの使用方法があります。必要に応じて選択してください。There are 2 ways to use model.
113
+
114
+
115
+ 1.style-bert-vits2のアプリを使ってボイスを生成する/to use style-bert-vits2 app
116
+
117
+
118
+ ①Style-Bert-VITS2 インストール先の Style-Bert-VITS2/model_assets/rikka_botan/ フォルダに config.json, safetensors, style_vectors.npy の 3ファイルを置きます。
119
+ Put 3 files on Style-Bert-VITS2/model_assets/rikka_botan/ folder
120
+ 以下のプログラムで自動的に保存できます。By using this program, we can save files.
121
+ ```python
122
+ from google.colab import drive
123
+ drive.mount("/content/drive")
124
+ %cd /content/drive/MyDrive/
125
+ !mkdir Style-Bert-VITS2/
126
+ %cd Style-Bert-VITS2/
127
+ !mkdir model_assets/
128
+ %cd model_assets/
129
+ !mkdir rikka_botan/
130
+ from huggingface_hub import snapshot_download
131
+
132
+ model_name = "RikkaBotan/style_bert_vits2_jp_extra_asmr_original"
133
+ download_path = snapshot_download(
134
+ repo_id=model_name,
135
+ local_dir = f"rikka_botan/",
136
+ local_dir_use_symlinks=False
137
+ )
138
+ ```
139
+
140
+ ②以下のプログラムを実行します execute this program
141
+
142
+ ```python
143
+ !git clone https://github.com/litagin02/Style-Bert-VITS2.git
144
+ %cd Style-Bert-VITS2/
145
+ !pip install -r requirements.txt
146
+ !python initialize.py --skip_jvnv
147
+
148
+ from google.colab import drive
149
+ drive.mount("/content/drive")
150
+
151
+ dataset_root = "/content/drive/MyDrive/Style-Bert-VITS2/Data"
152
+ assets_root = "/content/drive/MyDrive/Style-Bert-VITS2/model_assets"
153
+ import yaml
154
+ with open("configs/paths.yml", "w", encoding="utf-8") as f:
155
+ yaml.dump({"dataset_root": dataset_root, "assets_root": assets_root}, f)
156
+
157
+ !python app.py --share
158
+ ```
159
+ ③public URLにアクセスします。access public url
160
+
161
+ 2.以下のコードを利用します。use this code
162
+
163
+ ```python
164
+ # At first, we will install the required libraries
165
+ !git clone https://github.com/litagin02/Style-Bert-VITS2.git
166
+ %cd Style-Bert-VITS2/
167
+ !pip install -r requirements.txt
168
+ !pip install style-bert-vits2 --no-build-isolation # To avoid bugs
169
+
170
+ # load Japanese bert model
171
+ from style_bert_vits2.nlp import bert_models
172
+ from style_bert_vits2.constants import Languages
173
+
174
+ bert_models.load_model(Languages.JP, "ku-nlp/deberta-v2-large-japanese-char-wwm")
175
+ bert_models.load_tokenizer(Languages.JP, "ku-nlp/deberta-v2-large-japanese-char-wwm")
176
+
177
+ # save model files to model_assets dir
178
+ from pathlib import Path
179
+ from huggingface_hub import hf_hub_download
180
+
181
+ model_file = "rikka_botan_asmr.safetensors"
182
+ config_file = "config.json"
183
+ style_file = "style_vectors.npy"
184
+
185
+ for file in [model_file, config_file, style_file]:
186
+ print(file)
187
+ hf_hub_download(
188
+ "RikkaBotan/style_bert_vits2_jp_extra_asmr_original",
189
+ file,
190
+ local_dir="model_assets"
191
+ )
192
+
193
+
194
+ # By using saved model, we will test text-to-speech demo
195
+ from style_bert_vits2.tts_model import TTSModel
196
+
197
+ assets_root = Path("model_assets")
198
+
199
+ model = TTSModel(
200
+ model_path=assets_root / model_file,
201
+ config_path=assets_root / config_file,
202
+ style_vec_path=assets_root / style_file,
203
+ device="cuda" # If you cannot use cuda, please input cpu
204
+ )
205
+
206
+ # Please input the Japanese text
207
+ from IPython.display import Audio, display
208
+
209
+ sr, audio = model.infer(text="ここに文章を入力してください")
210
+ display(Audio(audio, rate=sr))
211
+ ```
212
+
213
+
214
+ # 謝辞/Acknowledgments
215
+ style-bert-vits2-jp-extraを開発してくださった[litagin](https://huggingface.co/litagin)さんに感謝いたします。
216
+ また、本モデルは多くの研究者さんの努力の上にできています。先人たちの努力に深く感謝します。
217
+ We would like to thank Mr./Ms. [litagin](https://huggingface.co/litagin) for developing style-bert-vits2-jp-extra.
218
+ Additionally, this model was created based on the efforts of many developers. We are deeply grateful for the efforts of our predecessors.