utrobinmv
/

tts_ru_free_hf_vits_low_multispeaker

@@ -34,12 +34,13 @@ https://huggingface.co/spaces/utrobinmv/tts_ru_free_hf_vits_low_multispeaker
-Usage example:
 ```python
 from transformers import VitsModel, AutoTokenizer, set_seed
 import torch
 import scipy
 device = 'cuda' # 'cpu' or 'cuda'
@@ -54,8 +55,6 @@ model = VitsModel.from_pretrained(model_name).to(device)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model.eval()
-from ruaccent import RUAccent
 # load accentizer
 accentizer = RUAccent()
 accentizer.load(omograph_model_size='turbo', use_dictionary=True, device=device)
@@ -84,7 +83,8 @@ print(text)
 inputs = tokenizer(text, return_tensors="pt")
 with torch.no_grad():
- output = model(**inputs.to(device), speaker_id=speaker).waveform.detach().cpu().numpy()
 scipy.io.wavfile.write("tts_audio.wav", rate=model.config.sampling_rate,
  data=output[0])
@@ -102,6 +102,74 @@ Audio(output, rate=model.config.sampling_rate)
 ##
 ## Languages covered
 Russian (ru_RU)

+Usage example using PyTorch:
 ```python
 from transformers import VitsModel, AutoTokenizer, set_seed
 import torch
 import scipy
+from ruaccent import RUAccent
 device = 'cuda' # 'cpu' or 'cuda'
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model.eval()
 # load accentizer
 accentizer = RUAccent()
 accentizer.load(omograph_model_size='turbo', use_dictionary=True, device=device)
 inputs = tokenizer(text, return_tensors="pt")
 with torch.no_grad():
+ output = model(**inputs.to(device), speaker_id=speaker).waveform
+ output = output.detach().cpu().numpy()
 scipy.io.wavfile.write("tts_audio.wav", rate=model.config.sampling_rate,
  data=output[0])
 ##
+Usage example using ONNX:
+First copy the model.onnx file to the folder "tts_ru_free_hf_vits_low_multispeaker".
+```python
+import numpy as np
+import scipy
+import onnxruntime
+from ruaccent import RUAccent
+from transformers import AutoTokenizer
+speaker = 0 # 0-woman, 1-man
+# load model
+model_path = "tts_ru_free_hf_vits_low_multispeaker/model.onnx"
+sess_options = onnxruntime.SessionOptions()
+model = onnxruntime.InferenceSession(model_path, sess_options=sess_options)
+tokenizer = AutoTokenizer.from_pretrained("utrobinmv/tts_ru_free_hf_vits_low_multispeaker")
+# text
+text = """Ночью двадцать третьего июня начал извергаться самый высокий
+действующий вулкан в Евразии - Кл+ючевской. Об этом сообщила руководитель
+Камчатской группы реагирования на вулканические извержения, ведущий
+научный сотрудник Института вулканологии и сейсмологии ДВО РАН Ольга Гирина.
+«Зафиксированное ночью не просто свечение, а вершинное эксплозивное
+извержение стромболианского типа. Пока такое извержение никому не опасно:
+ни населению, ни авиации» пояснила ТАСС госпожа Гирина."""
+# load accentizer
+accentizer = RUAccent()
+accentizer.load(omograph_model_size='turbo', use_dictionary=True)
+# the placement of accents
+text = accentizer.process_all(text)
+# inference
+inputs = tokenizer(text, return_tensors="np")
+sid = np.array([speaker])
+sampling_rate = 16000
+output = model.run(
+ None,
+ {
+ "input_ids": inputs['input_ids'],
+ "attention_mask": inputs['attention_mask'],
+ "sid": sid,
+ },
+ )[0]
+scipy.io.wavfile.write("tts_audio.wav", rate=sampling_rate,
+ data=output[0])
+```
+For displayed in a Jupyter Notebook / Google Colab:
+```python
+from IPython.display import Audio
+Audio(output, rate=sampling_rate)
+```
+##
 ## Languages covered
 Russian (ru_RU)

model.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03ee7618a7c7930dde43489153a6e21f6619eec6a5497aed551ddd29b10eb15c
+size 50849741