fahadqazi
/

Sindhi-TTS

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

fahadqazi commited on 14 days ago

Commit

84bd0c2

·

verified ·

1 Parent(s): 8fb5667

Update README.md

Files changed (1) hide show

README.md +43 -0

README.md CHANGED Viewed

@@ -23,6 +23,49 @@ It achieves the following results on the evaluation set:
 - epoch: 13.2653
 - step: 6500
 ## Model description
 More information needed

 - epoch: 13.2653
 - step: 6500
+## How to use
+```
+  from transformers import SpeechT5ForTextToSpeech, SpeechT5ForSpeechToText
+  from transformers import SpeechT5Processor
+  from transformers import AutoTokenizer
+  from transformers import SpeechT5HifiGan
+  import torch
+  from IPython.display import Audio as IPythonAudio
+  device = "cuda" if torch.cuda.is_available() else "cpu"
+  # imporing speech processor from another repo
+  processor = SpeechT5Processor.from_pretrained("Sana1207/Hindi_SpeechT5_finetuned")
+  # importing tokenizer and assigning it to the speech processor
+  tokenizer = AutoTokenizer.from_pretrained("fahadqazi/Sindhi-TTS")
+  processor.tokenizer = tokenizer
+  # importing the model
+  model = SpeechT5ForTextToSpeech.from_pretrained("fahadqazi/Sindhi-TTS")
+  # importing the vocoder from microsoft's repository
+  vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan").to(device)
+  # loading random vocodings (the voice)
+  embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+  speaker_embeddings = embeddings_dataset[7306]["xvector"]
+  speaker_embeddings = torch.tensor(speaker_embeddings).to(device).unsqueeze(0)
+  # Generating Speech
+  text = "ڪهڙا حال آهن"
+  inputs = processor(text=text, return_tensors="pt").to(device)
+  speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
+  IPythonAudio(speech.cpu().numpy(), rate=16000, autoplay=True)
+```
 ## Model description
 More information needed