mazalaai
/

TTS_Mongolian

Inference Endpoints

Model card Files Files and versions Community

Vijish commited on May 13

Commit

42e91c3

•

1 Parent(s): dc3db46

Update voice_processing.py

Browse files

Files changed (1) hide show

voice_processing.py +23 -4

voice_processing.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import datetime
 import logging
 import os
@@ -33,7 +34,7 @@ limitation = os.getenv("SYSTEM") == "spaces"
 config = Config()
 # Edge TTS
-tts_voice_list = edge_tts.list_voices()
 tts_voices = ["mn-MN-BataaNeural", "mn-MN-YesuiNeural"]  # Specific voices
 # RVC models
@@ -117,7 +118,14 @@ def get_model_names():
     model_root = "weights"  # Assuming this is where your models are stored
     return [d for d in os.listdir(model_root) if os.path.isdir(f"{model_root}/{d}")]
-def tts(model_name, tts_text, tts_voice, index_rate, use_uploaded_voice, uploaded_voice):
     # Default values for parameters used in EdgeTTS
     speed = 0  # Default speech speed
     f0_up_key = 0  # Default pitch adjustment
@@ -130,6 +138,7 @@ def tts(model_name, tts_text, tts_voice, index_rate, use_uploaded_voice, uploade
     edge_output_filename = get_unique_filename("mp3")
     try:
         if use_uploaded_voice:
             if uploaded_voice is None:
@@ -140,6 +149,7 @@ def tts(model_name, tts_text, tts_voice, index_rate, use_uploaded_voice, uploade
                 tmp_file.write(uploaded_voice)
                 uploaded_file_path = tmp_file.name
             audio, sr = librosa.load(uploaded_file_path, sr=16000, mono=True)
         else:
             # EdgeTTS processing
@@ -153,7 +163,9 @@ def tts(model_name, tts_text, tts_voice, index_rate, use_uploaded_voice, uploade
             # Invoke Edge TTS
             t0 = time.time()
             speed_str = f"+{speed}%" if speed >= 0 else f"{speed}%"
-            edge_tts.Communicate(tts_text, tts_voice, rate=speed_str).save(edge_output_filename)
             t1 = time.time()
             edge_time = t1 - t0
@@ -212,7 +224,9 @@ def tts(model_name, tts_text, tts_voice, index_rate, use_uploaded_voice, uploade
         )
     except EOFError:
-        info = "Output not valid. This may occur when input text and speaker do not match."
         print(info)
         return info, None, None
     except Exception as e:
@@ -220,10 +234,15 @@ def tts(model_name, tts_text, tts_voice, index_rate, use_uploaded_voice, uploade
         print(traceback_info)
         return str(e), None, None
 voice_mapping = {
     "Mongolian Male": "mn-MN-BataaNeural",
     "Mongolian Female": "mn-MN-YesuiNeural"
 }
 hubert_model = load_hubert()
 rmvpe_model = RMVPE("rmvpe.pt", config.is_half, config.device)

+import asyncio
 import datetime
 import logging
 import os
 config = Config()
 # Edge TTS
+tts_voice_list = asyncio.get_event_loop().run_until_complete(edge_tts.list_voices())
 tts_voices = ["mn-MN-BataaNeural", "mn-MN-YesuiNeural"]  # Specific voices
 # RVC models
     model_root = "weights"  # Assuming this is where your models are stored
     return [d for d in os.listdir(model_root) if os.path.isdir(f"{model_root}/{d}")]
+async def tts(
+    model_name,
+    tts_text,
+    tts_voice,
+    index_rate,
+    use_uploaded_voice,
+    uploaded_voice,
+):
     # Default values for parameters used in EdgeTTS
     speed = 0  # Default speech speed
     f0_up_key = 0  # Default pitch adjustment
     edge_output_filename = get_unique_filename("mp3")
     try:
         if use_uploaded_voice:
             if uploaded_voice is None:
                 tmp_file.write(uploaded_voice)
                 uploaded_file_path = tmp_file.name
+            #uploaded_file_path = uploaded_voice.name
             audio, sr = librosa.load(uploaded_file_path, sr=16000, mono=True)
         else:
             # EdgeTTS processing
             # Invoke Edge TTS
             t0 = time.time()
             speed_str = f"+{speed}%" if speed >= 0 else f"{speed}%"
+            await edge_tts.Communicate(
+                tts_text, tts_voice, rate=speed_str
+            ).save(edge_output_filename)
             t1 = time.time()
             edge_time = t1 - t0
         )
     except EOFError:
+        info = (
+            "output not valid. This may occur when input text and speaker do not match."
+        )
         print(info)
         return info, None, None
     except Exception as e:
         print(traceback_info)
         return str(e), None, None
 voice_mapping = {
     "Mongolian Male": "mn-MN-BataaNeural",
     "Mongolian Female": "mn-MN-YesuiNeural"
 }
 hubert_model = load_hubert()
 rmvpe_model = RMVPE("rmvpe.pt", config.is_half, config.device)