mazalaai
/

TTS_Mongolian

Inference Endpoints

Model card Files Files and versions Community

Vijish commited on May 13, 2024

Commit

d072b7d

verified ·

1 Parent(s): c49f86d

Update voice_processing.py

Browse files

Files changed (1) hide show

voice_processing.py +3 -22

voice_processing.py CHANGED Viewed

@@ -118,14 +118,7 @@ def get_model_names():
     model_root = "weights"  # Assuming this is where your models are stored
     return [d for d in os.listdir(model_root) if os.path.isdir(f"{model_root}/{d}")]
-async def tts(
-    model_name,
-    tts_text,
-    tts_voice,
-    index_rate,
-    use_uploaded_voice,
-    uploaded_voice,
-):
     # Default values for parameters used in EdgeTTS
     speed = 0  # Default speech speed
     f0_up_key = 0  # Default pitch adjustment
@@ -138,7 +131,6 @@ async def tts(
     edge_output_filename = get_unique_filename("mp3")
     try:
         if use_uploaded_voice:
             if uploaded_voice is None:
@@ -149,7 +141,6 @@ async def tts(
                 tmp_file.write(uploaded_voice)
                 uploaded_file_path = tmp_file.name
-            #uploaded_file_path = uploaded_voice.name
             audio, sr = librosa.load(uploaded_file_path, sr=16000, mono=True)
         else:
             # EdgeTTS processing
@@ -163,9 +154,7 @@ async def tts(
             # Invoke Edge TTS
             t0 = time.time()
             speed_str = f"+{speed}%" if speed >= 0 else f"{speed}%"
-            await edge_tts.Communicate(
-                tts_text, tts_voice, rate=speed_str
-            ).save(edge_output_filename)
             t1 = time.time()
             edge_time = t1 - t0
@@ -224,9 +213,7 @@ async def tts(
         )
     except EOFError:
-        info = (
-            "output not valid. This may occur when input text and speaker do not match."
-        )
         print(info)
         return info, None, None
     except Exception as e:
@@ -234,19 +221,13 @@ async def tts(
         print(traceback_info)
         return str(e), None, None
 voice_mapping = {
     "Mongolian Male": "mn-MN-BataaNeural",
     "Mongolian Female": "mn-MN-YesuiNeural"
 }
 hubert_model = load_hubert()
 rmvpe_model = RMVPE("rmvpe.pt", config.is_half, config.device)

     model_root = "weights"  # Assuming this is where your models are stored
     return [d for d in os.listdir(model_root) if os.path.isdir(f"{model_root}/{d}")]
+def tts(model_name, tts_text, tts_voice, index_rate, use_uploaded_voice, uploaded_voice):
     # Default values for parameters used in EdgeTTS
     speed = 0  # Default speech speed
     f0_up_key = 0  # Default pitch adjustment
     edge_output_filename = get_unique_filename("mp3")
     try:
         if use_uploaded_voice:
             if uploaded_voice is None:
                 tmp_file.write(uploaded_voice)
                 uploaded_file_path = tmp_file.name
             audio, sr = librosa.load(uploaded_file_path, sr=16000, mono=True)
         else:
             # EdgeTTS processing
             # Invoke Edge TTS
             t0 = time.time()
             speed_str = f"+{speed}%" if speed >= 0 else f"{speed}%"
+            edge_tts.Communicate(tts_text, tts_voice, rate=speed_str).save(edge_output_filename)
             t1 = time.time()
             edge_time = t1 - t0
         )
     except EOFError:
+        info = "Output not valid. This may occur when input text and speaker do not match."
         print(info)
         return info, None, None
     except Exception as e:
         print(traceback_info)
         return str(e), None, None
 voice_mapping = {
     "Mongolian Male": "mn-MN-BataaNeural",
     "Mongolian Female": "mn-MN-YesuiNeural"
 }
 hubert_model = load_hubert()
 rmvpe_model = RMVPE("rmvpe.pt", config.is_half, config.device)