sts1

Paused

App Files Files Community

Afrinetwork7 commited on Aug 25

Commit

0eaed7a

•

1 Parent(s): 1388ad6

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -5

app.py CHANGED Viewed

@@ -8,7 +8,6 @@ import base64
 import logging
 import torch
 import librosa
-from transformers import Wav2Vec2ForCTC, AutoProcessor
 from pathlib import Path
 import magic  # For MIME type detection
 from pydub import AudioSegment
@@ -17,7 +16,7 @@ from pydub import AudioSegment
 from asr import transcribe, ASR_LANGUAGES
 from tts import synthesize, TTS_LANGUAGES
 from lid import identify
-from asr import ASR_SAMPLING_RATE, transcribe
 # Configure logging
 logging.basicConfig(level=logging.INFO)
@@ -78,11 +77,27 @@ async def transcribe_audio(request: AudioRequest):
 @app.post("/synthesize")
 async def synthesize_speech(request: TTSRequest):
     try:
-        audio, filtered_text = synthesize(request.text, request.language, request.speed)
         # Convert numpy array to bytes
         buffer = io.BytesIO()
-        sf.write(buffer, audio, 22050, format='wav')
         buffer.seek(0)
         return FileResponse(
             buffer,
             media_type="audio/wav",
@@ -117,4 +132,4 @@ async def get_tts_languages():
         return JSONResponse(content=TTS_LANGUAGES)
     except Exception as e:
         logger.error(f"Error in get_tts_languages: {str(e)}")
-        raise HTTPException(status_code=500, detail=f"An error occurred: {str(e)}")

 import logging
 import torch
 import librosa
 from pathlib import Path
 import magic  # For MIME type detection
 from pydub import AudioSegment
 from asr import transcribe, ASR_LANGUAGES
 from tts import synthesize, TTS_LANGUAGES
 from lid import identify
+from asr import ASR_SAMPLING_RATE
 # Configure logging
 logging.basicConfig(level=logging.INFO)
 @app.post("/synthesize")
 async def synthesize_speech(request: TTSRequest):
     try:
+        logger.info(f"Synthesizing speech for text: {request.text}, language: {request.language}, speed: {request.speed}")
+        result, filtered_text = synthesize(request.text, request.language, request.speed)
+        logger.info(f"Synthesis complete. Filtered text: {filtered_text}")
+        sample_rate, audio = result
+        logger.info(f"Sample rate: {sample_rate}, Audio shape: {audio.shape}, Audio dtype: {audio.dtype}")
+        # Ensure audio is a numpy array with the correct dtype
+        audio = np.array(audio, dtype=np.float32)
+        # Normalize audio to [-1, 1] range
+        audio = audio / np.max(np.abs(audio))
+        # Convert to int16 for WAV file
+        audio = (audio * 32767).astype(np.int16)
         # Convert numpy array to bytes
         buffer = io.BytesIO()
+        sf.write(buffer, audio, sample_rate, format='wav')
         buffer.seek(0)
         return FileResponse(
             buffer,
             media_type="audio/wav",
         return JSONResponse(content=TTS_LANGUAGES)
     except Exception as e:
         logger.error(f"Error in get_tts_languages: {str(e)}")
+        raise HTTPException(status_code=500, detail=f"An error occurred: {str(e)}")