sts1

Paused

App Files Files Community

Afrinetwork7 commited on Aug 23

Commit

3cf82c2

•

1 Parent(s): 4d56027

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -8

app.py CHANGED Viewed

@@ -1,15 +1,20 @@
-from fastapi import FastAPI, Form, HTTPException
 from fastapi.responses import JSONResponse, FileResponse
-import uvicorn
 from pydantic import BaseModel
 import numpy as np
 import io
 import soundfile as sf
 import base64
 from asr import transcribe, ASR_LANGUAGES
 from tts import synthesize, TTS_LANGUAGES
 from lid import identify
-import logging
 # Configure logging
 logging.basicConfig(level=logging.INFO)
@@ -17,21 +22,26 @@ logger = logging.getLogger(__name__)
 app = FastAPI(title="MMS: Scaling Speech Technology to 1000+ languages")
 class TTSRequest(BaseModel):
     text: str
     language: str
     speed: float
-class AudioRequest(BaseModel):
-    audio: str  # Base64 encoded audio data
-    language: str
 @app.post("/transcribe")
 async def transcribe_audio(request: AudioRequest):
     try:
         audio_bytes = base64.b64decode(request.audio)
         audio_array, sample_rate = sf.read(io.BytesIO(audio_bytes))
         result = transcribe(audio_array, request.language)
         return JSONResponse(content={"transcription": result})
     except Exception as e:
@@ -83,4 +93,4 @@ async def get_tts_languages():
         return JSONResponse(content=TTS_LANGUAGES)
     except Exception as e:
         logger.error(f"Error in get_tts_languages: {str(e)}")
-        raise HTTPException(status_code=500, detail=f"An error occurred: {str(e)}")

+from fastapi import FastAPI, HTTPException
 from fastapi.responses import JSONResponse, FileResponse
 from pydantic import BaseModel
 import numpy as np
 import io
 import soundfile as sf
 import base64
+import logging
+import torch
+import librosa
+from transformers import Wav2Vec2ForCTC, AutoProcessor
+from pathlib import Path
+# Import functions from other modules
 from asr import transcribe, ASR_LANGUAGES
 from tts import synthesize, TTS_LANGUAGES
 from lid import identify
 # Configure logging
 logging.basicConfig(level=logging.INFO)
 app = FastAPI(title="MMS: Scaling Speech Technology to 1000+ languages")
+# Define request models
+class AudioRequest(BaseModel):
+    audio: str  # Base64 encoded audio data
+    language: str
 class TTSRequest(BaseModel):
     text: str
     language: str
     speed: float
 @app.post("/transcribe")
 async def transcribe_audio(request: AudioRequest):
     try:
         audio_bytes = base64.b64decode(request.audio)
         audio_array, sample_rate = sf.read(io.BytesIO(audio_bytes))
+        # Convert to mono if stereo
+        if len(audio_array.shape) > 1:
+            audio_array = audio_array.mean(axis=1)
         result = transcribe(audio_array, request.language)
         return JSONResponse(content={"transcription": result})
     except Exception as e:
         return JSONResponse(content=TTS_LANGUAGES)
     except Exception as e:
         logger.error(f"Error in get_tts_languages: {str(e)}")
+        raise HTTPException(status_code=500, detail=f"An error occurred: {str(e)}")