Spaces:

geethareddy
/

boltvoice

Runtime error

geethareddy commited on Feb 1

Commit

56becc0

verified ·

1 Parent(s): 679d24a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,18 +3,17 @@ from flask import Flask, render_template, request, jsonify
 import os
 import re
 import ffmpeg
-from transformers import pipeline
 from gtts import gTTS
 from pydub import AudioSegment
 from pydub.silence import detect_nonsilent
 from waitress import serve
-import whisper  # Corrected whisper import
 app = Flask(__name__)
-# Load Whisper Model for Highly Accurate Speech-to-Text
 device = "cuda" if torch.cuda.is_available() else "cpu"
-asr_model = whisper.load_model("large-v3")
 # Function to generate audio prompts
 def generate_audio_prompt(text, filename):
@@ -32,7 +31,7 @@ prompts = {
 for key, text in prompts.items():
     generate_audio_prompt(text, f"{key}.mp3")
-# Symbol mapping for better recognition
 SYMBOL_MAPPING = {
     "at the rate": "@",
     "at": "@",
@@ -69,7 +68,7 @@ def clean_transcription(text):
 def is_silent_audio(audio_path):
     audio = AudioSegment.from_wav(audio_path)
     nonsilent_parts = detect_nonsilent(audio, min_silence_len=500, silence_thresh=audio.dBFS-16)
-    return len(nonsilent_parts) == 0
 @app.route("/")
 def index():
@@ -93,8 +92,8 @@ def transcribe():
         if is_silent_audio(output_audio_path):
             return jsonify({"error": "No speech detected. Please try again."}), 400
-        # Transcribe using Whisper
-        result = asr_model.transcribe(output_audio_path)
         transcribed_text = clean_transcription(result["text"])
         return jsonify({"text": transcribed_text})

 import os
 import re
 import ffmpeg
+from transformers import pipeline  # ✅ Using correct Whisper ASR pipeline
 from gtts import gTTS
 from pydub import AudioSegment
 from pydub.silence import detect_nonsilent
 from waitress import serve
 app = Flask(__name__)
+# ✅ Load Whisper ASR Model correctly
 device = "cuda" if torch.cuda.is_available() else "cpu"
+asr_model = pipeline("automatic-speech-recognition", model="openai/whisper-large-v3", device=0 if device == "cuda" else -1)
 # Function to generate audio prompts
 def generate_audio_prompt(text, filename):
 for key, text in prompts.items():
     generate_audio_prompt(text, f"{key}.mp3")
+# Symbol mapping for proper recognition
 SYMBOL_MAPPING = {
     "at the rate": "@",
     "at": "@",
 def is_silent_audio(audio_path):
     audio = AudioSegment.from_wav(audio_path)
     nonsilent_parts = detect_nonsilent(audio, min_silence_len=500, silence_thresh=audio.dBFS-16)
+    return len(nonsilent_parts) == 0  # Returns True if silence detected
 @app.route("/")
 def index():
         if is_silent_audio(output_audio_path):
             return jsonify({"error": "No speech detected. Please try again."}), 400
+        # ✅ Use Whisper ASR model for transcription
+        result = asr_model(output_audio_path, generate_kwargs={"language": "en"})
         transcribed_text = clean_transcription(result["text"])
         return jsonify({"text": transcribed_text})