Spaces:

zahoor54321
/

FYP

Runtime error

zahoor54321 commited on Jun 19, 2023

Commit

5f3703f

1 Parent(s): b1892c7

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,29 +1,25 @@
-import gradio as gr
 import torch
-import soundfile as sf
-from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer
-model_path = "https://drive.google.com/drive/folders/1-CcW6f_wNoECTPIu92bnHBsJQgbdUih5?usp=sharing"  # Update with your model's public link
-model = Wav2Vec2ForCTC.from_pretrained(model_path)
-tokenizer = Wav2Vec2Tokenizer.from_pretrained(model_path)
-device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-model.to(device)
-def transcribe_audio(audio):
-    audio_data, _ = sf.read(audio.name)
-    inputs = tokenizer(audio_data, return_tensors="pt", padding=True, truncation=True)
-    inputs = inputs.to(device)
-    with torch.no_grad():
-        logits = model(inputs.input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1).squeeze()
-    transcription = tokenizer.decode(predicted_ids)
     return transcription
-audio_input = gr.inputs.Audio(source="file", type="file", label="Upload audio file")
 text_output = gr.outputs.Textbox(label="Transcription")
-interface = gr.Interface(fn=transcribe_audio, inputs=audio_input, outputs=text_output, title="Speech Recognition", description="Convert speech to text using your model")
-interface.launch()

 import torch
+import torchaudio
+import gradio as gr
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+# Load the model and processor
+model_name = "kingabzpro/wav2vec2-large-xlsr-300m-urdu"
+model = Wav2Vec2ForCTC.from_pretrained(model_name)
+processor = Wav2Vec2Processor.from_pretrained(model_name)
+# Define the transcribe function
+def transcribe(audio):
+    waveform, sample_rate = torchaudio.load(audio.name)
+    input_dict = processor(waveform, return_tensors="pt", padding=True)
+    logits = model(input_dict.input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1).squeeze()
+    transcription = processor.decode(predicted_ids)
     return transcription
+# Define the interface
+audio_input = gr.inputs.Audio(source="upload", type="file", label="Upload audio file")
 text_output = gr.outputs.Textbox(label="Transcription")
+interface = gr.Interface(fn=transcribe, inputs=audio_input, outputs=text_output, title="Urdu Speech Recognition")
+interface.launch(share=True)