Spaces:

LuisG07
/

ASR-Spanish

Sleeping

App Files Files Community

LuisG07 commited on May 8, 2022

Commit

7f2a1b8

•

1 Parent(s): 941714c

added torch no grad

Browse files

Files changed (1) hide show

app.py +6 -4

app.py CHANGED Viewed

@@ -32,7 +32,8 @@ def predict_and_ctc_lm_decode(input_file, model_name):
   speech = load_and_fix_data(input_file)
   input_values = processor(speech, return_tensors="pt", sampling_rate=16000).input_values
-  logits = model(input_values).logits.cpu().detach().numpy()[0]
   pred = processor.decode(logits).text
@@ -45,7 +46,8 @@ def predict_and_greedy_decode(input_file, model_name):
   speech = load_and_fix_data(input_file)
   input_values = processor(speech, return_tensors="pt", sampling_rate=16000).input_values
-  logits = model(input_values).logits
   predicted_ids = torch.argmax(logits, dim=-1)
   pred = processor.batch_decode(predicted_ids)
@@ -59,11 +61,11 @@ def return_all_predictions(input_file, model_name):
 gr.Interface(return_all_predictions,
-             inputs = [gr.inputs.Audio(source="microphone", type="filepath", label="Record/ Drop audio"), gr.inputs.Dropdown(["jonatasgrosman/wav2vec2-large-xlsr-53-spanish", "jonatasgrosman/wav2vec2-xls-r-1b-spanish"], label="Model Name")],
              outputs = [gr.outputs.Textbox(label="Beam CTC decoding w/ LM"), gr.outputs.Textbox(label="Greedy decoding")],
              title="ASR using Wav2Vec2 & pyctcdecode in spanish",
              description = "Comparing greedy decoder with beam search CTC decoder, record/ drop your audio!",
              layout = "horizontal",
-             examples = [["test1.wav", "jonatasgrosman/wav2vec2-large-xlsr-53-spanish"], ["test2.wav", "jonatasgrosman/wav2vec2-xls-r-1b-spanish"]],
              theme="huggingface",
              enable_queue=True).launch()

   speech = load_and_fix_data(input_file)
   input_values = processor(speech, return_tensors="pt", sampling_rate=16000).input_values
+  with torch.no_grad():
+    logits = model(input_values).logits.cpu().detach().numpy()[0]
   pred = processor.decode(logits).text
   speech = load_and_fix_data(input_file)
   input_values = processor(speech, return_tensors="pt", sampling_rate=16000).input_values
+  with torch.no_grad():
+    logits = model(input_values).logits
   predicted_ids = torch.argmax(logits, dim=-1)
   pred = processor.batch_decode(predicted_ids)
 gr.Interface(return_all_predictions,
+             inputs = [gr.inputs.Audio(source="microphone", type="filepath", label="Record/ Drop audio"), gr.inputs.Dropdown(["LuisG07/wav2vec2-large-xlsr-53-spanish", "jonatasgrosman/wav2vec2-xls-r-1b-spanish"], label="Model Name")],
              outputs = [gr.outputs.Textbox(label="Beam CTC decoding w/ LM"), gr.outputs.Textbox(label="Greedy decoding")],
              title="ASR using Wav2Vec2 & pyctcdecode in spanish",
              description = "Comparing greedy decoder with beam search CTC decoder, record/ drop your audio!",
              layout = "horizontal",
+             examples = [["test1.wav", "LuisG07/wav2vec2-large-xlsr-53-spanish"], ["test2.wav", "jonatasgrosman/wav2vec2-xls-r-1b-spanish"]],
              theme="huggingface",
              enable_queue=True).launch()