asr-inference

Running

acumplid commited on 3 days ago

Commit

4bd685e

1 Parent(s): 40501c8

add integration and comment import space module

Files changed (1) hide show

whisper.py CHANGED Viewed

@@ -6,7 +6,7 @@ import torchaudio
 import torch
 import re
 from transformers import pipeline
-import spaces
 device = 0 if torch.cuda.is_available() else "cpu"
@@ -204,8 +204,8 @@ def processing_vad_threshold(audio, output_vad, threshold, max_duration, concate
 def format_audio(audio_path):
     input_audio, sample_rate = torchaudio.load(audio_path)
-    #if input_audio.shape[0] == 2:  #stereo2mono
-    #    input_audio = torch.mean(input_audio, dim=0, keepdim=True)
     resampler = torchaudio.transforms.Resample(sample_rate, 16000)
     input_audio = resampler(input_audio)
@@ -220,12 +220,12 @@ def transcribe_pipeline(audio, task):
 def generate(audio_path, use_v5):
     audio = AudioSegment.from_wav(audio_path)
-    #temp_mono_path = None
-    #if audio.channels != 1: #stereo2mono
-    #    audio = audio.set_channels(1)
-    #    temp_mono_path = "temp_mono.wav"
-    #    audio.export(temp_mono_path, format="wav")
-    #    audio_path = temp_mono_path
     output_vad = pipeline_vad(audio_path)
     concatenated_segment = AudioSegment.empty()
@@ -239,7 +239,7 @@ def generate(audio_path, use_v5):
     clean_output = post_process_transcription(output)
-    #if temp_mono_path and os.path.exists(temp_mono_path):
-    #    os.remove(temp_mono_path)
     return clean_output

 import torch
 import re
 from transformers import pipeline
+# import spaces
 device = 0 if torch.cuda.is_available() else "cpu"
 def format_audio(audio_path):
     input_audio, sample_rate = torchaudio.load(audio_path)
+    if input_audio.shape[0] == 2:  #stereo2mono
+        input_audio = torch.mean(input_audio, dim=0, keepdim=True)
     resampler = torchaudio.transforms.Resample(sample_rate, 16000)
     input_audio = resampler(input_audio)
 def generate(audio_path, use_v5):
     audio = AudioSegment.from_wav(audio_path)
+    temp_mono_path = None
+    if audio.channels != 1: #stereo2mono
+       audio = audio.set_channels(1)
+       temp_mono_path = "temp_mono.wav"
+       audio.export(temp_mono_path, format="wav")
+       audio_path = temp_mono_path
     output_vad = pipeline_vad(audio_path)
     concatenated_segment = AudioSegment.empty()
     clean_output = post_process_transcription(output)
+    if temp_mono_path and os.path.exists(temp_mono_path):
+       os.remove(temp_mono_path)
     return clean_output