Spaces:

mizoru
/

wav2tsv

Sleeping

App Files Files Community

mizoru commited on Apr 19, 2024

Commit

0412962

1 Parent(s): 0c8ffff

almost working

Browse files

Files changed (2) hide show

app.py +14 -13
vad_utils.py +15 -2

app.py CHANGED Viewed

@@ -1,18 +1,19 @@
 import gradio as gr
 import numpy as np
-from vad_utils import get_speech_probs, make_visualization, probs2speech_timestamps
-def process_audio(audio_input, model):
-    wav = np.array(audio_input)
-    probs = get_speech_probs(wav, model, sampling_rate=16_000)
     return make_visualization(probs, 512 / 16_000)
 def process_parameters(probs, threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms):
     return probs2speech_timestamps(probs, threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms)
-def main():
-    model = None #load_your_model()  # replace with your model loading code
     with gr.Blocks() as demo:
         with gr.Row():
@@ -20,15 +21,15 @@ def main():
             button1 = gr.Button("Process Audio")
             figure = gr.Image()
-        button1.click(process_audio, inputs=[audio_input, model], outputs=figure)
         with gr.Row():
             probs = gr.State(None)
-            threshold = gr.Number(label="Threshold", default=0.5, minimum=0.0, maximum=1.0)
-            min_speech_duration_ms = gr.Number(label="Min Speech Duration (ms)", default=250)
-            min_silence_duration_ms = gr.Number(label="Min Silence Duration (ms)", default=100)
-            window_size_samples = gr.Dropdown(label="Window Size Samples", choices=[512, 1024, 1536], default=1536)
-            speech_pad_ms = gr.Number(label="Speech Pad (ms)", default=30)
             button2 = gr.Button("Process Parameters")
             output_text = gr.Textbox()

 import gradio as gr
 import numpy as np
+from vad_utils import get_speech_probs, make_visualization, probs2speech_timestamps, read_audio
+import torch
+def process_audio(audio_input):
+    wav = read_audio(audio_input, sampling_rate=16_000)
+    probs = get_speech_probs(wav, sampling_rate=16_000)
     return make_visualization(probs, 512 / 16_000)
 def process_parameters(probs, threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms):
     return probs2speech_timestamps(probs, threshold, min_speech_duration_ms, min_silence_duration_ms, window_size_samples, speech_pad_ms)
+def main():
     with gr.Blocks() as demo:
         with gr.Row():
             button1 = gr.Button("Process Audio")
             figure = gr.Image()
+        button1.click(process_audio, inputs=[audio_input], outputs=figure)
         with gr.Row():
             probs = gr.State(None)
+            threshold = gr.Number(label="Threshold", value=0.5, minimum=0.0, maximum=1.0)
+            min_speech_duration_ms = gr.Number(label="Min Speech Duration (ms)", value=250)
+            min_silence_duration_ms = gr.Number(label="Min Silence Duration (ms)", value=100)
+            window_size_samples = gr.Dropdown(label="Window Size Samples", choices=[512, 1024, 1536], value=1536)
+            speech_pad_ms = gr.Number(label="Speech Pad (ms)", value=30)
             button2 = gr.Button("Process Parameters")
             output_text = gr.Textbox()

vad_utils.py CHANGED Viewed

@@ -6,7 +6,7 @@ import torch.nn.functional as F
 import warnings
 def get_speech_probs(audio: torch.Tensor,
-                          model,
                           threshold: float = 0.5,
                           sampling_rate: int = 16000,
                           window_size_samples: int = 512,
@@ -163,4 +163,17 @@ def make_visualization(probs, step):
                  xlabel='seconds',
                  ylabel='speech probability',
                  colormap='tab20')

 import warnings
 def get_speech_probs(audio: torch.Tensor,
+                        #   model,
                           threshold: float = 0.5,
                           sampling_rate: int = 16000,
                           window_size_samples: int = 512,
                  xlabel='seconds',
                  ylabel='speech probability',
                  colormap='tab20')
+torch.set_num_threads(1)
+USE_ONNX = True # change this to True if you want to test onnx model
+model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad',
+                            model='silero_vad',
+                            force_reload=True,
+                            onnx=USE_ONNX)
+(_,
+_, read_audio,
+*_) = utils