Spaces:

mohammedriza-rahman
/

audio_recorder

Sleeping

App Files Files Community

mohammedriza-rahman commited on Jan 2

Commit

0848b21

verified ·

1 Parent(s): b0f03b3

Create app.py

Browse files

Files changed (1) hide show

app.py +54 -0

app.py ADDED Viewed

	@@ -0,0 +1,54 @@

+import streamlit as st
+from streamlit_webrtc import webrtc_streamer
+from transformers import Wav2Vec2Processor, Wav2Vec2Model
+import torch
+import numpy as np
+import wave
+import io
+# Load Wav2Vec 2.0 model and processor
+processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
+model = Wav2Vec2Model.from_pretrained("facebook/wav2vec2-base-960h")
+# Function to generate embeddings
+def generate_embedding(audio, samplerate):
+    input_values = processor(audio, sampling_rate=samplerate, return_tensors="pt", padding=True).input_values
+    with torch.no_grad():
+        embeddings = model(input_values).last_hidden_state
+    return embeddings.mean(dim=1)  # Mean across time
+# Streamlit Interface
+st.title("Live Audio Recording and Embedding with Wav2Vec 2.0")
+st.write("Record your audio using the browser and generate embeddings.")
+# WebRTC audio recording
+webrtc_ctx = webrtc_streamer(
+    key="audio",
+    mode="SENDONLY",
+    media_stream_constraints={"audio": True, "video": False},
+    async_processing=False,
+)
+if webrtc_ctx.audio_receiver:
+    audio_frames = webrtc_ctx.audio_receiver.get_frames()
+    audio_data = b"".join([frame.to_ndarray().tobytes() for frame in audio_frames])
+    # Convert raw audio bytes to a NumPy array
+    audio_array = np.frombuffer(audio_data, dtype=np.float32)
+    # Process and save the audio
+    samplerate = 16000  # Default sample rate for Wav2Vec2
+    file_name = "recorded_audio.wav"
+    with wave.open(file_name, "wb") as wf:
+        wf.setnchannels(1)
+        wf.setsampwidth(2)
+        wf.setframerate(samplerate)
+        wf.writeframes(audio_array.tobytes())
+    st.audio(file_name, format="audio/wav")
+    # Generate embedding
+    embedding = generate_embedding(audio_array, samplerate)
+    st.success("Audio embedding generated!")
+    st.write("Embedding Shape:", embedding.shape)
+    st.write("Embedding Values:", embedding.numpy())