import speech_recognition as sr
import gradio as gr
import numpy as np


def recognize_speech(audio_data):
    # nontype to numpy array
    audio_data = np.frombuffer(audio_data, dtype=np.int16)
    audio_data = sr.AudioData(audio_data, sample_rate=16000,sample_width=2).get_wav_data(convert_rate=16000, convert_width=2)
    recognizer = sr.Recognizer()
    try:
        text = recognizer.recognize_google(audio_data)
        return f"Recognized Speech: {text}"
    except sr.UnknownValueError:
        return "Speech Recognition could not understand audio."
    except sr.RequestError as e:
        return f"Could not request results from Google Speech Recognition service; {e}"


iface = gr.Interface(fn=recognize_speech, inputs="microphone", outputs="text")
iface.launch()