Spaces:

salomonsky
/

xaman

Sleeping

App Files Files Community

salomonsky commited on Jan 16, 2024

Commit

da45dce

verified ·

1 Parent(s): 6c093ae

Update app.py

Browse files

Files changed (1) hide show

app.py +67 -28

app.py CHANGED Viewed

@@ -1,40 +1,79 @@
 import streamlit as st
-import audioio
-import speech_recognition as sr
-def record_audio(duration=5):
-    st.info("Grabando audio...")
-    audio_data = audioio.record(duration=duration)
-    st.audio(audio_data, format="audio/wav")
-    st.success("Grabación completada.")
-    return audio_data
-def transcribe_audio(audio_data):
-    st.info("Transcribiendo audio...")
-    recognizer = sr.Recognizer()
-    try:
-        audio_text = recognizer.recognize_sphinx(audio_data)
-    except sr.UnknownValueError:
-        st.warning("No se pudo reconocer el audio. ¿Intentaste grabar algo?")
-    except sr.RequestError as e:
-        st.error(f"Error en el reconocimiento de voz: {e}")
-    st.success("Transcripción completada.")
-    return audio_text
-def main():
-    st.title("Audio to Text Transcription")
-    audio_data = record_audio()
-    if st.button("Transcribir Audio"):
-        transcribed_text = transcribe_audio(audio_data)
-        st.subheader("Texto Transcrito:")
-        st.write(transcribed_text)
-if __name__ == "__main__":
-    main()

 import streamlit as st
+import base64
+import io
+from huggingface_hub import InferenceClient
+from gtts import gTTS
+client = InferenceClient("mistralai/Mixtral-8x7B-Instruct-v0.1")
+pre_prompt = "Hola, te llamarás Chaman 3.0, una IA conductual. Tus principios son el transhumanismo ecológico."
+pre_prompt_sent = False
+def format_prompt(message, history):
+    global pre_prompt_sent
+    prompt = "<s>"
+    if not pre_prompt_sent and all(f"[INST] {pre_prompt} [/INST]" not in user_prompt for user_prompt, _ in history):
+        prompt += f"[INST] {pre_prompt} [/INST]"
+        pre_prompt_sent = True
+    for user_prompt, bot_response in history:
+        prompt += f"[INST] {user_prompt} [/INST]"
+        prompt += f" {bot_response}</s> "
+    prompt += f"[INST] {message} [/INST]"
+    return prompt
+def text_to_speech(text, speed=1.3):
+    tts = gTTS(text=text, lang='es')
+    audio_fp = io.BytesIO()
+    tts.write_to_fp(audio_fp)
+    audio_fp.seek(0)
+    return audio_fp
+def generate(user_input, history, temperature=None, max_new_tokens=512, top_p=0.95, repetition_penalty=1.0):
+    global pre_prompt_sent
+    temperature = float(temperature) if temperature is not None else 0.9
+    if temperature < 1e-2:
+        temperature = 1e-2
+    top_p = float(top_p)
+    generate_kwargs = dict(
+        temperature=temperature,
+        max_new_tokens=max_new_tokens,
+        top_p=top_p,
+        repetition_penalty=repetition_penalty,
+        do_sample=True,
+        seed=42,
+    )
+    formatted_prompt = format_prompt(user_input, history)
+    stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=True)
+    response = ""
+    for response_token in stream:
+        response += response_token.token.text
+    response = ' '.join(response.split()).replace('</s>', '')
+    audio_file = text_to_speech(response, speed=1.3)
+    return response, audio_file
+if "history" not in st.session_state:
+    st.session_state.history = []
+with st.container():
+    user_input = st.text_input(label="Usuario", value="Saludos")
+    output, audio_file = generate(user_input, history=st.session_state.history)
+    st.text_area("Respuesta", height=400, value=output, key="output_text", disabled=True)
+    if user_input:
+        st.session_state.history.append((user_input, output))
+    st.write("Presiona el botón y comienza a hablar...")
+if audio_file is not None:
+    st.markdown(
+        f"""
+        <audio autoplay="autoplay" controls="controls" src="data:audio/mp3;base64,{base64.b64encode(audio_file.read()).decode()}" type="audio/mp3" id="audio_player"></audio>
+        """,
+        unsafe_allow_html=True
+    )