Spaces:

sagegu
/

gradio_space

Build error

App Files Files Community

freddyaboulton HF Staff commited on Aug 21, 2024

Commit

7ee8f06

1 Parent(s): 9666de8

Code

Browse files

Files changed (1) hide show

app.py +17 -11

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import io
-import math
 from threading import Thread
 import random
 import numpy as np
 import spaces
@@ -26,7 +26,7 @@ model = ParlerTTSForConditionalGeneration.from_pretrained(
     jenny_repo_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True
 ).to(device)
-client = InferenceClient()
 tokenizer = AutoTokenizer.from_pretrained(repo_id)
 feature_extractor = AutoFeatureExtractor.from_pretrained(repo_id)
@@ -63,10 +63,9 @@ def numpy_to_mp3(audio_array, sampling_rate):
 sampling_rate = model.audio_encoder.config.sampling_rate
 frame_rate = model.audio_encoder.config.frame_rate
-@spaces.GPU
-def generate_base(audio):
-    question = client.audtomatic_speech_recognition(audio)
     messages = [{"role": "sytem", "content": ("You are a magic 8 ball."
                                               "Someone will present to you a situation or question and your job "
@@ -74,9 +73,13 @@ def generate_base(audio):
                                               "'curiosity killed the cat' or 'The early bird gets the worm'.")},
                 {"role": "user", "content": f"Please tell me what to do about {question}"}]
-    response = client.chat_completion(messages, max_tokens=1024, seed=random.randint(1, 5000))
     response = response.choices[0].message.content
     play_steps_in_s = 1.0
     play_steps = int(frame_rate * play_steps_in_s)
@@ -85,7 +88,7 @@ def generate_base(audio):
     description_tokens = tokenizer(description, return_tensors="pt").to(device)
     streamer = ParlerTTSStreamer(model, device=device, play_steps=play_steps)
-    prompt = tokenizer(sentence, return_tensors="pt").to(device)
     generation_kwargs = dict(
         input_ids=description_tokens.input_ids,
@@ -102,11 +105,12 @@ def generate_base(audio):
     for new_audio in streamer:
         print(f"Sample of length: {round(new_audio.shape[0] / sampling_rate, 2)} seconds")
-        yield story, numpy_to_mp3(new_audio, sampling_rate=sampling_rate)
 css=""".my-group {max-width: 600px !important; max-height: 600 !important;}
                       .my-column {display: flex !important; justify-content: center !important; align-items: center !important};"""
 with gr.Blocks() as block:
     gr.HTML(
         f"""
@@ -117,10 +121,12 @@ with gr.Blocks() as block:
     with gr.Group():
         with gr.Row():
             audio_out = gr.Audio(visible=False, streaming=True)
-            answer = gr.Textbox(label="Answer")
         with gr.Row():
-            audio_in = gr.Audio(label="Speak you question", sources="microphone", format="filepath")
-    audio_in.stop_recording(fn=generate_base, inputs=audio_in, outputs=[answer, audio_out])
 block.launch()

 import io
 from threading import Thread
 import random
+import os
 import numpy as np
 import spaces
     jenny_repo_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True
 ).to(device)
+client = InferenceClient(token=os.getenv("HF_TOKEN"))
 tokenizer = AutoTokenizer.from_pretrained(repo_id)
 feature_extractor = AutoFeatureExtractor.from_pretrained(repo_id)
 sampling_rate = model.audio_encoder.config.sampling_rate
 frame_rate = model.audio_encoder.config.frame_rate
+def generate_response(audio):
+    question = client.automatic_speech_recognition(audio)
     messages = [{"role": "sytem", "content": ("You are a magic 8 ball."
                                               "Someone will present to you a situation or question and your job "
                                               "'curiosity killed the cat' or 'The early bird gets the worm'.")},
                 {"role": "user", "content": f"Please tell me what to do about {question}"}]
+    response = client.chat_completion(messages, max_tokens=128, seed=random.randint(1, 5000))
     response = response.choices[0].message.content
+    yield response, gr.Textbox(visible=True)
+@spaces.GPU
+def generate_base(answer):
     play_steps_in_s = 1.0
     play_steps = int(frame_rate * play_steps_in_s)
     description_tokens = tokenizer(description, return_tensors="pt").to(device)
     streamer = ParlerTTSStreamer(model, device=device, play_steps=play_steps)
+    prompt = tokenizer(answer, return_tensors="pt").to(device)
     generation_kwargs = dict(
         input_ids=description_tokens.input_ids,
     for new_audio in streamer:
         print(f"Sample of length: {round(new_audio.shape[0] / sampling_rate, 2)} seconds")
+        yield gr.Textbox(value=answer, visible=True), numpy_to_mp3(new_audio, sampling_rate=sampling_rate)
 css=""".my-group {max-width: 600px !important; max-height: 600 !important;}
                       .my-column {display: flex !important; justify-content: center !important; align-items: center !important};"""
 with gr.Blocks() as block:
     gr.HTML(
         f"""
     with gr.Group():
         with gr.Row():
             audio_out = gr.Audio(visible=False, streaming=True)
+            answer = gr.Textbox(visible=False, label="Answer")
+            state = gr.State()
         with gr.Row():
+            audio_in = gr.Audio(label="Speak you question", sources="microphone", type="filepath")
+    audio_in.stop_recording(generate_response, audio_in, [state, answer]).then(fn=generate_base, inputs=state, outputs=[answer, audio_out])
 block.launch()