Spaces:

Prasada
/

DDP

Runtime error

Prasada commited on Oct 11, 2023

Commit

450c254

•

1 Parent(s): 43c85f9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -33,8 +33,8 @@ def create_speaker_embedding(waveform):
  speaker_embeddings = speaker_embeddings.squeeze().cpu().numpy()
  return speaker_embeddings
-def prepare_data(temp_text, temp_audio):
- rate, audio_data = temp_audio
  # new_rate = 16000
  # number_of_samples = round(len(audio_data) * float(new_rate) / rate)
  # audio_data = sps.resample(audio_data, number_of_samples)
@@ -65,9 +65,13 @@ def generate_gpt4_response(user_text, print_output=False):
 def predict(temp_text, temp_audio, record_audio_prompt, prompt_text):
- audio_prompt = audio_prompt if temp_audio is not None else record_audio_prompt
  text = generate_gpt4_response(prompt_text)
- embeddings=prepare_data(temp_text, temp_audio)
  inputs = processor(text=text, return_tensors="pt")
  spectrogram = model.generate_speech(inputs["input_ids"], embeddings)
@@ -87,8 +91,8 @@ with app:
  temp_text=gr.Text(label="Template Text")
  temp_audio=gr.Audio(label="Template Speech", type="numpy")
  prompt_text=gr.Text(label="Input Text")
- record_audio_prompt = gr.Audio(label='recorded audio prompt', source='microphone', interactive=True)
  with gr.Column():
  text = gr.Textbox(label="Message")
  speech=gr.Audio(label="Generated Speech", type="numpy")

  speaker_embeddings = speaker_embeddings.squeeze().cpu().numpy()
  return speaker_embeddings
+def prepare_data(temp_text, audio_prompt):
+ rate, audio_data = audio_prompt
  # new_rate = 16000
  # number_of_samples = round(len(audio_data) * float(new_rate) / rate)
  # audio_data = sps.resample(audio_data, number_of_samples)
 def predict(temp_text, temp_audio, record_audio_prompt, prompt_text):
+ if temp_audio is not None :
+ audio_prompt = temp_audio
+ else:
+ audio_prompt = record_audio_prompt
  text = generate_gpt4_response(prompt_text)
+ embeddings=prepare_data(temp_text, audio_prompt)
  inputs = processor(text=text, return_tensors="pt")
  spectrogram = model.generate_speech(inputs["input_ids"], embeddings)
  temp_text=gr.Text(label="Template Text")
  temp_audio=gr.Audio(label="Template Speech", type="numpy")
+ record_audio_prompt = gr.Audio(label='recorded audio prompt', source='microphone', type="numpy")
  prompt_text=gr.Text(label="Input Text")
  with gr.Column():
  text = gr.Textbox(label="Message")
  speech=gr.Audio(label="Generated Speech", type="numpy")