Spaces:

alvarochamorro3
/

image-to-audio

Running

alvarochamorro3 commited on Nov 17, 2024

Commit

da9eae4

verified ·

1 Parent(s): 9b04ab5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,11 +1,30 @@
 import gradio as gr
-def greet(name):
-    return "Hello " + name + "!"
-demo = gr.Interface(fn=greet, inputs="textbox", outputs="textbox")
-if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
+from transformers import pipeline
+from datasets import load_dataset
+import soundfile as sf
+import torch
+import requests
+# Image-to-text model
+image_to_text_pipe = pipeline("image-to-text", model="Salesforce/blip-image-captioning-large")
+API_URL = "https://api-inference.huggingface.co/models/Salesforce/blip-image-captioning-large"
+headers = {} # Replace with your actual key
+def image_to_text(image_path):
+  with open(image_path, "rb") as f:
+    data = f.read()
+  response = requests.post(API_URL, headers=headers, data=data)
+  response_json = response.json()
+  generated_text = response_json[0]['generated_text']
+  return generated_text
+# Text-to-audio model
+text_to_audio_pipe = pipeline("text-to-speech", model="microsoft/speecht5_tts")
+embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+speaker_embedding = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
+def text_to_audio(text):
+  speech = text_to_audio_pipe(text, forward_params={"speaker_embeddings": speaker_embedding})
+  sf.write("speech.wav", speech["audio"], samplerate=speech["sampling_rate"])
+  return "speech.wav"