StableAudioOpenEndpoint2

Sleeping

App Files Files Community

stardate69 commited on Dec 19, 2024

Commit

f02052e

verified ·

1 Parent(s): 960e153

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -58

app.py CHANGED Viewed

@@ -1,75 +1,55 @@
-import os
 import torch
 import soundfile as sf
 from huggingface_hub import login
 from diffusers import StableAudioPipeline
-import gradio as gr
-import spaces
 # Load Hugging Face token securely
 HUGGINGFACE_TOKEN = os.getenv("HF_TOKEN")
 if HUGGINGFACE_TOKEN is None:
-    raise ValueError("Missing Hugging Face token. Please set it in Spaces Secrets.")
 login(HUGGINGFACE_TOKEN)
-# Set device for PyTorch (only CPU, if no GPU is available)
-device = "cpu"
-torch_dtype = torch.float32  # Use float32 for CPU by default
-# Check for GPU availability
-if torch.cuda.is_available():
-    device = "cuda"
-    torch_dtype = torch.float16  # Use float16 for GPU to optimize memory usage
-# Load the pipeline
-pipe = StableAudioPipeline.from_pretrained(
-    "stabilityai/stable-audio-open-1.0",
-    torch_dtype=torch_dtype
-)
 pipe = pipe.to(device)
-# Function to generate audio
 @spaces.GPU
-def generate_audio(prompt, negative_prompt, duration, diffusion_steps, seed):
-    generator = torch.Generator(device).manual_seed(seed)
-    audio_output = pipe(
-        prompt=prompt,
-        negative_prompt=negative_prompt,
-        num_inference_steps=int(diffusion_steps),  # Number of diffusion steps
-        audio_end_in_s=duration,
-        num_waveforms_per_prompt=1,
-        generator=generator
-    ).audios
     output_audio = audio_output[0].T.float().cpu().numpy()
-    output_file = "output.wav"
-    sf.write(output_file, output_audio, pipe.vae.sampling_rate)
-    return output_file
-# Gradio UI
-with gr.Blocks() as demo:
-    gr.Markdown("## 🎧 Stable Audio Open - Audio Generation 🎼")
-    gr.Markdown("### Adjust prompts, duration, and diffusion steps to control the generation!")
-    # Input Section
-    with gr.Row():
-        prompt_input = gr.Textbox(label="Prompt", value="The sound of a hammer hitting a wooden surface.")
-        negative_input = gr.Textbox(label="Negative Prompt", value="Low quality.")
-    with gr.Row():
-        duration_input = gr.Slider(minimum=1, maximum=10, step=0.5, value=1, label="Duration (seconds)")
-        diffusion_steps_input = gr.Slider(minimum=1, maximum=500, step=10, value=10, label="Diffusion Steps")
-    with gr.Row():
-        seed_input = gr.Number(label="Random Seed", value=42)
-    # Output Section
-    generate_button = gr.Button("Generate Audio")
-    output_audio = gr.Audio(label="Generated Audio", type="filepath")
-    # Connect the function to the button click
-    generate_button.click(
-        generate_audio,
-        inputs=[prompt_input, negative_input, duration_input, diffusion_steps_input, seed_input],
-        outputs=output_audio
-    )
-# Launch the app
-demo.launch()

+import gradio as gr
+import spaces
 import torch
 import soundfile as sf
 from huggingface_hub import login
 from diffusers import StableAudioPipeline
+import os
 # Load Hugging Face token securely
 HUGGINGFACE_TOKEN = os.getenv("HF_TOKEN")
 if HUGGINGFACE_TOKEN is None:
+    raise ValueError("Missing Hugging Face token. Please set it in Hugging Face Secrets.")
 login(HUGGINGFACE_TOKEN)
+# Set device for PyTorch (GPU or CPU)
+device = "cuda" if torch.cuda.is_available() else "cpu"
+torch_dtype = torch.float16 if device == "cuda" else torch.float32
+# Load the StableAudio model from Hugging Face Hub
+pipe = StableAudioPipeline.from_pretrained("stabilityai/stable-audio-open-1.0", torch_dtype=torch_dtype)
 pipe = pipe.to(device)
+# Path to store generated audio files (ensure this folder is accessible and writable)
+OUTPUT_PATH = "./generated_audio"
+os.makedirs(OUTPUT_PATH, exist_ok=True)
+# Function to generate audio from prompt
 @spaces.GPU
+def generate_audio(prompt: str):
+    # Generate the audio using StableAudioPipeline
+    generator = torch.Generator(device).manual_seed(42)
+    audio_output = pipe(prompt=prompt, negative_prompt="Low Quality", num_inference_steps=10).audios
+    # Convert to numpy and save to a WAV file
     output_audio = audio_output[0].T.float().cpu().numpy()
+    output_filename = "output.wav"
+    output_path = os.path.join(OUTPUT_PATH, output_filename)
+    sf.write(output_path, output_audio, pipe.vae.sampling_rate)
+    # Construct full URL to access the generated file
+    audio_url = f"https://<your-hf-space-name>.hf.space/audio/{output_filename}"
+    return audio_url
+# Gradio Interface setup
+interface = gr.Interface(
+    fn=generate_audio,
+    inputs=gr.Textbox(label="Enter a text prompt to generate audio"),
+    outputs=gr.Textbox(label="Generated Audio URL"),
+    title="StableAudioText2Speech",
+    description="Generate audio from a text prompt using Hugging Face StableAudio Pipeline."
+)
+# Launch the Gradio interface as an HTTP endpoint
+interface.launch(share=True)