Spaces:

Steveeeeeeen
/

Zonos

Running on Zero

App Files Files Community

Steveeeeeeen HF staff commited on 13 days ago

Commit

22bde2c

verified ·

1 Parent(s): 1272193

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -12

app.py CHANGED Viewed

@@ -13,7 +13,6 @@ device = "cuda"
 banner_url = "https://huggingface.co/datasets/Steveeeeeeen/random_images/resolve/main/ZonosHeader.png"
 BANNER = f'<div style="display: flex; justify-content: space-around;"><img src="{banner_url}" alt="Banner" style="width: 40vw; min-width: 150px; max-width: 300px;"> </div>'
 def load_model(model_name: str):
     """
     Loads or retrieves a cached Zonos model, sets it to eval and bfloat16.
@@ -35,25 +34,31 @@ def tts(text, speaker_audio, selected_language, model_choice):
     speaker_audio: (sample_rate, numpy_array) from Gradio if type="numpy"
     selected_language: str (language code)
     model_choice: str (which Zonos model to use, e.g., "Zyphra/Zonos-v0.1-hybrid")
-    Returns (sample_rate, waveform) for Gradio audio output.
     """
-    # Load the selected model
     model = load_model(model_choice)
     if not text:
         return None
     if speaker_audio is None:
         return None
-    # Gradio gives audio in the format (sample_rate, numpy_array)
     sr, wav_np = speaker_audio
-    # Convert to Torch tensor: shape (1, num_samples)
-    wav_tensor = torch.from_numpy(wav_np).unsqueeze(0).float()
-    if wav_tensor.dim() == 2 and wav_tensor.shape[0] > wav_tensor.shape[1]:
-        # If shape is transposed, fix it
-        wav_tensor = wav_tensor.T
     # Get speaker embedding
     with torch.no_grad():
@@ -101,16 +106,16 @@ def build_demo():
             ref_audio_input = gr.Audio(
                 label="Reference Audio (Speaker Cloning)",
                 type="numpy"
             )
-        # Model dropdown
         model_dropdown = gr.Dropdown(
             label="Model Choice",
             choices=["Zyphra/Zonos-v0.1-transformer", "Zyphra/Zonos-v0.1-hybrid"],
             value="Zyphra/Zonos-v0.1-hybrid",
             interactive=True,
         )
-        # Language dropdown (you can filter or use all from supported_language_codes)
         language_dropdown = gr.Dropdown(
             label="Language Code",
             choices=supported_language_codes,

 banner_url = "https://huggingface.co/datasets/Steveeeeeeen/random_images/resolve/main/ZonosHeader.png"
 BANNER = f'<div style="display: flex; justify-content: space-around;"><img src="{banner_url}" alt="Banner" style="width: 40vw; min-width: 150px; max-width: 300px;"> </div>'
 def load_model(model_name: str):
     """
     Loads or retrieves a cached Zonos model, sets it to eval and bfloat16.
     speaker_audio: (sample_rate, numpy_array) from Gradio if type="numpy"
     selected_language: str (language code)
     model_choice: str (which Zonos model to use, e.g., "Zyphra/Zonos-v0.1-hybrid")
+    Returns (sr_out, wav_out_numpy).
     """
     model = load_model(model_choice)
     if not text:
         return None
+    # If the user did not provide a reference audio, skip
     if speaker_audio is None:
         return None
+    # Gradio gives audio in (sample_rate, numpy_array) format
     sr, wav_np = speaker_audio
+    # Convert to Torch tensor
+    wav_tensor = torch.from_numpy(wav_np).float()
+    # If stereo (shape [channels, samples]) or multi-channel, downmix to mono
+    # e.g. shape (2, samples) -> shape (samples,) by averaging
+    if wav_tensor.ndim == 2 and wav_tensor.shape[0] > 1:
+        wav_tensor = wav_tensor.mean(dim=0)  # shape => (samples,)
+    # Now add a batch dimension => shape (1, samples)
+    wav_tensor = wav_tensor.unsqueeze(0)
     # Get speaker embedding
     with torch.no_grad():
             ref_audio_input = gr.Audio(
                 label="Reference Audio (Speaker Cloning)",
                 type="numpy"
+                # Optionally add mono=True if you want Gradio to always downmix automatically:
+                # mono=True
             )
         model_dropdown = gr.Dropdown(
             label="Model Choice",
             choices=["Zyphra/Zonos-v0.1-transformer", "Zyphra/Zonos-v0.1-hybrid"],
             value="Zyphra/Zonos-v0.1-hybrid",
             interactive=True,
         )
         language_dropdown = gr.Dropdown(
             label="Language Code",
             choices=supported_language_codes,