Spaces:

PuristanLabs1
/

Indic_ParlerTTS_Urdu

Running on Zero

PuristanLabs1 commited on Dec 5, 2024

Commit

69d2a81

verified ·

1 Parent(s): c611518

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,10 +4,11 @@ from parler_tts import ParlerTTSForConditionalGeneration
 from transformers import AutoTokenizer
 import soundfile as sf
 import tempfile
 # Load the model and tokenizers
-device = "cuda:0" if torch.cuda.is_available() else "cpu"
-model = ParlerTTSForConditionalGeneration.from_pretrained("ai4bharat/indic-parler-tts").to(device)
 tokenizer = AutoTokenizer.from_pretrained("ai4bharat/indic-parler-tts")
 description_tokenizer = AutoTokenizer.from_pretrained(model.config.text_encoder._name_or_path)
@@ -35,11 +36,15 @@ def generate_description(language, gender, emotion, noise, reverb, expressivity,
     )
     return description
-# Generate audio function
 def generate_audio(text, description):
     # Prepare model inputs
-    input_ids = description_tokenizer(description, return_tensors="pt").input_ids.to(device)
-    prompt_input_ids = tokenizer(text, return_tensors="pt").input_ids.to(device)
     # Generate audio
     generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
@@ -50,6 +55,9 @@ def generate_audio(text, description):
         sf.write(f.name, audio_arr, model.config.sampling_rate)
         audio_path = f.name
     return audio_path
 # Gradio Interface
@@ -146,4 +154,4 @@ def app():
     return demo
 # Run the app
-app().launch()

 from transformers import AutoTokenizer
 import soundfile as sf
 import tempfile
+import spaces  # Import the spaces module for ZeroGPU compatibility
 # Load the model and tokenizers
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model = ParlerTTSForConditionalGeneration.from_pretrained("ai4bharat/indic-parler-tts")
 tokenizer = AutoTokenizer.from_pretrained("ai4bharat/indic-parler-tts")
 description_tokenizer = AutoTokenizer.from_pretrained(model.config.text_encoder._name_or_path)
     )
     return description
+# Generate audio function with GPU allocation
+@spaces.GPU  # Allocate GPU for the duration of this function
 def generate_audio(text, description):
+    # Move model to GPU
+    model.to("cuda")
     # Prepare model inputs
+    input_ids = description_tokenizer(description, return_tensors="pt").input_ids.to("cuda")
+    prompt_input_ids = tokenizer(text, return_tensors="pt").input_ids.to("cuda")
     # Generate audio
     generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
         sf.write(f.name, audio_arr, model.config.sampling_rate)
         audio_path = f.name
+    # Move model back to CPU
+    model.to("cpu")
     return audio_path
 # Gradio Interface
     return demo
 # Run the app
+app().launch()