Spaces:

patriotyk
/

pflowtts_ukr_demo

App Files Files Community

Serhiy Stetskovych commited on May 11

Commit

37f9a5d

•

1 Parent(s): 39cc8c4

App with new vocoder

Browse files

Files changed (3) hide show

app.py +33 -28
prompt.wav +0 -0
prompt22050.wav +0 -0

app.py CHANGED Viewed

@@ -28,15 +28,17 @@ from vocos import Vocos
 PFLOW_MODEL_PATH = 'checkpoints/checkpoint_epoch=649.ckpt'
 #PFLOW_MODEL_PATH = 'checkpoint_m_epoch=054.ckpt'
-VOCODER_MODEL_PATH = 'checkpoints/pytorch_model.bin'
 HIFIGAN_MODEL_PATH = 'checkpoints/g_00120000'
 transform = torchaudio.transforms.Vol(gain=-32, gain_type="db")
-wav, sr = torchaudio.load('prompt.wav')
 prompt = mel_spectrogram(
-            wav,
             1024,
             80,
             22050,
@@ -85,7 +87,7 @@ def load_vocos(checkpoint_path, config_path, device):
 def to_waveform(mel, vocoder, denoiser=None):
-    return  vocoder.decode(mel).cpu().squeeze()
     # audio = vocoder(mel).clamp(-1, 1)
     # if denoiser is not None:
@@ -113,9 +115,10 @@ model = pflowTTS.load_from_checkpoint(PFLOW_MODEL_PATH, map_location=device)
 _ = model.eval()
-#hifigan = load_hifigan(HIFIGAN_MODEL_PATH, device)
-vocos = load_vocos(VOCODER_MODEL_PATH, 'config.yaml', device)
-#vocos_44100 = load_vocos('checkpoints/vocos_checkpoint_epoch=4_step=93440_val_loss=5.2596_44100_10.ckpt', 'vocos.yaml', device)
 denoiser = None#Denoiser(vocoder, mode="zeros")
@@ -134,23 +137,25 @@ def synthesise(text, speed):
         length_scale=1/speed,
         prompt=normalize(prompt, model.mel_mean, model.mel_std).to(device),
-        guidance_scale=1.5
     )
-    waveform_vocos = vocos.decode(output["mel"]).cpu().squeeze()
-    #waveform_vocos_44100 = vocos_44100.decode(output["mel"]).cpu().squeeze()
-    #waveform_hifigan = hifigan(output["mel"]).clamp(-1, 1).cpu().squeeze()
-    #transform = torchaudio.transforms.Vol(gain=-18, gain_type="db")
-    return text_processed['x_phones'][1::2], (22050, waveform_vocos.numpy())
 description = f'''
 # Експериментальна апка для генерації аудіо з тексту.
     pflow checkpoint {PFLOW_MODEL_PATH}
-    vocoder: Vocos - {VOCODER_MODEL_PATH}
 '''
@@ -164,28 +169,28 @@ if __name__ == "__main__":
         ],
         outputs=[
             gr.Text(label='Фонемізований текст:', lines=5),
-            # gr.Audio(
-            #             label="Vocos 44100 аудіо:",
-            #             autoplay=False,
-            #             streaming=False,
-            #             type="numpy",
-            #         ),
             gr.Audio(
-                        label="Vocos аудіо:",
                         autoplay=False,
                         streaming=False,
                         type="numpy",
                     ),
-            # gr.Audio(
-            #             label="HIFIGAN аудіо:",
-            #             autoplay=False,
-            #             streaming=False,
-            #             type="numpy",
-            #         )
         ],
         allow_flagging ='manual',
-        flagging_options=[("Якщо дуже погоне аудіо, тисни цю кнопку.", "negative")],
         cache_examples=True,
         title='',
         # description=description,

 PFLOW_MODEL_PATH = 'checkpoints/checkpoint_epoch=649.ckpt'
 #PFLOW_MODEL_PATH = 'checkpoint_m_epoch=054.ckpt'
+VOCODER22_MODEL_PATH = 'BSC-LT/vocos-mel-22khz'
+VOCODER44_MODEL_PATH = 'patriotyk/vocos-mel-hifigan-compat-44100khz'
 HIFIGAN_MODEL_PATH = 'checkpoints/g_00120000'
 transform = torchaudio.transforms.Vol(gain=-32, gain_type="db")
+wav, sr = torchaudio.load('prompt22050.wav')
 prompt = mel_spectrogram(
+            transform(wav),
             1024,
             80,
             22050,
 def to_waveform(mel, vocoder, denoiser=None):
+    return  vocoder.decode(mel).clamp(-1, 1).cpu().squeeze()
     # audio = vocoder(mel).clamp(-1, 1)
     # if denoiser is not None:
 _ = model.eval()
+hifigan = load_hifigan(HIFIGAN_MODEL_PATH, device)
+vocos_22050 = Vocos.from_pretrained(VOCODER22_MODEL_PATH)
+#vocos_44100 = load_vocos('checkpoints/vocos_checkpoint_epoch=209_step=3924480_val_loss=3.7036_44100_11.ckpt', 'vocos.yaml', device)
+vocos_44100 = Vocos.from_pretrained(VOCODER44_MODEL_PATH)
 denoiser = None#Denoiser(vocoder, mode="zeros")
         length_scale=1/speed,
         prompt=normalize(prompt, model.mel_mean, model.mel_std).to(device),
+        guidance_scale=2.0
     )
+    waveform_vocos = vocos_22050.decode(output["mel"]).cpu().squeeze()
+    waveform_vocos_44100 = vocos_44100.decode(output["mel"]).cpu().squeeze()
+    waveform_hifigan = hifigan(output["mel"]).clamp(-1, 1).cpu().squeeze()
+    transform = torchaudio.transforms.Vol(gain=-18, gain_type="db")
+    return text_processed['x_phones'][1::2], (44100, waveform_vocos_44100.numpy()), (22050, waveform_vocos.numpy()), (22050, transform(waveform_hifigan).numpy())
 description = f'''
 # Експериментальна апка для генерації аудіо з тексту.
     pflow checkpoint {PFLOW_MODEL_PATH}
+    Vocos 44100 аудіо - {VOCODER44_MODEL_PATH}
+    Vocos 22050 аудіо - {VOCODER22_MODEL_PATH}
+    HIFIGAN 22050 аудіо - {HIFIGAN_MODEL_PATH}
 '''
         ],
         outputs=[
             gr.Text(label='Фонемізований текст:', lines=5),
             gr.Audio(
+                        label="Vocos 44100 аудіо:",
+                        autoplay=False,
+                        streaming=False,
+                        type="numpy",
+                    ),
+            gr.Audio(
+                        label="Vocos 22050 аудіо:",
                         autoplay=False,
                         streaming=False,
                         type="numpy",
                     ),
+            gr.Audio(
+                        label="HIFIGAN 22050 аудіо:",
+                        autoplay=False,
+                        streaming=False,
+                        type="numpy",
+                    )
         ],
         allow_flagging ='manual',
+        #flagging_options=[("Якщо дуже погоне аудіо, тисни цю кнопку.", "negative")],
         cache_examples=True,
         title='',
         # description=description,

prompt.wav DELETED Viewed

Binary file (112 kB)

prompt22050.wav ADDED Viewed

Binary file (655 kB). View file