Upload 2 files

Files changed (2) hide show

config_dit_mel_seed_uvit_whisper_base_f0_44k.yml CHANGED Viewed

@@ -1,10 +1,10 @@
-log_dir: "./runs"
 save_freq: 1
 log_interval: 10
 save_interval: 1000
 device: "cuda"
 epochs: 1000 # number of epochs for first stage training (pre-training)
-batch_size: 2
 batch_length: 100 # maximum duration of audio in a batch (in seconds)
 max_len: 80 # maximum number of frames
 pretrained_model: ""
@@ -25,13 +25,17 @@ model_params:
   dit_type: "DiT" # uDiT or DiT
   reg_loss_type: "l1" # l1 or l2
   speech_tokenizer:
     type: 'whisper'
-    whisper_name: "openai/whisper-small"
-    path: "speech_tokenizer_v1.onnx"
-  cosyvoice:
-    path: "../CosyVoice/pretrained_models/CosyVoice-300M"
   style_encoder:
     dim: 192

+log_dir: "./runs/run_dit_mel_seed_uvit_whisper_base_f0_44k"
 save_freq: 1
 log_interval: 10
 save_interval: 1000
 device: "cuda"
 epochs: 1000 # number of epochs for first stage training (pre-training)
+batch_size: 1
 batch_length: 100 # maximum duration of audio in a batch (in seconds)
 max_len: 80 # maximum number of frames
 pretrained_model: ""
   dit_type: "DiT" # uDiT or DiT
   reg_loss_type: "l1" # l1 or l2
+  timbre_shifter:
+    se_db_path: "./modules/openvoice/checkpoints_v2/converter/se_db.pt"
+    ckpt_path: './modules/openvoice/checkpoints_v2/converter'
+  vocoder:
+    type: "bigvgan"
+    name: "nvidia/bigvgan_v2_44khz_128band_512x"
   speech_tokenizer:
     type: 'whisper'
+    name: "openai/whisper-small"
   style_encoder:
     dim: 192

config_dit_mel_seed_uvit_whisper_small_wavenet.yml CHANGED Viewed

@@ -1,4 +1,4 @@
-log_dir: "./runs"
 save_freq: 1
 log_interval: 10
 save_interval: 1000
@@ -25,24 +25,21 @@ model_params:
   dit_type: "DiT" # uDiT or DiT
   reg_loss_type: "l1" # l1 or l2
   speech_tokenizer:
     type: 'whisper'
-    whisper_name: "openai/whisper-small"
-    path: "speech_tokenizer_v1.onnx"
-  cosyvoice:
-    path: "../CosyVoice/pretrained_models/CosyVoice-300M"
   style_encoder:
     dim: 192
     campplus_path: "campplus_cn_common.bin"
-  DAC:
-    encoder_dim: 64
-    encoder_rates: [2, 5, 5, 6]
-    decoder_dim: 1536
-    decoder_rates: [ 6, 5, 5, 2 ]
-    sr: 24000
   length_regulator:
     channels: 512

+log_dir: "./runs/run_dit_mel_seed_uvit_whisper_small_wavenet"
 save_freq: 1
 log_interval: 10
 save_interval: 1000
   dit_type: "DiT" # uDiT or DiT
   reg_loss_type: "l1" # l1 or l2
+  timbre_shifter:
+    se_db_path: "./modules/openvoice/checkpoints_v2/converter/se_db.pt"
+    ckpt_path: './modules/openvoice/checkpoints_v2/converter'
   speech_tokenizer:
     type: 'whisper'
+    name: "openai/whisper-small"
   style_encoder:
     dim: 192
     campplus_path: "campplus_cn_common.bin"
+  vocoder:
+    type: "bigvgan"
+    name: "nvidia/bigvgan_v2_22khz_80band_256x"
   length_regulator:
     channels: 512