Kamtera
/

persian-tts-multispeaker-vits

Transformers

TensorBoard

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

Kamtera commited on Mar 18, 2023

Commit

6f44090

•

1 Parent(s): b59a09d

Update train_vits-2.py

Browse files

Files changed (1) hide show

train_vits-2.py +45 -4

train_vits-2.py CHANGED Viewed

@@ -10,13 +10,54 @@ from TTS.tts.models.vits import  CharactersConfig, Vits, VitsArgs, VitsAudioConf
 from TTS.tts.utils.text.tokenizer import TTSTokenizer
 from TTS.utils.audio import AudioProcessor
 from TTS.tts.utils.speakers import SpeakerManager
-from TTS.tts.datasets.formatters import mozilla_with_speaker
 output_path = os.path.dirname(os.path.abspath(__file__))
 dataset_config = BaseDatasetConfig(
-    formatter="mozilla_with_speaker",
     dataset_name="multi_persian",
     meta_file_train="metadata.csv",
     language="fa",
@@ -99,7 +140,7 @@ config = VitsConfig(
         ["مردی نزد بقالی آمد و گفت پیاز هم ده تا دهان بدان خو شبوی سازم.","farid",None,"fa"],
         ["از مال خود پاره ای گوشت بستان و زیره بایی معطّر بساز","dilara",None,"fa"],
         ["یک بار هم از جهنم بگویید.","changiz",None,"fa"],
-        ["یکی اسبی به عاریت خواست","changiz",None,"fa"]
     ],
     output_path=output_path,
     datasets=[audio_config],
@@ -134,7 +175,7 @@ tokenizer, config = TTSTokenizer.init_from_config(config)
 # Load all the datasets samples and split traning and evaluation sets
 train_samples, eval_samples = load_tts_samples(
     config.datasets,
-    # formatter=mozilla_with_speaker,
     eval_split=True,
     eval_split_max_size=config.eval_split_max_size,
     eval_split_size=config.eval_split_size,

 from TTS.tts.utils.text.tokenizer import TTSTokenizer
 from TTS.utils.audio import AudioProcessor
 from TTS.tts.utils.speakers import SpeakerManager
+# from TTS.tts.datasets.formatters import mozilla_with_speaker
 output_path = os.path.dirname(os.path.abspath(__file__))
+def mozilla_with_speaker(root_path, meta_file, **kwargs):
+    """Loades three kaggle datasets in Mozilla format as a multispeaker dataset
+    Kaggle datasets are:
+    magnoliasis/persian-tts-dataset-famale
+    magnoliasis/persian-tts-dataset
+    magnoliasis/persian-tts-dataset-male
+    This function is very usefull while using kaggle notebooks.
+    Args:
+        root_path (str): root folder where all three datasets downloaded. for example on kaggle notebooks: /kaggle/input
+        meta_files (str):  list of meta files to be used in the training.
+    """
+    dataset_names={
+    "persian-tts-dataset-famale":"dilara",
+    "persian-tts-dataset":"changiz",
+    "persian-tts-dataset-male":"farid"
+    }
+    items = []
+    for data_root_path in dataset_names.keys():
+        new_root_path=os.path.join(root_path,data_root_path)
+        txt_file = os.path.join(new_root_path, meta_file)
+        speaker_name = dataset_names[data_root_path]
+        print(speaker_name)
+        with open(txt_file, "r", encoding="utf-8") as ttf:
+            for line in ttf:
+                cols = line.split("|")
+                wav_file = cols[1].strip()
+                text = cols[0].strip()
+                wav_file = os.path.join(new_root_path, "wavs", wav_file)
+                items.append({"text": text, "audio_file": wav_file, "speaker_name": speaker_name, "root_path": new_root_path})
+    return items
 dataset_config = BaseDatasetConfig(
+    # formatter="mozilla_with_speaker",
+    formatter="mozilla",
     dataset_name="multi_persian",
     meta_file_train="metadata.csv",
     language="fa",
         ["مردی نزد بقالی آمد و گفت پیاز هم ده تا دهان بدان خو شبوی سازم.","farid",None,"fa"],
         ["از مال خود پاره ای گوشت بستان و زیره بایی معطّر بساز","dilara",None,"fa"],
         ["یک بار هم از جهنم بگویید.","changiz",None,"fa"],
+        ["یکی اسبی به عاریت خواست","changiz",None,"fa"],
     ],
     output_path=output_path,
     datasets=[audio_config],
 # Load all the datasets samples and split traning and evaluation sets
 train_samples, eval_samples = load_tts_samples(
     config.datasets,
+    formatter=mozilla_with_speaker,
     eval_split=True,
     eval_split_max_size=config.eval_split_max_size,
     eval_split_size=config.eval_split_size,