|
{ |
|
"train": { |
|
"segment_size": 16384 |
|
}, |
|
"data": { |
|
"disable_bert": true, |
|
"sampling_rate": 44100, |
|
"filter_length": 2048, |
|
"hop_length": 512, |
|
"add_blank": true, |
|
"n_speakers": 256, |
|
"spk2id": { |
|
"JP": 0 |
|
} |
|
}, |
|
"model": { |
|
"use_spk_conditioned_encoder": true, |
|
"use_noise_scaled_mas": true, |
|
"use_mel_posterior_encoder": false, |
|
"use_duration_discriminator": true, |
|
"inter_channels": 192, |
|
"hidden_channels": 192, |
|
"filter_channels": 768, |
|
"n_heads": 2, |
|
"n_layers": 6, |
|
"n_layers_trans_flow": 3, |
|
"kernel_size": 3, |
|
"p_dropout": 0.1, |
|
"resblock": "1", |
|
"resblock_kernel_sizes": [ |
|
3, |
|
7, |
|
11 |
|
], |
|
"resblock_dilation_sizes": [ |
|
[ |
|
1, |
|
3, |
|
5 |
|
], |
|
[ |
|
1, |
|
3, |
|
5 |
|
], |
|
[ |
|
1, |
|
3, |
|
5 |
|
] |
|
], |
|
"upsample_rates": [ |
|
8, |
|
8, |
|
2, |
|
2, |
|
2 |
|
], |
|
"upsample_initial_channel": 512, |
|
"upsample_kernel_sizes": [ |
|
16, |
|
16, |
|
8, |
|
2, |
|
2 |
|
], |
|
"n_layers_q": 3, |
|
"use_spectral_norm": false, |
|
"gin_channels": 256 |
|
}, |
|
"symbols": [ |
|
"_", |
|
"\"", |
|
"(", |
|
")", |
|
"*", |
|
"/", |
|
":", |
|
"AA", |
|
"E", |
|
"EE", |
|
"En", |
|
"N", |
|
"OO", |
|
"Q", |
|
"V", |
|
"[", |
|
"\\", |
|
"]", |
|
"^", |
|
"a", |
|
"a:", |
|
"aa", |
|
"ae", |
|
"ah", |
|
"ai", |
|
"an", |
|
"ang", |
|
"ao", |
|
"aw", |
|
"ay", |
|
"b", |
|
"by", |
|
"c", |
|
"ch", |
|
"d", |
|
"dh", |
|
"dy", |
|
"e", |
|
"e:", |
|
"eh", |
|
"ei", |
|
"en", |
|
"eng", |
|
"er", |
|
"ey", |
|
"f", |
|
"g", |
|
"gy", |
|
"h", |
|
"hh", |
|
"hy", |
|
"i", |
|
"i0", |
|
"i:", |
|
"ia", |
|
"ian", |
|
"iang", |
|
"iao", |
|
"ie", |
|
"ih", |
|
"in", |
|
"ing", |
|
"iong", |
|
"ir", |
|
"iu", |
|
"iy", |
|
"j", |
|
"jh", |
|
"k", |
|
"ky", |
|
"l", |
|
"m", |
|
"my", |
|
"n", |
|
"ng", |
|
"ny", |
|
"o", |
|
"o:", |
|
"ong", |
|
"ou", |
|
"ow", |
|
"oy", |
|
"p", |
|
"py", |
|
"q", |
|
"r", |
|
"ry", |
|
"s", |
|
"sh", |
|
"t", |
|
"th", |
|
"ts", |
|
"ty", |
|
"u", |
|
"u:", |
|
"ua", |
|
"uai", |
|
"uan", |
|
"uang", |
|
"uh", |
|
"ui", |
|
"un", |
|
"uo", |
|
"uw", |
|
"v", |
|
"van", |
|
"ve", |
|
"vn", |
|
"w", |
|
"x", |
|
"y", |
|
"z", |
|
"zh", |
|
"zy", |
|
"~", |
|
"æ", |
|
"ç", |
|
"ð", |
|
"ø", |
|
"ŋ", |
|
"œ", |
|
"ɐ", |
|
"ɑ", |
|
"ɒ", |
|
"ɔ", |
|
"ɕ", |
|
"ə", |
|
"ɛ", |
|
"ɜ", |
|
"ɡ", |
|
"ɣ", |
|
"ɥ", |
|
"ɦ", |
|
"ɪ", |
|
"ɫ", |
|
"ɬ", |
|
"ɭ", |
|
"ɯ", |
|
"ɲ", |
|
"ɵ", |
|
"ɸ", |
|
"ɹ", |
|
"ɾ", |
|
"ʁ", |
|
"ʃ", |
|
"ʊ", |
|
"ʌ", |
|
"ʎ", |
|
"ʏ", |
|
"ʑ", |
|
"ʒ", |
|
"ʝ", |
|
"ʲ", |
|
"ˈ", |
|
"ˌ", |
|
"ː", |
|
"̃", |
|
"̩", |
|
"β", |
|
"θ", |
|
"ᄀ", |
|
"ᄁ", |
|
"ᄂ", |
|
"ᄃ", |
|
"ᄄ", |
|
"ᄅ", |
|
"ᄆ", |
|
"ᄇ", |
|
"ᄈ", |
|
"ᄉ", |
|
"ᄊ", |
|
"ᄋ", |
|
"ᄌ", |
|
"ᄍ", |
|
"ᄎ", |
|
"ᄏ", |
|
"ᄐ", |
|
"ᄑ", |
|
"ᄒ", |
|
"ᅡ", |
|
"ᅢ", |
|
"ᅣ", |
|
"ᅤ", |
|
"ᅥ", |
|
"ᅦ", |
|
"ᅧ", |
|
"ᅨ", |
|
"ᅩ", |
|
"ᅪ", |
|
"ᅫ", |
|
"ᅬ", |
|
"ᅭ", |
|
"ᅮ", |
|
"ᅯ", |
|
"ᅰ", |
|
"ᅱ", |
|
"ᅲ", |
|
"ᅳ", |
|
"ᅴ", |
|
"ᅵ", |
|
"ᆨ", |
|
"ᆫ", |
|
"ᆮ", |
|
"ᆯ", |
|
"ᆷ", |
|
"ᆸ", |
|
"ᆼ", |
|
"ㄸ", |
|
"!", |
|
"?", |
|
"…", |
|
",", |
|
".", |
|
"'", |
|
"-", |
|
"¿", |
|
"¡", |
|
"SP", |
|
"UNK" |
|
], |
|
"num_tones": 16, |
|
"num_languages": 10 |
|
} |