ContentVecをJVSでファインチューニングしたモデル

概要

このモデルは、こちらのContentVecモデルをベースに、JVSデータセットを用いてファインチューニングを行ったものです。
学習コードはこちらを使用しました。
rinna/japanese-hubert-largeにて特徴抽出を行い、日本語により適応するように学習しました。

直近の学習ログは以下の通りです。

[2024-11-04 21:36:53,622][valid][INFO] - epoch 026 | valid on 'valid' subset | loss 13.295 | count_m_0 1430.89 | count_u_0 1265.14 | loss_m_0 13.264 | loss_u_0 11.904 | loss_mlm 13.264 | loss_features_pen 0.011 | ctr_loss 0.025 | ctr_weighted_loss 0.023 | correct_m_0 0.0013102 | correct_u_0 0.00117504 | ppl 10052.6 | wps 5016.4 | wpb 1430.9 | bsz 3.7 | num_updates 93000 | best_loss 9.809
[2024-11-04 21:36:53,623][fairseq.checkpoint_utils][INFO] - Preparing to save checkpoint for epoch 26 @ 93000 updates
[2024-11-04 21:36:53,625][fairseq.trainer][INFO] - Saving checkpoint to /content/contentvec/tmp/checkpoints/checkpoint_26_93000.pt
[2024-11-04 21:36:56,694][fairseq.trainer][INFO] - Finished saving checkpoint to /content/contentvec/tmp/checkpoints/checkpoint_26_93000.pt
[2024-11-04 21:37:00,612][fairseq.checkpoint_utils][INFO] - Saved checkpoint checkpoints/checkpoint_26_93000.pt (epoch 26 @ 93000 updates, score 13.295) (writing took 6.988974927997333 seconds)
                                                    epoch 026:  55% 2012/3680 [26:19<18:36,  1.49it/s, loss=2.806, count_m_0=1420.22, count_u_0=1272.58, loss_m_0=2.746, loss_u_0=2.059, loss_mlm=2.746, loss_features_pen=0.01, ctr_loss=0.057, ctr_weighted_loss=0.054, correct_m_0=0.462972, correct_u_0=0.55299, ppl=7, wps=2053, ups=1.45, wpb=1420.2, bsz=3.8, num_updates=93900, lr=0.000297421, gnorm=2.509, clip=0, loss_scale=0.125, train_wall=64, gb_free=13.4, wall=74426][2024-11-04 21:48:39,649][fairseq_cli.train][INFO] - begin validation on "valid" subset
[2024-11-04 21:48:39,650][fairseq.tasks.fairseq_task][INFO] - can_reuse_epoch_itr = True

所感

リアルタイムボイスチェンジャーやTTS用途で試しているのでその使用時の所感です。
日本語の発話がより自然になったように感じられます。
また、特定の言葉が正しく発話できなかった問題も改善が見られました。
しかし、改善はしているものの(変換元の)話者によってはオリジナルのcontentvecの方が品質が高い場合もあるようです。
一部の言葉で音像がぼやける現象が残っておりますが、日本語は良い感じに変換されるようになったと思います。
現在以上の品質をcontentvecで出そうとするには、学習データを増やすくらいしかありませんが私の計算資源ではできそうにないのでここら辺で終わりにします。