Style-Bert-VITS2を用いた音声合成

オープンソースの音声合成基盤Style-Bert-VITS2を活用し、独自のTTSモデル構築を検証したプロジェクトです。学習用音声のノイズ除去、15秒以内のクリップへの分割、Whisperによる文字起こしを行い、データセットの準備からモデル学習までの一連の工程を実施しました。

課題

学習に必要な音声データが不足しており、当初採用したXTTSでは十分な学習結果を得られませんでした。

少量のデータでも学習に適した手法を検討し、Style-Bert-VITS2を活用する構成へ切り替えました。

深層学習を用いた音声合成の基礎と、音声データの前処理からモデル学習までの実践的なワークフローを習得しました。