AIベース音声合成

音声合成技術を活用して自然な音声を生成するプロジェクト。style-Bert-VITS2の体験です。これは、私が開発したプロジェクトではなく、オープンソースのTTSプロジェクトです。私はそれを利用し、自分で音声ファイルのノイズを除去したり、15秒以内にカットしたり、音声に対応するスクリプトをWhisperで生成したりし、Style-Bert-VITS2でTTSモデルを作ってみることをしただけです。

難しいかったこと

モデル学習に必要なデータ不足(最初はSytle-Bert-VITS2ではなく、XTTSで作ろうとしたが、データ不足で学習に失敗しました。)

解決方法

few-shotができるような新しい技術に移行

学んだこと

ディープラーニングベースの音声合成原理学習ライブラリーを体験してみました。