Microsoft1がポッドキャストでの会話ような自然な会話音声を生成するモデルを公開しました。Colabを利用します。サンプルプログラムはT4用でVibeVoice-1.5Bですが、ColabのL4環境でより大きいVibeVoice-7B-Previewにもチャレンジしてみました。
英語の会話は1.5Bで自然な会話を達成していますが、日本語は中国語なのか日本語なのかわからない会話となり破綻しています。しかしながら、VibeVoice-7B-Preview(のリンク先のモデル)を利用すると、米国人風?ですが、日本語でも自然な会話を生成できています。
調べても言語は自動判定です。オプションで(優先でもいので)言語指定ができたら使いやすくなるのかもしれませんね。
Microsoftに感謝なモデルです。
テストに使ったColab