地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

VibeVoiceで日本語の音声生成をColabで試してみる。

Microsoft1がポッドキャストでの会話ような自然な会話音声を生成するモデルを公開しました。Colabを利用します。サンプルプログラムはT4用でVibeVoice-1.5Bですが、ColabのL4環境でより大きいVibeVoice-7B-Previewにもチャレンジしてみました。

 

英語の会話は1.5Bで自然な会話を達成していますが、日本語は中国語なのか日本語なのかわからない会話となり破綻しています。しかしながら、VibeVoice-7B-Preview(のリンク先のモデル)を利用すると、米国人風?ですが、日本語でも自然な会話を生成できています。

 

調べても言語は自動判定です。オプションで(優先でもいので)言語指定ができたら使いやすくなるのかもしれませんね。

 

Microsoftに感謝なモデルです。

 

github.com

 

テストに使ったColab

gist.github.com