テキストで指示した音声でしゃべってくれるQwen3-TTSモデル(Qwen3-TTS-12Hz-1.7B-VoiceDesign)を試してみました。Colab T4環境でVRAM占有率は8.4 / 15.0 GBでした。Colabのノートブックは最後にリンクします。
instructのテキストだけで色んな声色の発生ができました。発音が発音が外国人なまりが時々でたり、漢字の読み方が怪しかったりするテキストもありました。しかし、中二病風(笑)もできましたし、なかなか面白かったです。ぜひ、Colabで遊んでみてください。
ちなみに、以下のようにinstruct中に読み上げテキストを入れる/入れないを試してみましたが、大きな違いはありませんでした。十分、聞けるレベルですが、指示が効いたら表現の幅が広がるように考えます。
{
"role": "Tsundere (ツンデレ)",
"text": "べ、別にあんたのために作ったわけじゃないんだからね!勘違いしないでよね!",
"instruct": "10代の少女の声。ツンデレな口調。最初は怒ったように早口で、後半は少し照れたように声が小さくなる。高めのトーン。"
},
{
"role": "Tsundere (ツンデレ)",
"text": "べ、別にあんたのために作ったわけじゃないんだからね!勘違いしないでよね!",
"instruct": "10代の少女の声。ツンデレな口調。高めのトーン。最初は怒ったように早口で、「べ、別にあんたのために作ったわけじゃないんだからね!」後半は少し照れたように声が小さくなって「勘違いしないでよね!」"
},
{
"role": "Villainess (悪役令嬢)",
"text": "オーホッホッホ!このわたくしに逆らおうなんて、100年早くてよ!",
"instruct": "高飛車な自信家の女性の声。高笑いが似合う、少し甲高いトーン。相手を見下すような威圧感と、どこか憎めない愛嬌を混ぜる。"
},
{
"role": "Villainess (悪役令嬢)",
"text": "オーホッホッホ!このわたくしに逆らおうなんて、100年早くてよ!",
"instruct": "高飛車な自信家の女性の声。少し甲高いトーン。相手を見下すような威圧感と、どこか憎めない愛嬌を混ぜる。「オーホッホッホ!」は高笑いです。「100年早くてよ!」は威圧的に。"
},
Colabノートです。