地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

Qwen3-TTSをColabで試してみる。

テキストで指示した音声でしゃべってくれるQwen3-TTSモデル(Qwen3-TTS-12Hz-1.7B-VoiceDesign)を試してみました。Colab T4環境でVRAM占有率は8.4 / 15.0 GBでした。Colabのノートブックは最後にリンクします。

 

huggingface.co

 

instructのテキストだけで色んな声色の発生ができました。発音が発音が外国人なまりが時々でたり、漢字の読み方が怪しかったりするテキストもありました。しかし、中二病風(笑)もできましたし、なかなか面白かったです。ぜひ、Colabで遊んでみてください。

 

ちなみに、以下のようにinstruct中に読み上げテキストを入れる/入れないを試してみましたが、大きな違いはありませんでした。十分、聞けるレベルですが、指示が効いたら表現の幅が広がるように考えます。

 

    {
        "role": "Tsundere (ツンデレ)",
        "text": "べ、別にあんたのために作ったわけじゃないんだからね!勘違いしないでよね!",
        "instruct": "10代の少女の声。ツンデレな口調。最初は怒ったように早口で、後半は少し照れたように声が小さくなる。高めのトーン。"
    },
    {
        "role": "Tsundere (ツンデレ)",
        "text": "べ、別にあんたのために作ったわけじゃないんだからね!勘違いしないでよね!",
        "instruct": "10代の少女の声。ツンデレな口調。高めのトーン。最初は怒ったように早口で、「べ、別にあんたのために作ったわけじゃないんだからね!」後半は少し照れたように声が小さくなって「勘違いしないでよね!」"
    },

 

    {
        "role": "Villainess (悪役令嬢)",
        "text": "オーホッホッホ!このわたくしに逆らおうなんて、100年早くてよ!",
        "instruct": "高飛車な自信家の女性の声。高笑いが似合う、少し甲高いトーン。相手を見下すような威圧感と、どこか憎めない愛嬌を混ぜる。"
    },
    {
        "role": "Villainess (悪役令嬢)",
        "text": "オーホッホッホ!このわたくしに逆らおうなんて、100年早くてよ!",
        "instruct": "高飛車な自信家の女性の声。少し甲高いトーン。相手を見下すような威圧感と、どこか憎めない愛嬌を混ぜる。「オーホッホッホ!」は高笑いです。「100年早くてよ!」は威圧的に。"
    },

 

Colabノートです。

gist.github.com