VoicevoxエンジンのOpen AI互換のAPIがキタ!。VOICEVOXをさらに気軽に利用できるます。早速、OpenWebUIから呼び出して利用してみます。OpenWebUIではAPIを設定したりモデルのダウンロードしたりすると自動読み上げや音声認識連携をすることが可能なUIです。そこで、OpenWebUIとVOICEVOX APIのお試しをWindows11のWSL2環境で行います。LLMは、ローカルに立ち上げたollamaを利用します。これで完全にローカルで動作させることになります。Makiさんに感謝しつつお試しをしました。
お試しした結果、狙い通りに音声発生ができました。音声の自動読み上げをオンにすると、ほっこり会話ができます。OpenWebUIの場合、Faster-whisperのモデルを利用すれば音声テキスト変換もできますが、distil-large-v3モデルでは日本語を英語に翻訳しちゃいます。OpenWebUI上で出力言語設定できる項目がなく解決できませんでした。これが出来たら音声対話もできます。
ローカルLLMをお試ししたり、プロンプトの調整をしたりする場合にはOpenWebUIは便利です。VOICEVOXの音声も聞けると楽しくなります。
キタかも!VOICEVOXをOpenAIのTTSライブラリから呼び出せた!!!
— Maki@Sunwood AI Labs. (@hAru_mAki_ch) 2025年2月21日
これで、OpenAIのTTSライブラリが使われているツールでVOICEVOXが使える!!
まだ対応してないけど、AivisSpeechにも対応させる予定です! pic.twitter.com/90gC8A6J2l
VOICEVOX OpenAI TTS API
git cloneして、
docker-compose up -d
で一発です。
Ollama
お試し用にいつも使っているので、個別に立ち上げます。
ollama start ollama
そうでなければ、こちらを参照
OpenWebUI
Ollamaは同一PC内の別起動なのでこちらのコマンドで立ち上げます。
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
VOICEVOXを利用する。
これで利用可能です。
にアクセスすると。OpenWebUIの管理者の設定を求められるので、適当に入力して開始します。
管理者パネル>オーディオ>TTS設定

立ち上げたVOICEVOX OpenAI TTS APIを指定します。TTSボイスはVOICEVOXの音声IDを指定すればよいようです。
後は、好みで自動読み上げにするかどうか、設定すればよいと思います。
設定>オーディオ>TTS設定

以上です。Dockerでイメージをダウンロードするのに時間がかかりますが、それ以外は簡単です。