地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

VOICEVOX OpenAI TTS APIとOpenWebUIでローカルでチャットする。

VoicevoxエンジンのOpen AI互換のAPIがキタ!。VOICEVOXをさらに気軽に利用できるます。早速、OpenWebUIから呼び出して利用してみます。OpenWebUIではAPIを設定したりモデルのダウンロードしたりすると自動読み上げや音声認識連携をすることが可能なUIです。そこで、OpenWebUIとVOICEVOX APIのお試しをWindows11のWSL2環境で行います。LLMは、ローカルに立ち上げたollamaを利用します。これで完全にローカルで動作させることになります。Makiさんに感謝しつつお試しをしました。

 

お試しした結果、狙い通りに音声発生ができました。音声の自動読み上げをオンにすると、ほっこり会話ができます。OpenWebUIの場合、Faster-whisperのモデルを利用すれば音声テキスト変換もできますが、distil-large-v3モデルでは日本語を英語に翻訳しちゃいます。OpenWebUI上で出力言語設定できる項目がなく解決できませんでした。これが出来たら音声対話もできます。

 

ローカルLLMをお試ししたり、プロンプトの調整をしたりする場合にはOpenWebUIは便利です。VOICEVOXの音声も聞けると楽しくなります。

 

 

VOICEVOX OpenAI TTS API

github.com

git cloneして、

docker-compose up -d

で一発です。

 

Ollama

お試し用にいつも使っているので、個別に立ち上げます。

ollama start ollama

そうでなければ、こちらを参照

ollama.com

 

OpenWebUI

github.com

Ollamaは同一PC内の別起動なのでこちらのコマンドで立ち上げます。

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

 

VOICEVOXを利用する。

これで利用可能です。

http://localhost:3000/

にアクセスすると。OpenWebUIの管理者の設定を求められるので、適当に入力して開始します。

 

管理者パネル>オーディオ>TTS設定

立ち上げたVOICEVOX OpenAI TTS APIを指定します。TTSボイスはVOICEVOXの音声IDを指定すればよいようです。

 

後は、好みで自動読み上げにするかどうか、設定すればよいと思います。

設定>オーディオ>TTS設定

 

以上です。Dockerでイメージをダウンロードするのに時間がかかりますが、それ以外は簡単です。