faster-whisperでの音声認識をうまく使うのはなかなか苦労していたところ、見かけたXポストが気になったので自分で実装します。
large-v3-turboで、実装はこんな感じです!
— きりまじろ☕ (@kirimajiro) 2025年12月22日
同じ単語が突然繰り返されるハルシネーションにかなり悩みましたが、stable-tsを入れてVADとcondition_on_previous_text=Falseとword_timestampsを使わないことでようやく解決しました。 pic.twitter.com/dnPIUBTpnQ
このポストで知ったstable-tsはOpenAIのWhisper自動音声認識(ASR)モデルを拡張し、タイムスタンプの信頼性を向上させるライブラリです。
早速、ColabのT4環境でお試ししました。オプションはポストを参考に以下を設定しました。
vad=True, # VAD(音声区間検出)を有効化
condition_on_previous_text=False,# 前の文脈に依存しない(ループ対策の要)
word_timestamps=False, # 単語ごとのタイムスタンプを使わない(安定化)
beam_size=5 # 探索幅(精度向上のため)
音声データは以下に掲載されていものを利用させていただきました。
出来たColab Notebookです。
なかなか良さそうではないですか。