地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

Stable-tsとFaster-whisperを使って音声認識をColabで試してみる。

faster-whisperでの音声認識をうまく使うのはなかなか苦労していたところ、見かけたXポストが気になったので自分で実装します。

 

 

このポストで知ったstable-tsはOpenAIのWhisper自動音声認識(ASR)モデルを拡張し、タイムスタンプの信頼性を向上させるライブラリです。

github.com

 

早速、ColabのT4環境でお試ししました。オプションはポストを参考に以下を設定しました。

        vad=True,                        # VAD(音声区間検出)を有効化
        condition_on_previous_text=False,# 前の文脈に依存しない(ループ対策の要)
        word_timestamps=False,           # 単語ごとのタイムスタンプを使わない(安定化)
        beam_size=5                      # 探索幅(精度向上のため)

 

音声データは以下に掲載されていものを利用させていただきました。

アリとキリギリス – にほんごたどく

サンプル・データ 日本語話し言葉コーパス(CSJ)

 

出来たColab Notebookです。

 

gist.github.com

 

なかなか良さそうではないですか。