地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

いまさらながらwhisperで音声認識

ローカルPCで音声認識を使ってテキスト入力をさせてみようと思い立って、colaboratoryでテスト。いまさらながら・・・だけれども、やってみました。

 

参考サイト:

faster-whisperでwhisper large-v3を動かしてみよう!

 

github.com


実行速度を比べてみる。GPUあるなし、float16, int8でそれぞれ試して見ました。

もともとは91secの動画からテキストを抽出してみました。

  • cuda float16 11.48 Sec
  • cuda int8_float16 5.20 Sec
  • cuda int8 5.15 Sec
  • cpu int8 244.06  Sec


同じint8でもcudaの方がcpuよりもうまく認識しているっぽい。CPUだと思ったよりも時間がかかってしまった。CUDA+int8でも悪くなさそうなので、これで自分のPCでトライしてみよう。