ローカルPCで音声認識を使ってテキスト入力をさせてみようと思い立って、colaboratoryでテスト。いまさらながら・・・だけれども、やってみました。
参考サイト:
faster-whisperでwhisper large-v3を動かしてみよう!
実行速度を比べてみる。GPUあるなし、float16, int8でそれぞれ試して見ました。
もともとは91secの動画からテキストを抽出してみました。
- cuda float16 11.48 Sec
- cuda int8_float16 5.20 Sec
- cuda int8 5.15 Sec
- cpu int8 244.06 Sec
同じint8でもcudaの方がcpuよりもうまく認識しているっぽい。CPUだと思ったよりも時間がかかってしまった。CUDA+int8でも悪くなさそうなので、これで自分のPCでトライしてみよう。