いまさらながらwhisperで音声認識 - 地平線まで行ってくる。

ローカルPCで音声認識を使ってテキスト入力をさせてみようと思い立って、colaboratoryでテスト。いまさらながら・・・だけれども、やってみました。

参考サイト：

実行速度を比べてみる。GPUあるなし、float16, int8でそれぞれ試して見ました。

もともとは91secの動画からテキストを抽出してみました。

cuda float16 11.48 Sec

cuda int8_float16 5.20 Sec

cuda int8 5.15 Sec

cpu int8 244.06 Sec

同じint8でもcudaの方がcpuよりもうまく認識しているっぽい。CPUだと思ったよりも時間がかかってしまった。CUDA+int8でも悪くなさそうなので、これで自分のPCでトライしてみよう。