ローカルLLMでデータ抽出(Colab) - 地平線まで行ってくる。

LLMベースのデータ抽出は意外と不安定で大量に適用するのは、正直怖い。調子に乗ってAPIコールなんかやり続けると、明細が怖い。

ローカルLLMでやってみたらどうなるか、隙間時間でお試し。

ollama + gemna2 の環境で実行。

sampleコードを実行させる

{'text': {'data': {'player': {'artist': ['paul simon',
'led zeppelin',
'the doors']}},
'raw': '<json>{"player": {"artist": ["paul simon", "led zeppelin", "the doors"]}}</json>\n',
'errors': [],
'validated_data': {}}}

ほぼほぼ、狙い通りの答えが得られている。ドキュメントと比較するとrawのデータがjsonな点が狙いと違うのか。

開発そのものは現在は活発でないのが、残念。

トライしたメモとして・・・。

gist.github.com