LLMベースのデータ抽出は意外と不安定で大量に適用するのは、正直怖い。調子に乗ってAPIコールなんかやり続けると、明細が怖い。
ローカルLLMでやってみたらどうなるか、隙間時間でお試し。
ollama + gemna2 の環境で実行。
sampleコードを実行させる
{'text': {'data': {'player': {'artist': ['paul simon',
'led zeppelin',
'the doors']}},
'raw': '<json>{"player": {"artist": ["paul simon", "led zeppelin", "the doors"]}}</json>\n',
'errors': [],
'validated_data': {}}}
ほぼほぼ、狙い通りの答えが得られている。ドキュメントと比較するとrawのデータがjsonな点が狙いと違うのか。
開発そのものは現在は活発でないのが、残念。
トライしたメモとして・・・。