Doclingは各種ドキュメントからの生成AI向け情報抽出が可能です。IBMのチームが開発しています。現在も開発は活発です。PDF, DOCX, PPTX, XLSXなど多様なフォーマットに対応している優れものです。このDoclingでお好みのMarkdownの形式にできるようにしてみました。
数表ならいざ知らず、表組してある日本語文書では複雑な構造となっているケースが多い。縦横にセル結合してあるような奴です。それをMarkdownに変換しようとすると、GitHubのMarkdown表形式では表現力が不足します。それを補うためHTML形式で出力するように固定にします。図もついでにリンク埋め込みにします。
経産省が公開している表組の文書をMarkdownにしてテストをし利用できそうなレベルでmarkdown化できました。人間が見ても分かり難いお役所的高度構造化表組文書を生成AIで利用しやすく、かつ、投入データ(markdown)を人間が見ても分かるのは便利でした。といっても、もとの表組文書そのものが、理解しにくいという根本的に改善してほしい。
DoclingではHTML形式の表埋め込みの実装も進んでいるので、そのうち、オプションだけでよくなるのでしょう。また、画像データを用いてOCRをする場合は、日本語性能がよいOCRで予め文字埋め込みPDFとしておいた方が良いかも。force_backend_text=Trueとしておけば、埋め込みを優先してくれます。
チャートの読み取りなどなど、これからもDoclingには実装が予定されているようです。汎用的なVLLMをOCR代わりに使うのはお手軽ですが、モデル固有の制限もあります。結構なページ数のものを一気にできないこともあります。
他にもアイデアが出てきたので、継続的に神エクセル、文書エクセルにチャレンジしてみます。