図入りmarkdownに手元の資料を整えておくと便利だなと思って、改めてmakdown化を見直し見ました。あっという間に進歩があるかもしれないので、PyMuPDF4LLMらと改めて比較しつつ試行錯誤しましたが、Doclingが良好でした。そのため、Doclingのラッパーに落ち着きました。相変わらず、無駄な時間を使いましたが、先人の検討のありがたみを
以前の検討:
以下のコマンドで呼び出せるようにしました。
pdf2md_cli [PDF_FILE] -o [OUTPUT_DIRECTORY]
論文や資料をmakdown形式で保管・利用するには便利です。多様なPDFを処理するには、Azure Document IntelligenceやGoogle Document AIを利用した方が良いでしょう。もっとも、ワードやパワーポイントはそのうちmarkdownへの出力をサポートするかもしれません(してほしい)。最後に残るのは紙エクセル・・・。
今のところ、ワードやパワーポイント、神エクセルの場合は一度PDFを経由するのがひとまずは簡単にできる対応かも。M365を持っている場合は、ワードやパワーポイント経由でPDFを出力させることで対応できますし、自動化もできます。