地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

Doclingを使って図入りmarkdownを作成してみる。#2

図入りmarkdownに手元の資料を整えておくと便利だなと思って、改めてmakdown化を見直し見ました。あっという間に進歩があるかもしれないので、PyMuPDF4LLMらと改めて比較しつつ試行錯誤しましたが、Doclingが良好でした。そのため、Doclingのラッパーに落ち着きました。相変わらず、無駄な時間を使いましたが、先人の検討のありがたみを

 

以前の検討:

bwgift.hatenadiary.jp

 

以下のコマンドで呼び出せるようにしました。

pdf2md_cli [PDF_FILE] -o [OUTPUT_DIRECTORY]

 

論文や資料をmakdown形式で保管・利用するには便利です。多様なPDFを処理するには、Azure Document IntelligenceやGoogle Document AIを利用した方が良いでしょう。もっとも、ワードやパワーポイントはそのうちmarkdownへの出力をサポートするかもしれません(してほしい)。最後に残るのは紙エクセル・・・。

 

今のところ、ワードやパワーポイント、神エクセルの場合は一度PDFを経由するのがひとまずは簡単にできる対応かも。M365を持っている場合は、ワードやパワーポイント経由でPDFを出力させることで対応できますし、自動化もできます。

 

github.com