地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

青空文庫から自然言語処理用データをダウンロード

青空文庫の中から自然言語処理用データを入手する。青空文庫は、定番の題材のようだ。意外と読んだことのない本が多いことに気が付きつつ、青空文庫に感謝しつつ、題材とさせていただきました。注意点は、掲載しているすべてのデータが著作権が切れたものではないこと。教師データの著作権機械学習については、議論しないけれども、少なくとも入手したデータセットについては取り扱い上、事前に確認した。

 

で、早速、すばらしい記事が見つかる・・・。

qiita.com

 

ほぼこのままで良さそう。先人に感謝。

 

こうしたデータは、一度、得てしまえば、なんどもダウンロードするものでもない。前処理まですませたテキストデータまでで処理はいったん完結する。そこで、いつものGoogle Colabでお手軽に使えるようにしてみた。

 

github.com

 

青空文庫で作家の番号を調べておけば、あとは必要事項をフォームに入力して実行。終わったら前処理済みファイルが降ってくる。

これを使ってファインチューニングに挑戦!