青空文庫の中から自然言語処理用データを入手する。青空文庫は、定番の題材のようだ。意外と読んだことのない本が多いことに気が付きつつ、青空文庫に感謝しつつ、題材とさせていただきました。注意点は、掲載しているすべてのデータが著作権が切れたものではないこと。教師データの著作権と機械学習については、議論しないけれども、少なくとも入手したデータセットについては取り扱い上、事前に確認した。
で、早速、すばらしい記事が見つかる・・・。
ほぼこのままで良さそう。先人に感謝。
こうしたデータは、一度、得てしまえば、なんどもダウンロードするものでもない。前処理まですませたテキストデータまでで処理はいったん完結する。そこで、いつものGoogle Colabでお手軽に使えるようにしてみた。
青空文庫で作家の番号を調べておけば、あとは必要事項をフォームに入力して実行。終わったら前処理済みファイルが降ってくる。
これを使ってファインチューニングに挑戦!