ツイートをひたすら収集して600MBくらいのテキストデータが得られました。行数カウントすると、1,965,620 の文を収集できました。どの程度の学習データがあればいいのか分からない。
分かち書きとデータ分類
さて、得られた文章の前処理を進めます。
単語単位に文章を分解します。せっかく、応答文で集めたデータなので、将来的にそのまま流用できるようにする。
というわけで、MeCabを使って分かち書きと質問文と返答文を分けて保存の作業を行う。
こちらのサイトを参考にして、ファイル名とかを適宜変更します。
少ないデータを使って動作を確認し、あとは一気に処理をさせるだけ。
でも、ふと困ったことが・・・Colaboratoryだと大量のデータをいちいちアップロードしたりダウンロードしたりするのは、時間も手間もかかる。
そこで・・・Google Driveをマウントしてみることにした。
つづく
今回の記事は以下の流れの続きです。