マルコフ連鎖による文章自動生成 #2 文字列を分かち書き

　ツイートをひたすら収集して600MBくらいのテキストデータが得られました。行数カウントすると、1,965,620 の文を収集できました。どの程度の学習データがあればいいのか分からない。

　さて、得られた文章の前処理を進めます。

　単語単位に文章を分解します。せっかく、応答文で集めたデータなので、将来的にそのまま流用できるようにする。

　というわけで、MeCabを使って分かち書きと質問文と返答文を分けて保存の作業を行う。

　こちらのサイトを参考にして、ファイル名とかを適宜変更します。

　少ないデータを使って動作を確認し、あとは一気に処理をさせるだけ。

　でも、ふと困ったことが・・・Colaboratoryだと大量のデータをいちいちアップロードしたりダウンロードしたりするのは、時間も手間もかかる。

　そこで・・・Google Driveをマウントしてみることにした。

　つづく

地平線まで行ってくる。