地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

マルコフ連鎖による文章自動生成 #2 文字列を分かち書き

 ツイートをひたすら収集して600MBくらいのテキストデータが得られました。行数カウントすると、1,965,620 の文を収集できました。どの程度の学習データがあればいいのか分からない。

 

分かち書きとデータ分類

 さて、得られた文章の前処理を進めます。

 単語単位に文章を分解します。せっかく、応答文で集めたデータなので、将来的にそのまま流用できるようにする。

 というわけで、MeCabを使って分かち書きと質問文と返答文を分けて保存の作業を行う。

 こちらのサイトを参考にして、ファイル名とかを適宜変更します。

qiita.com

 少ないデータを使って動作を確認し、あとは一気に処理をさせるだけ。

 でも、ふと困ったことが・・・Colaboratoryだと大量のデータをいちいちアップロードしたりダウンロードしたりするのは、時間も手間もかかる。

 そこで・・・Google Driveをマウントしてみることにした。

 

 つづく

 

 今回の記事は以下の流れの続きです。

bwgift.hatenadiary.jp

bwgift.hatenadiary.jp