地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

ラズパイでできるもん:マルコフ連鎖で文書生成 #1 ~準備

 定期ツイートするデータを文章を自動生成させて作る。その前段階のテキスト処理を構築してみる。

 日本語の解析には、まず辞書を元に分かち書きと言われる語句の分解をする必要がある。解析ツールの一つである。今回はそのうちのMecabを使うことにした。

 

apt install aptitude swig
aptitude install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file -y 

 

 これで、MeCabの基本的なインストールは終わり。辞書方式は、新しい言葉を含みできるだけ多くの分量を持っている方が有利だ。そこで、引き続き、新しい言葉を加えているMeCab用の辞書mecab-ipadic-NEologdをラズパイに導入をしようと調べた。ところが、ラズパイにインストールするには、辞書作り自体が重荷の様だ。

 じゃぁ、Google Colaboratory上でipadic-NEologdをインストール作業を行って、辞書だけ取り出せばOKなのでは・・・。

 

qiita.com

を参考に

!apt install aptitude swig
!aptitude install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file -y
!pip install mecab-python3
!git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
!echo yes | mecab-ipadic-neologd/bin/install-mecab-ipadic-neologd -n -a

と動かして・・・無事終了したら、

!echo `mecab-config --dicdir`"/mecab-ipadic-neologd"

で、辞書の場所を特定。zipでディレクトリ毎圧縮してダウンロードしちゃえば最新の辞書ゲット。で、でも、1Gバイト越えている。

 

実際に使う場合はラズパイのお好きなディレクトリーにおいて、
mecab -d /辞書のディレクトリー
で使える。

さて、これで、下準備はお終い。