2019-06-08

マルコフ連鎖による文章自動生成 #4 しっかり学習させると。

IT Python お勉強なんとなく

　pythonのお勉強とおもって「文章自動生成」にチャレンジ中。これまで分かち書きした文章の教師用データを作ってお試しでの文章自動生成に成功しました。今回は「猫」という言葉が入っている応答形式のツイートを一週間かけて集めたデータを使います。

　幾つかのテキストファイルにしちゃっているので、学習データのディレクトリに.txtファイルを置いておくと順に読み込んでくれるようにしました。トラブルで再開しやすいように、学習データは学習したら削除することにしました。

　./corpus_data : 学習ファイル

　tweet_learned_data.json : 学習結果

#!/usr/bin/env python3
# -*- coding:utf-8 -*-
from glob import iglob
import re
import markovify
import os
import gc

def main():

learned_data = "tweet_learned_data.json"

if os.path.exists(learned_data):
with open(learned_data) as f:
combined_model = markovify.Text.from_json(f.read())
else:
print("no learned data.")
combined_model = None

#

for (dirpath, _, filenames) in os.walk('./corpus_data'):
for filename in filenames:
with open(os.path.join(dirpath, filename)) as f:
print(filename)
text_model = markovify.NewlineText(f, retain_original=False, state_size=2)

if combined_model:
combined_model = markovify.combine(models=[combined_model, text_model], weights=[1.0,1])
else:
combined_model = text_model

sentence = combined_model.make_sentence()
print(''.join(sentence.split()))
gc.collect()

with open(learned_data, 'w') as f:
f.write(combined_model.to_json())
print("saved")

#remove learned file.
os.remove(os.path.join(dirpath, filename))

if __name__ == '__main__':
main()

　Qiitaを中心に色々と参考にさせていただきました。ありがとうございます。

　これで学習させると・・・116Mの学習ファイルが出来上がり。

　文章を生成します。

　malkov_sentences.txt に200文例を表示します。単なる単語になりがちなので短い20文字以下は保存しません。

import os
import markovify

def main():

learned_data = "tweet_learned_data.json"

if os.path.exists(learned_data):
with open(learned_data) as f:
text_model = markovify.Text.from_json(f.read())
else:
print("no learned data.")
exit()

#
sentence = text_model.make_short_sentence(130, tries=10, max_overlap_ratio=0.7, max_overlap_total = 10)
print(str(len(sentence)) + ":" + ''.join(sentence.split()))

if len(sentence) > 20:
# save make sentences data
with open('malkov_sentences.txt', 'a', encoding = 'UTF-8') as f:
f.write(''.join(sentence.split()) + "\n")
else:
print("canceled")

if __name__ == '__main__':
for var in range(0,200):
main()

　で結果。

猫を好きになる犬種分からんもんまで買っててドラズの中にはヒトのことなんだけど、野良猫でした。ガルボ食べるのにゃ！
猫のやつをいつでもダンボールの可能性もありませんが可愛いので野良がいたので里親さん募集。Twitterログアウトしちゃった
人慣れしてるんだけど最後らへんですね。️
そんで、これはたまらんですが、新猫が飼いたい。とても猫が、馬だけでも癒されます。
1猫みたいにしてればあまり分からないが、神明かけてたら、次のゲーム。⁇何系男子高校生の頃から猫って毛玉ができて綺麗にするのよ。ボランティア減るぜ」→ちゅき。

　なんとなく、変な文書の生成に成功！しかし、ツイートの文章だからか、文章らしからないものが多い場合も。

　マルコフ連鎖の場合は、前後の言葉の関係性を学習するけれども、それが２つの言葉なのか３つなのか・・・で決定される。ツイートの場合は文書が短いためか、３つ以上にすると学習したデータが似かよることが多い。また、複数学習データをまとめて学習データにするという手法の場合は、それぞれのモデルの weights を調整することもできる。もうちょっと工夫できるところも多い。

　データが大きくなるとメモリーをあっという間に食い尽くして慌てたりと勉強しながらなんとか文章の自動生成ができるようになって、ほっとしました。

　と、ここまでで、分かち書きまで前処理したデータを使って学習データを作成し、文章を生成するところまでてきました。初期目標はある程度達成。とりあえず、ツイートまではやってみたいと思います。

　つづく

bwgift.hatenadiary.jp

2019-06-07

手持ちUSB扇風機

お出かけなにこれ小物買い物電子ガジェット

　暑くなると扇子とか団扇とかを持ち歩く季節。オフィスの机の上にはUSB扇風機を持ち込む人もちらほらと。書類が汗を吸うとメンドイし、ノートパソコンって熱を持つので手に汗をかく。

　持ち運び用のUSB扇風機が近所のお店でも見かけるようになったので、いいものがないか、探してみた。

　それがこれ、スマホスタンド付き・・・。

　もしかしたら、スマホ冷却作用も持たせられるのか。夏はスマホが熱持って動作が遅くなったり、カメラが起動しなかったりするから、興味あり。

　まだ、ポチってはない。スマホにも風をあてて冷却させることができれば買いかも。ポケモンGo遊んでいる人とか試してないかな。レビュー見てもそういう視点からのものがない。

　様子見かなぁ・・・。

【携帯扇風機 2019年最新】手持ち充電式USB扇風機持ち運び 2000MAhバッテリー内蔵超静音スマホスタンド機能卓上扇風機風量3段階調節手持ちファン熱中症対策旅行花火大会 BBQ 学校会社アウトドア手持ち/卓上両対応

出版社/メーカー: Yoonwa
メディア: エレクトロニクス
この商品を含むブログを見る

2019-06-02

マルコフ連鎖による文章自動生成 #3 学習させてテスト文章作る。

IT お勉強 Python

　分かち書きにした文章が用意出来たら、あとは簡単。といっても、すでにライブラリーがあるからなんですが・・・。　

github.com

　とりあえず、以下のサイトを見ながら学習＆文章を生成してみます。　

qiita.com

　すでに、分かち書きは出来ているので簡単。

import markovify

# Load file
text_file = open("input.txt", "r")
text = text_file.read()

# Build model
text_model = markovify.Text(parsed_text, state_size=2)

# Output
sentence = text_model.make_short_sentence(140)
 print(''.join(sentence.split()))

　とりあえず、何かの文章は出来た。

　これで動く目途がついた。モデルでの連鎖数をどうするのか、はたまた、もっと大きな辞書を学習させてみたい、と次のステップに進むのであった。

　つづく

bwgift.hatenadiary.jp

2019-05-31

SanDisk SDカード128GB が安い・・・。

android スマホ小物

　並行輸入ものだがSanDiskで1850円(2019/5/31現在)。これは欲しいなぁ。

SanDisk microSDXC ULTRA 128GB 80MB/s SDSQUNS-128G Class10 サンディスク [並行輸入品]

出版社/メーカー: サンディスク
メディア: エレクトロニクス
この商品を含むブログを見る

　ところがもっと気になったのは「よく一緒に購入されている商品」が容量がことなるもの。

　不思議な買い方だ。今一つ理解できない（笑）

2019-05-31

ColaboratoryでGoogle Driveに一時退避

　Colaboratory で作業をしていると得られたデータを退避させる必要がある。

　大抵は、GoogleDriveでどうにかなる。

　お約束を唱える。

#Google Driveをマウント

from google.colab import drive
drive.mount('/content/drive')

google_drive_dir = 'drive/'

　大抵は作業フォルダー毎zipで固めて

!cp /content/hogehoge.zip "/content/drive/My Drive/temp/"

　とかでコピー。

　あまり多くはないかもしれないけれども、makeしてinstallするような場合は、makeしたあと、make installする前の状態でzipで固めてGoogle Driveに退避。次回からzipをコピーしてきて回答＆make installを唱える。

　ちょっとした時間の節約にはなる。

　GoogleDriveの容量オーバーには注意。

　GoogleDriveもフォルダ毎に容量を制限できる機能とか、外部からはアクセスできるフォルダを認証コードで限定できるとか、実装してほしい。こういう実験にも安心して使いたい。

　と、Colaboratoryを使うとみんなやってるはずですよねぇ・・・。

2019-05-28

マルコフ連鎖による文章自動生成 #2 文字列を分かち書き

　ツイートをひたすら収集して600MBくらいのテキストデータが得られました。行数カウントすると、1,965,620 の文を収集できました。どの程度の学習データがあればいいのか分からない。

分かち書きとデータ分類

　さて、得られた文章の前処理を進めます。

　単語単位に文章を分解します。せっかく、応答文で集めたデータなので、将来的にそのまま流用できるようにする。

　というわけで、MeCabを使って分かち書きと質問文と返答文を分けて保存の作業を行う。

　こちらのサイトを参考にして、ファイル名とかを適宜変更します。

qiita.com

　少ないデータを使って動作を確認し、あとは一気に処理をさせるだけ。

　でも、ふと困ったことが・・・Colaboratoryだと大量のデータをいちいちアップロードしたりダウンロードしたりするのは、時間も手間もかかる。

　そこで・・・Google Driveをマウントしてみることにした。

　つづく

　今回の記事は以下の流れの続きです。

bwgift.hatenadiary.jp

2019-05-27

洗濯物にサーキュレーター

暮らし家電買い物

　部屋干しでの洗濯物には風を当てとかないと、乾きが悪い。そんな季節がやってきた。冬は暖房を入れるからまだましだが、５月から６月が特にだめ。乾かないし、匂いもなんだか生乾きの匂いがしてくる。

　そこで、サーキュレータ。

　やっぱり、全然違う。

　洗濯物や熱こもりには首振りじゃなくても大丈夫。

アイリスオーヤマサーキュレーター静音首振り固定 8畳パワフル送風ホワイト PCF-HD15N-W

出版社/メーカー: アイリスオーヤマ(IRIS OHYAMA)
メディア: ホーム&キッチン
この商品を含むブログ (2件) を見る

　だけど首振りタイプもそんなに変わらない。

アイリスオーヤマサーキュレーター静音左右首振り 8畳パワフル送風ホワイト PCF-HD15-W

出版社/メーカー: アイリスオーヤマ(IRIS OHYAMA)
メディア: ホーム&キッチン
この商品を含むブログ (1件) を見る

　たぶん、上記２つが安い。

2019-05-27

マルコフ連鎖による文章自動生成 #1 とりあえずデータ集め

Python お勉強 Colaboratory

高度なチャットボットは無理だけど・・・

　pythonのお勉強としてchatbotを作ってみようと思い立った。いろいろとGoogleって見るといろいろある。ディープラーニングだけでもいろんな手法もあるし、どこから取り付いて良いのかわからない。TensolFlowのSeq2aeqモデルとかいい勉強になりどうだけれども難しそう。実際、そのまんま動かそうとすると環境構築だけで苦労した上にエラーの解決ができなかった。

　マルコフ連鎖であれば、markvify を使うとコードも理解しやすそう。マルコフ連鎖による文章自動生成に挑戦しました。その文章をツイートするところまでできました。

　そこでメモ代わりに書き留めます。