地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

自然言語処理

文章要約に挑戦

文章要約にチャレンジ。 Pysummarizationを使うと簡単にできそうなので、採用。 pypi.org 基本的には、こちらのページを見ながら試していけば、よいのだが、要約モデルをいくつか試せるのが楽しい。 github.com 普通にやっても面白くないので、長文を無理や…

勝手に三国志。GPT2で遊ぶ。

GPT2を使って、文章の生成にチャレンジをしています。 bwgift.hatenadiary.jp なんか、いまいちだった。そこで、試行錯誤して、rinnaのmiddleサイズの学習データをベースに、吉川英治の三国志を学習してみた。 github.com その結果できた文章。読める文章が…

りんなで会話を構成してみる

引き続き遊んでみた。 bwgift.hatenadiary.jp りんなのsmallモデルからmediumモデルを使ってファインチューニング。プロンプトテキストは生成テキストを加えて行き、行数が増えてきたら、直近の適当な行数をベースとした。(この例だと、最初に20行まで生成…

りんなにシャーロックホームズを教える

青空文庫からデータをダウンロードして加工できた。さっそく、コナンドイル作品から「」内の会話文を抽出して学習用データをしました。具体的な手法は、過去記事参照。 bwgift.hatenadiary.jp 使ったりんなモデルはスモールモデル。例によってColabを使いま…

青空文庫から自然言語処理用データをダウンロード その2

以前、青空文庫から自然言語処理用データをGoogle Colabでダウンロードして整形するようにしたが、挿絵がzipに同梱してあるとエラーになるのに(いまさら)気が付いた。bugfixして、ついでに、セリフだけを取り出すことにした。 これで、〇〇風にrinnaをfine…

青空文庫から自然言語処理用データをダウンロード

青空文庫の中から自然言語処理用データを入手する。青空文庫は、定番の題材のようだ。意外と読んだことのない本が多いことに気が付きつつ、青空文庫に感謝しつつ、題材とさせていただきました。注意点は、掲載しているすべてのデータが著作権が切れたもので…

りんな、日本語GPT-2モデルとガンダムで遊んでみた#02

「Colaboratoryを使ってRinnaで遊んでみた」のコード。 以下のサイトを参考にさせていただきました。 note.com ファインチューニング編 rinna_de_asobu/Rinna_fineTuring_G_try.ipynb at main · chottokun/rinna_de_asobu · GitHub ※学習データは別途準備要…

りんな、日本語GPT-2モデルとガンダムで遊んでみた#01

rinna社が公開したGPT言語モデル。なんだか楽しそうなので、ファインチューニングにチャレンジした。お勉強なので、お手軽にできる範囲。モデルをサイズの小さいsmallを選択し、実行環境は参考にしたサイトを見ながらColabで構築。題材は「逆襲のシャア」の…

Metabaseを使ってみる。

データの分析ツールを探していた。分析したものを再利用したり、他人と共有したりしたいからだ。気になるところを追加で可視化したりしつつ、ダッシュボード化しておけば、情報の共有化も簡単だ。 導入が簡単なMetabaseがいいかも・・・と思って挑戦。 www.m…

自然言語解析。Janomeで巨大辞書を使う。

日本語解析のときに欠かせないpythonの道具、Janome。たまに、巨大辞書を使いたくなる時がある。そこで、検索しながら調べてみたけれども、ビルドしなおすのが現実的だった。環境のことも考えなくてすむので、colaboratoryで挑戦。 たぶん、出来た気が。 git…

文書を俯瞰 #6

自然言語解析。科研費データから説明文を形態素解析を実施して、俯瞰データをプロット。ドットと密度をカーネル密度マップで描画。なんか、それらしくなった。 ・ついでにそれぞれの年の重心位置もプロット。 ・科研費の番号は適当に間引いて表示。 ・インタ…

文書を俯瞰 #3

自然言語処理。文書を適当に俯瞰できるといいなと始めてみた。 前処理は見えてきたので、どうやって特徴量を出すのか。調べてみると、Doc2VecやTF-IDFあたりが割と枯れた技術のようなので、どちらかにする。情報が沢山あったほうが勉強しやすい。あまり古い…

文書を俯瞰 #0

自然言語処理を調べている。人工知能搭載ボット・・・となるといきなり壁が高すぎる気がする。そこで、大量の文章をざっと眺める方法から取り掛かる。 特許で何やら、地図っぽい絵を描かせてどこが特許のポイントかを図示する方法があるらしい。パテント・ラ…