地平線まで行ってくる。

記録あるいは忘備録。時には検討事項。

2022-05-01から1ヶ月間の記事一覧

りんなにシャーロックホームズを教える

青空文庫からデータをダウンロードして加工できた。さっそく、コナンドイル作品から「」内の会話文を抽出して学習用データをしました。具体的な手法は、過去記事参照。 bwgift.hatenadiary.jp 使ったりんなモデルはスモールモデル。例によってColabを使いま…

青空文庫から自然言語処理用データをダウンロード その2

以前、青空文庫から自然言語処理用データをGoogle Colabでダウンロードして整形するようにしたが、挿絵がzipに同梱してあるとエラーになるのに(いまさら)気が付いた。bugfixして、ついでに、セリフだけを取り出すことにした。 これで、〇〇風にrinnaをfine…

読書、Web閲覧用タブレット・・・。

片手て持てる読書・Web閲覧・時々動画端末。古い7inchタブレットの更新をしたいと思いつつ、ずるずると使っている。AmazonのFire7が発売されたので、比較してみる。 値段優先だったら、Fire7一択。だが、TwitterやWebを見るには4GでもいいのでSIMを入れて使…

青空文庫から自然言語処理用データをダウンロード

青空文庫の中から自然言語処理用データを入手する。青空文庫は、定番の題材のようだ。意外と読んだことのない本が多いことに気が付きつつ、青空文庫に感謝しつつ、題材とさせていただきました。注意点は、掲載しているすべてのデータが著作権が切れたもので…

りんな、日本語GPT-2モデルとガンダムで遊んでみた#02

「Colaboratoryを使ってRinnaで遊んでみた」のコード。 以下のサイトを参考にさせていただきました。 note.com ファインチューニング編 rinna_de_asobu/Rinna_fineTuring_G_try.ipynb at main · chottokun/rinna_de_asobu · GitHub ※学習データは別途準備要…

りんな、日本語GPT-2モデルとガンダムで遊んでみた#01

rinna社が公開したGPT言語モデル。なんだか楽しそうなので、ファインチューニングにチャレンジした。お勉強なので、お手軽にできる範囲。モデルをサイズの小さいsmallを選択し、実行環境は参考にしたサイトを見ながらColabで構築。題材は「逆襲のシャア」の…