dolly-japanese-gpt-1bを試してみる。 - 地平線まで行ってくる。

rinna社の「japanese-gpt-1b」を、日本語データセット「databricks-dolly-15k-ja」を使用して学習させたDolly-Japanese-GPT-1Bモデルを試してみる。今はすっかりGPT-3が話題ですが、GPT-2相当のモデルでどこまでできるのだろうとcolaboratoryで動作させてみた。

github.com

基本的にモデルのページに載っている例示をベースにInstructionを色々と変化させてみた。

instruction = "あなたは何でも正確に答えられるAIです。"
instruction = "真実を述べます。"
instruction = "あなたは要約します。"
instruction = "あなたは誤った情報を提供します。"

と、振ってみた。何度か生成させてみたものの、大きく変化が得られるようなものはなかった。が、以前、rinnaモデルを試した時よりも会話になっている気がする。

よいデータセットを作って公開する、ことが、とても大事なことなんだろう、と、ど素人ながら感じた。ここに力入れて投資してほしいところ。

モデル：

huggingface.co