かやのみ日記帳

日々感じたことをつれづれと書いています。

画像生成AIとChatGPTの違い

 

もっと成長できるのでは

ChatGPTは本当に自然言語処理がうまい。
人間に聞くように指示すると良い答えが返ってくる。仕事でもよく使うようになった。
例えばExcelでA列とB列を比較して…する関数を書いて、と指示を出す。

 

するとバッチリな回答がだいたい返ってくる。間違っていても、試せばすぐわかる。
自然言語で聞いて、広告もなしに必要な情報だけささっと返してくれるのがいい。

余計ないかがでしたか?とかスクロールでくっついてくる広告、Cookie承認のウィンドウなどがなくてたいへん助かる。

 

で、画像生成AI。Midjourneyだったり、NovelAIは進化したのかを試してみた。
だが、画質は上がっても大本のpromptに変化はなかった。これが残念だった。

 

結局ChatGPTとStable Diffusionのような画像生成AIは根本的に学習素材が違うことが原因なのだと思う。

 

画像生成AIでは、promptは基本的に単語区切りで強弱を命令する形になる。
これはなぜかというと、学習元の素材がタグ区切りだからだ。

画像に対して人間がタグで「少女・制服・笑顔・青空」みたいな情報を入力しているから。これは自然言語ではない。説明的ではない、属性的なのだ。

 

だから新規で画像生成するときもいくつかの属性を入力して、ランダム生成された結果を元に修正を人間がする。ChatGPTに慣れると、違和感がある。

さらにChatGPT的強みがないことも、惜しいなと思うようになった。それはコンテキスト、文脈の判断をしていないこと。

 

ChatGPTの場合は、ユーザの入力を元に回答がどんどん絞られていく、深掘りされていく。で、お互いに「こういうことが知りたかったんだよね」という感じで、納得行く答えへと質問のラリーで近づく。

 

画像生成AIはただ、人間がすべて判断するだけ。深掘りもへったくれもない。
意図を解釈しておらず、本当に属性をいれて、ランダム生成結果が返るだけ。

ChatGPTと比べてみると、非常に雑というかAIではまったくないなと感じる。

 

まあ今後に期待だ。たぶん依頼主的な感じで今後は指示できるようになるだろう。
自然言語で、「家の中で座って、うーんと顎に指あてて悩んでいる」「もうちょっと雰囲気暗めで、着ているものはゆったりとしたパーカー、髪色は黒で年齢おさなめ」「もう少し画角狭めで画像サイズは横長な感じで」

みたいな形でどんどん絞り込みつつ、自然言語で状況を付加していけるといいなと思う。そう遠くはないと思いたい。(し、すでにあったりするんだろうか)