かやのみ日記帳

日々感じたことをつれづれと書いています。

Midjourneyの画像指定プロンプトの使い方、特徴など

 

Midjourneyには参考画像を入力することができる。AIが参考画像に似せて出力してくれる。だが、微妙に使い方がわかりづらい。Midjourneyのマニュアルを見てもいまいちだ。ここでハマったポイント、癖についてメモしておく。

 

Midjouneyのマニュアルはこちら。

midjourney.gitbook.io

 

簡単に言うとインターネットからアクセスできるURLを /imagine コマンドの直後に入れれば問題ない。png または jpg で終了しているURLじゃないとだめ。余計な?width=256&height=449 のような画像の幅(width)高さ(height)のような情報を付与してはいけない。

 

そして一番大事なポイント。ここに一番ハマったのだが…

画像はデフォルトで0.25の重みしか考慮されない。25%分だ。
言語部分が75%で考慮される。つまり文字情報が強い場合、画像の誘導は成功しない。

 

なんどやっても画像を考慮してくれない…その場合は --iw 1 を指定するといい。
Image Weight、画像の重みオプションを 最後に付け加えるといい。 --iw 5 とかも指定できるが、強すぎるので注意。 2くらいでもちょうどいいかもしれない。

(ちゃんと見るとマニュアルの最下部に --iw 0.75, 1, 2, 5 の例があるのだが…)

単にURL指定すればいけるやろ!と思ってはいけないということだ。

 

画像についてはインターネットにアップロードしてもいいのだが、有料でサブスクしている人はもっと簡単に利用できる。MidjourneyのDMに対して画像をアップロードすればいい。Discordで貼った画像を右クリックでURLを抜き出すことができ、これをMidjourneyは受け入れられるようだ。

 

で、ためしてみたのがこちら。

このQRコードには
"これはなんのいみもないテキストです" と入っている
安心してほしい

これをもとに --iw で指定して様子を見ていく。 言語は picture on the wall 固定。
たぶん壁にかかった画像がでてくるだろう。

ではまず最初、デフォルト --iw 0.25状態から。

左上がなんとなくわかってる感ある

まあ理解できているとはいいずらい。適当に描いてて、ほんとに参考画像の意味ある?って感じだ。

では次。 --iw 1をやってみよう。

うーん、まだ駄目かもね

とりあえず黒い額縁だということは理解しているらしいが、全然ダメといえばダメ。
続けていこう。 --iw 2だ。

あー。白黒と点々という理解をし始めたらしい。

AIはQRコードを学習していないのか、もしくは学習するとまずい、アートっぽくないなどの理由で実は避けているのではないか説がでてきた。まあ確かにAIの自動生成でQRコードがでてきたらぎょっとする。

そうすると、QRコードを絵として解釈して点々、ぼやけ、黒縁…そういう解釈をして頑張って描いていると言えるかもしれない。面白い。

 

じゃあ次にいこう。--iw 3だ。

 

解釈できなくなったらしい。文字情報が欠損してきたか。

うーん。どうも画像の重みが強すぎて絵であることがわからなくなってきた。
文字情報を塗りつぶしてしまったのかもしれない。ただ右上はちょっと面白い。一部がなんらかの模様に見えなくもない。木の木目に似ているとAIは判断したんだろうか。こういう解釈の跡を見るのも結構おもしろい。

 

OKどんどんいこう。 --iw 4だ。実験はいっぱいやるから楽しい。結果が見えていてもね。

もう全体的に抽象的になってきた

あー。右下とかはわからんでもない。右上も雰囲気がある。解釈限界だろう。

ラストいこう。 --iw 5だ。

逆に特徴が出ている気もする

なるほど、額縁の直線部分をたくさんいれて四角形の集合を示そうとしているのではないか。あー。なかなかおもしろい。人間の無茶振りを頑張ってAIが解釈しているような気分になってくる。なるほど。

 

というわけで、ネットで画像をもとに誘導しているという記事を見かけるのだが、実際にどのようにやっているか、重み付けによる影響の記事がないと思ったので書いてみた。

雑感としてはやはり言語が強い。言葉でなるべく補足して誘導するのが基本的な使い方っぽい。一応画像も使えるがおおまかな誘導にとどまりそうだ。単語1個か2個分くらいの威力か。

全体の雰囲気、おおまかな構図の指定程度にしか使えなさそうだ。というのも画像の重みが強すぎると今度は言葉の誘導から外れて全然違うものを生成してしまう。さじかげんには魔術的な勘が必要なのかもしれない。