ChatGPTの仕組みをざっくり聞く
ChatGPT Plusに入ったので、ChatGPT使い方を聞いてみることにした。
ChatGPTの回答は丁寧だが、「回答の真偽は自分で判断して」を毎度言うので長い。
なので適宜カットしつつ、自分が理解した内容を書く。
Q. 提案や悩みに対してChatGPTは別解などを出せるか?
A. 出せるかもしれないが、有効かどうかはあなたが判断すべき。
Q. ChatGPTは推論が得意?それとも論理的な操作が得意?
A. そもそも人間の理解・推論とは異なる。
データからパターンを学び、それに基づいて回答する。
深い意味での推論・複雑な論理思考は持っていない。
Q. ChatGPTの回答は何%くらいの確度で反応しているのか
A. 人間の推測や確信とは違う概念。
推測した回答が訓練データ内のパターンに合致したかという統計的尺度でしかない。
Q. ここまでの質問は的確だったか評価できるか
A. 非常に明確で有意義。
具体的な疑問点を明示し、質問の範囲と深さを適切に調整している。
Q. なぜ的確か判断できたのか
データセットの中に的確な指示について学習済みで、
私の指示が学習済みデータと比べてどれだけ近いかを判定して評価するのか
A.部分的に正しい。ある程度、学習データを元に評価はできる。
Q. ChatGPTは自分の内部で学習した内容に対してさらに学習を重ねることはあるか
例えば文学作品を学習後に、サマリーや考察を内部で行うか?
それとも別な学習ソースをもとにサマリーや考察を返答するのか
A. 特定テキストを深く理解したり、データの意味を自己学習したりはしない。
訓練データから学んだパターンを利用して背景情報などを生成する。
質問があった時点で、訓練データから学んだパターンを使って回答する。
Q. 文学作品のサマリーを生成する関数のようなものを内部で持っているということか
A.要約するための特殊な内部関数を持っているわけではない。
ChatGPTは訓練データ中のあらゆるテキストから、要約するためにはどういう言葉を選び、文章を構成すべきかというパターンを学んでいる。
例えば「主要な出来事を列挙する」「物語の中心的なテーマを強調する」など。
Q. 訓練データとして入力と出力が与えられ、
それを学んでパターン化することで他に応用が効くということか。
だとすると訓練データは多種多様な問いと答えが必要では
A. その通り。
訓練データに含まれない種類の問いや特定文脈に特化した問いは不完全なものになる。
Q. 情報を無秩序にChatGPTに与えてもパターンを学ばないと意味がないということか
A. その通り。多様でバランスがとれた訓練データセットが必要。
データセットからパターンを学び、新たな問いに対する回答を生成する。
これは「理解」ではなく、訓練データから学んだパターンの再現。
AIは与えられたデータ、プロンプトを本質的に理解していない。
Q. 多様な問いを用意し、回答を作成するのは、今現在は人間の手によるものか
A. 自動化も進められているが、基本は人間が構造データを作成するのが一般的。
自動生成は限界があり、偏りやバイアスを排除するには人間が必要。
人間が持つ独自の視点や知識・経験を完全に再現するのは難しい。
Q. AI自身が問いと答えを自動生成し、推論などができれば自己進化できる気がするが、誤りの指摘や学習データの信頼性チェックができない限り、偏ったデータを学習しつづける危険性があるわけか
A. その通り。信頼度チェックや誤った情報を学び続けるリスクはある。
それに加え、自己進化の過程で人間が理解できない挙動を示す可能性がある。
これはブラックボックス問題と呼ばれ、AIの透明性を損なう。
Q. 現在のAIは巨大な知識データベースを持っているが、質問にパターンで回答するだけ。
知性を持っていない、自己判断しないものと考えられるか
A. ChatGPTのようなAIはある意味「知性を持つ」とは異なる形で知識を操作する。
AIは「理解」「判断」をするというよりは学習パターンを適切に再現して回答する。
AIの行動は完全にその設計と訓練データによって制約されている。
質問に対してパターンを返すだけであり、自身で意図を持つことはない。
Q. 実はChatGPTに感じる賢さとは、学習セットの問いかけと回答が優秀かに依存するか
A. その通り。学習データの質と多様性に大きく影響を受ける。
AIは学習したデータのパターンを再現するだけ。深い意味や含蓄を理解はしていない。
Q. 学習データに重み付けは行われているか、数学の定数などは信用すべきだが、個人ブログなどは信用しないなど
A. やっていない。ただ学習プロセスで広く受け入れられていることは頻繁に出る。その頻繁さがモデルの振る舞いに大きな影響を及ぼす傾向がある。
Q. 正確かつ信頼できる学習をさせるためには嘘の情報よりも多く正確な情報を与えるべきということか、それはある意味で重み付けでは?
A. その通り。
感想
回答結果が有効かどうかはAIが判断すべきことではなく、人間が期待結果になったかで判断すべきという一貫したポリシーが強かった。これはたぶん後半で学んだ、学習データを大量に与えた結果なのではと思う。もしくはChatGPTの本来の出力に「警告」システムとして回答に加えているような気もする。
AIは入力に対してパターンを適用して回答しているだけ。
なのでパターンを学習してない限り、まともな回答にはならない。
データだけ学んでも意味がなく、実は学習データによるパターンが重要なのではないかというのも面白かった。
だから質問を丸投げして聞いても意味がない。なにかのパターンと相似であるかとか、似たようなタスクとして処理できるかを考えたほうがよいのだろう。
なんだろう、新しいものを生み出す装置ではなさそうだ。
類似パターンに基づいて処理してくれる装置というべきか。
AIに自己学習させたり、ChatGPTの質問と回答をそのまま学習させると偏見に満ちたやばいAIが生まれる可能性がある。
ChatGPTはOpenAI社が開発し、Microsoftが出資をしている。
Bingという検索エンジンにChatGPTを組み込み話題になっている。
その一昔前にはユーザとの質問・回答を学んでいたわけだが見事に汚染された。
そう考えると、ChatGPTの内容は学習に使われない、今現在のデータを学習に使わないなどのポリシーは、Tayの反省が活かされているような気がする。