チューリング賞受賞者リチャード・サットン氏、純粋な生成AIは本当の科学ができないと主張
チューリング賞受賞者のリチャード・サットン氏は、一般的な生成AIは自身の出力を評価できないため、真の科学的発見には不十分だと指摘。AlphaGoのように評価ループを持つシステムのみが真の創造性を発揮できるとし、継続的に学習し評価するAIの必要性を訴える。
チューリング賞受賞者のリチャード・サットン氏は、通常の生成AIには科学的発見に不可欠な能力、すなわち自身の結果を評価し発展させる能力が欠けていると主張する。
大規模言語モデル、画像生成器、動画モデルは膨大な事例から学習し、それに似た出力を生成する。サットン氏によれば、これらの出力が優れている場合、それは通常、学習元のテキスト、画像、データによるものである。出力が真に斬新な場合、それは学習素材を超えている。事実に関するクエリでは、これは「幻覚」と呼ばれる。
サットン氏は古い研究者のジョークを使って批判を説明する:「この研究は斬新で優れている。残念ながら、優れた部分は斬新ではなく、斬新な部分は優れていない。」この診断は今日の生成AIの大部分に当てはまるとサットン氏は言う。有用なものを模倣したり、ランダムに新しいものを生成したりすることはできても、どの新しいアイデアが実際に優れているかを自ら判断することはできない。
サットン氏は、生成AIが要約、研究、アシスタント、エンターテイメントに役立つことを否定しない。斬新さはしばしば目的ですらない。要約は新しい事実を発明すべきではなく、研究は余計な主張を忍び込ませるべきではない。「生成AIは、模倣するだけでも、模倣対象よりも高速、安価、小型、カスタマイズ可能、複製可能であれば、非常に有用であり得る」とサットン氏は言う。
科学には模倣では不十分
サットン氏の見解では、この境界は科学全般にとって最も重要であり、既知の知識を再現するのではなく、新しいことを発見し、テストし、永続的な知識に変えることが目的である。
サットン氏は真の発見を3段階のプロセスと説明する:変異、評価、選択的保持。システムは異なる選択肢を生成し、テストし、有効なアプローチを保持し続けなければならない。この原則は進化、科学的方法、計画、探索、強化学習に存在するとサットン氏は言う。
純粋な生成AIに最も欠けているのは評価である。言語モデルや画像モデルは異なるバリアントを生成する。しかし、テストがなければ最良の選択はなく、発見もない。「斬新さは一瞬現れるが、その価値が認識されなければ、消え去り失われる」とサットン氏は言う。
評価は人間から得られる場合もある。例えば、ユーザーが複数のAI生成画像から最良のものを選ぶ。また、明確な目標からも得られる:チェックメイト、形式的に有効な証明、プログラムの成功実行、シミュレーション環境での高い報酬など。そのようなフィードバックだけが、単なる生成を探索と発見のプロセスに変える。
AlphaGo、AlphaFold、Claude Codeが示す違い
サットン氏は、純粋な生成AIを超えたいくつかのシステムはすでに「真の創造性と真の発見が可能」であると述べている。例として、有名な第37手を打ったAlphaGo、独自のチェススタイルを持つAlphaZero、タンパク質構造予測のAlphaFold、数学のAlphaProof、プログラミングのClaude Code、シミュレーションレースのGT-Sophyを挙げている。
これらのシステムに共通するのは、純粋なテキストや画像生成を超えた評価ループである。囲碁の一手は勝率を上げるかどうか、数学のステップは形式的に検証できるかどうか、コードはテストに合格するかどうか。これにより、より良い解を選択し追求することが可能になる。
「これらのシステムはすべて、真の創造性と真の発見を可能にする追加機能を備えている」とサットン氏は言う。
サットン氏の批判は、実行時に自身の出力を評価しない「通常の」生成AIを明確に標的にしている。検索、検証器、ツール、強化学習、形式的検証器で拡張された言語モデルは、真の発見システムの一部になり得る。しかし、その構造がプログラミング、ゲーム、明確にテスト可能なタスクを超えてどこまで拡張できるかは、未解決の疑問である。
サットン氏はニューラルネットワークの訓練方法にも別の問題を見ている。標準的なネットワークはランダムな設定から始まり、データから学習する。その初期のランダム性は変異の源だが、それは主に初期に発生する。時間とともに、内部構造が硬直化し、モデルは学習能力を失う可能性がある。
真に学習するシステムは、一度だけ訓練されるべきではないとサットン氏は主張する。新しい可能性を試し、有効なものを保持し、無効なものを捨てるために、構造を継続的に更新する必要がある。彼の目標は、AIが長期間にわたって変異、評価、選択的保持を自律的に管理することである。「創造性と発見を完全に自動化しよう!」と彼は言う。
サットン氏は以前からAI業界の方向性を批判しており、「道を誤った」と述べている。彼は、訓練中に膨大な知識を吸収するが、時間とともに自身の経験から学習しない、ますます大きな言語モデルへの過度の集中に反対している。代わりに、サットン氏は環境と継続的に対話し、そこから学習し、内部の世界モデルを構築し、新しい戦略を計画するAIエージェントを求めている。メタ学習も彼のビジョンの一部であり、システムは個々のタスクを模倣するだけでなく、より良く学習する方法を学ぶべきである。
彼のOakアーキテクチャでは、サットン氏は強力なAIシステムへの可能な道筋を示している。中心的な考えは、エージェントは専門知識を組み込まずにスタートし、環境内で行動し、フィードバックを得て、時間とともにより抽象的な概念を形成するというものである。有用な概念は次の学習段階の基盤となる。
このための大きな未解決の前提条件は、信頼できる継続学習であるとサットン氏は言う。今日のニューラルネットワークは、古い知識を上書きしたり適応能力を失ったりすることなく、新しい知識を吸収するのにしばしば苦労している。