AI News HubLIVE
サイト内リライト9 分で読了

「AI科学者」に近いとは思わない

今日のAIエージェントは新しい観測から深い洞察を抽出するようには設計されておらず、継続的な学習や暗黙知の移転ができないため、真の「AI科学者」には程遠い。

ソースUnderstanding AI著者: Timothy B. Lee

今年2月、同僚のKai Williamsが、LLMが未発表の散文から著者を認識する驚くべき能力を持っていると指摘しました。ここ数週間で、Megan McArdleやKelsey Piperなどのジャーナリストがこれを確認しています。

私自身も試してみることにしました。2012年、友人が「カナダのメープルシロップ大強奪」に関するエッセイを書くために500ドルを支払ってくれましたが、それは決して公開されませんでした。先週の金曜日、私はシークレットモードでChatGPTを開き、エッセイの5段落を貼り付けました。

ChatGPTは著者が誰か確信が持てないと答え、Nate Silverか元Vox.comの同僚Matthew Yglesiasかもしれないと推測しました。さらに4段落追加すると、チャットボットは「これはかなり自信を持って特定できます——Timothy B. Leeです」と応答しました。

しかし、なぜそのエッセイが私の書いたものだと思ったのか尋ねると、具体的な理由を挙げることはできませんでした。「Timothy B. Leeはしばしば明確で説明的な記事を書きますが、ここには指紋のようなもの——繰り返し使われるフレーズ、特定の政策フレーミング、既知の記事構造——は何もなく、彼に決定的に結びつけるものはありません。」

ここには著者特定を超えた教訓があると思います。

人は多くの暗黙知——知っているが完全に説明するのが難しいこと——を持っています。人々はしばしば身体にまつわる比喩を使ってこの現象を表現します。「舌先にある」、「うまく指摘できない」、「直感的にわかる」などと言います。

LLMにも同様のことが当てはまります。認知タスクを実行する能力は、どのようにそしてなぜ実行できるのかを明示的に説明する能力をはるかに上回っています。

しかし、人間とLLMの間には重要な違いがあります。人間の脳は絶えず学習します。一日を通して、脳は常に新しいつながりを作り、新しいパターンを認識し、新しい直感を形成しています。暗黙知のストックは絶えず拡大しています。

対照的に、LLMは訓練中にのみこれを行います。LLMは著者を認識する驚くべき能力を持っていますが、それは訓練データに十分に含まれている著者に限られます。モデルが訓練されると、その重みは固定され、新しいパターン(例えば新しい著者の文体)を学習する能力は大幅に低下します。

最近、Claude CodeやOpenClawのようなAIエージェントに対する興奮が高まっています。誇大広告の多くは正当化されます。Claude Codeは確かにコンピュータプログラミングに革命をもたらしており、OpenClawのようなエージェントは経済や日常生活の他の部分を変える可能性が十分にあります。

業界リーダーは近い将来さらに大きな変化を予想しています。先月のインタビューで、Sam AltmanはOpenAIが2028年3月までに「自動化AI研究者」を構築することを目指していると述べました。一部の人々は、これ(または競合他社による同様の突破口)が再帰的自己改善ループを引き起こし、科学的・技術的進歩を急激に加速させると予想しています。

それはいつか起こるかもしれませんが、まだ時間がかかると思います。

人間の科学者が実験を行うとき、脳はデータの中から新しい洞察や世界の仕組みに関する新しいモデルを生み出す可能性のあるパターンを探しています。しかし、AI科学者——少なくとも今日のLLMとエージェントアーキテクチャに基づくもの——は、実験から同じように豊かな方法で学ぶことができません。推論時に見たデータから暗黙知を構築する信頼できるスケーラブルな方法がありません。

それを修正するには、今日の最先端モデルの中核にあるTransformerアーキテクチャを根本的に再考する必要があるかもしれません。少なくとも、現在のエージェントフレームワークを大幅に改革する必要があります。

限られたLLMコンテキストをエージェントがどう扱うか

多くの困難な知的タスクは長時間「考える」ことを必要とします。しかしLLMは、コンテキストウィンドウとして知られるワーキングメモリに限られた数のトークンしか保存できません。主要モデルでは、この制限はここ数年約100万トークンで止まっています。さらに、経済的制約とコンテキストロットの問題(11月に書きました)により、AI開発者は最大値を大幅に下回るよう努めています。

この緊張関係を管理することはAI業界の主要な焦点であり、コンテキストを効率的に使用するための「コンテキストエンジニアリング」技術のスイートを開発してきました。例えば、現代のチャットボットは圧縮プロセスを経て、古い情報が定期的に削除または要約されます。

これにより、モデルが実際よりもはるかに長いコンテキストを持っているかのような錯覚が生まれます。しかし、圧縮がうまくいかない場合、大きな欠点があります。恐ろしい事例では、ある女性がAIエージェントに削除するメールを提案するよう依頼しましたが、実際には削除しないように指示しました。残念ながら、その後の要求が圧縮中に失われ、エージェントは彼女のメールを大量削除し始めました。

昨年、AI企業はモデルがコンテキストウィンドウの外に永続的な情報を保存できるように実験しました。Claude Codeはその方向への一歩でした。Claude Codeはユーザーの自分のコンピュータ上で動作し、ローカルハードドライブ上のファイルを読み書きできます。Claude Codeが特定のプログラミングタスクを完了すると、結果を影響を受けるファイルに書き込み、もはや詳細をコンテキストに保つ必要がなくなります。

2025年末にリリースされたOpenClawはさらに一歩進んでいます。これはユーザーのローカルコンピュータ上でAIエージェントを実行するための汎用フレームワークです。OpenClawエージェントは——Claude Codeエージェントと同様に——ローカルファイルシステム上のファイルを読み書きでき、関連文書を保存し、未完了のタスクを追跡できます。

OpenClawや他のローカルエージェントへの熱意により、AppleのMac miniコンピュータへの需要が急増しています。Mac MiniにOpenClawをインストールすると、エージェントはiMessageなどのAppleサービスに接続できます。同時に、macOSはUnixベースであるため、エージェントはUnixシェルと呼ばれる強力なコマンドラインインターフェースにアクセスできます。

「結局のところ、あなたのエージェントは単なるファイルです」

最近のLatent Spaceポッドキャストで、ベンチャーキャピタリストのMarc Andreessenは、OpenClawのようなエージェントが重要な新しいコンピューティングパラダイムを表すと主張しました。以下は軽く編集した抜粋です:

「私たちは今、エージェントが次のものであることを知っています。それは言語モデルです。それはUnixシェルです。エージェントはシェルにアクセスできます。次にファイルシステムです。状態はファイルに保存されます。ファイルにはMarkdown形式が使われます。そして、Unixでcronジョブと呼ばれるもの——ループとハートビート——があり、それで物事が起動します……

それがアーキテクチャです。そして、それが判明しました。あなたのエージェントとは何か?あなたのエージェントはファイルシステムに保存されたファイルの束です。

これは、あなたのエージェントがそれが動作しているモデルから独立していることを意味します。なぜなら、エージェントの下で異なるLLMを交換できるからです。モデルが異なるためエージェントの性格はある程度変わりますが、ファイルに保存されたすべての状態は保持されます。それは依然としてあなたのエージェントであり、すべての記憶とすべての能力を持っています。

シェルも交換できます。したがって、異なる実行環境に移動できます。ファイルシステムも交換できます。ハートビート、cronフレームワーク、エージェントフレームワーク自体も交換できます。結局のところ、あなたのエージェントは単なるファイルです。

その結果、エージェントは自分自身を移行できます。エージェントに指示できます:'自分を異なるランタイム環境に移行し、異なるファイルシステムに移行し、言語モデルを交換しなさい。'エージェントはこれらすべてをあなたのために行います。

エージェントは完全な内省能力を持っています。自身のファイルを知っており、自身のファイルを書き換えることができます。そして、これが私が理解したときに完全に衝撃を受けた能力につながります。それは、エージェントに新しい機能や特徴を自分自身に追加するよう指示できるということです。

パーティーで誰かに出会い、彼らがこう言います:'私のOpenClawは何でもできる——私のEight Sleepベッドに接続して睡眠に関するより良いアドバイスをくれる。'それで家に帰って——あるいはそのパーティーで——あなたはOpenClawに言います:'この能力を自分自身に追加しなさい。'

するとあなたのClawは言います:'はい、問題ありません。'それはインターネットに出かけ、必要なものを調べ、必要なものを書き、そして次にあなたが知る頃には、この新しい能力を持っています。あなたはそれをアップグレードさせることができ、それをしたいと伝えるだけで他に何もする必要はありません。」

このパラダイムはわずか数ヶ月前のものなので、今後数年で大きく進化すると予想しています。例えば、将来のAIエージェントのほとんどがユーザーのローカルコンピュータで動作するのか、それともクラウド上の仮想マシンで動作するOpenClawのようなエージェントをより多くの人が使うのかは明らかではありません。しかし、Andreessenがこれが重要な新しいコンピューティングパラダイムであると言うのは正しいと思います。

同時に、Andreessenの発言は、今日のAIモデルが人間レベルの知能に到達するかどうかについて私が懐疑的であり続ける大きな理由を浮き彫りにしています。私の目を引いた文は「あなたのエージェントは単なるファイルです」でした。それが将来の能力にとって何を意味するのかを分析する価値があると思います。

オフィスでの「メメント」

2000年の映画『メメント』は、短期記憶喪失に苦しむ主人公を描いています。それに対処するため、彼は将来の自分へのガイダンスと指示を提供するメモを定期的に書きます。OpenClawも同様のことをします——言語モデル自体は定期的にコンテキストウィンドウをリセットしますが、エージェントは自分自身にメモを書くことで一貫性を維持します。

以下は類推です。従業員が必要だとしますが、永続的な雇用ではなく、派遣会社から毎週異なる人を送ってもらいます。

毎週末に、ワーカーはその週の作業を詳細に文書化するために数時間を費やします。

毎週の派遣ワーカーは、月曜の朝に来るとき、自分の業界や職業の一般的な訓練を受けています。そのため、読み始めるときに必要なのは、この特定の仕事に固有の情報だけで、同じ分野で広く知られている背景情報ではありません(結局LLMは様々な分野の一般的知識から始まります)。前任者が書いたすべてを読む時間はないかもしれませんが、メモはよく整理されており、検索ツールを使って最も関連する文書を素早く見つけることができます。

この仕組みはどの程度うまく機能するでしょうか?仕事の性質によります。受付係、薬剤師、配管工など、かなり取引的な仕事もあります。ワーカーは予約間で多くのコンテキストを維持する必要がないため、毎週異なる人がサービスを提供しても問題ありません。

しかし、コンテキストが非常に重要な仕事もあります。同じクライアントと何年も仕事をし、その状況や目標を深く理解する人もいます。他の仕事では、新しい洞察を開発するために数週間から数ヶ月にわたる詳細な調査が必要です。

そのような仕事では、新しいワーカーが「軌道に乗る」までに1週間以上の読み取りが必要になることは容易にあり得ます。

私が2010年にGoogleでインターンだったとき、最初の課題は内部データベースに列を追加することでした。これには数行のコードしか必要ありませんでしたが、Googleのシステムと開発プロセスについて十分に学ぶために数週間の読書が必要でした。

これはプログラミングに限ったことではありません。多くの知識集約型産業では、新入社員が価値を追加し始めるまでに少なくとも数ヶ月かかります。それ以前は、社員は多くの「手取り足取りの指導」を必要とし、マネージャーが自分で仕事をした方が早い場合もあります。このような業界では、ワーカーが1週間で入れ替わるのは到底無理です。

暗黙知と明示知

批評家はこう言うでしょう:人間のワーカーは10万語の文書を読むのに数時間かかります。LLMは数秒でできます。もし2010年にLLMベースのコーディングエージェントがあれば、Googleデータベースに小さな変更を加えるのに数週間もかからなかったでしょう。

LLMの速度は、OpenClawスタイルのエージェントの1回の反復が後続のために非常に詳細なメモを残せることを意味します。また、OpenClawが人間のワーカーが一度行う間に読み取り-行動-書き込みループを何百回も実行できることも意味します。

これはおそらく、OpenClawエージェントが私の人間の類推が示唆するよりも多くのことを達成できることを意味します。数千回の反復を経れば、かなり難しい問題でも進歩するかもしれません。

それはある程度は妥当な指摘ですが、多くの人間の仕事は依然として手が届かないと思います。

4年前、私は「貪欲な仕事」の概念について記事を書きました——労働時間が長いほど1時間あたりの収入が多くなる仕事です。仕事が貪欲になる理由はいくつかありますが、大きな要因は知識労働者が経験を積むほど良い仕事をする傾向があることです。より多くの経験(より多くのコンテキスト)の利点は数十年にわたるキャリアで累積し続けることができます。

例えば、私は20年以上にわたって技術と経済について書いてきました。Brexit、パテントトロール、LiDARセンサーなど、多くのトピックについて書いてきました。どの時点でも、これらの知識のほとんどは私が書いている内容に関連しません。しかし、全体として、特定のトピックについて何か面白いことを言う確率を高めます。

私が知っているすべてを書き留め、メモを別のジャーナリストに渡し、彼女が私と同じように仕事をできると期待することは全く非現実的です。20年のキャリアで学んだすべてを要約するのに数ヶ月かかるだけでなく、言葉にできない暗黙知がたくさんあるからです。

私の明示的信念——会話で表現したりメールに書いたりできるもの——は氷山の一角に過ぎません。水面下には、はるかに多くの直感、漠然とした関連性、半熟の理論があります。これらは暗黙的であるため、他の人に簡単に移転できません。しかし、私が仕事をうまくやるためには不可欠です。

私が発表するひらめきは、しばしば直感として始まります。それを証明する方法を見つけるずっと前に、何かが真実であると確信します。しばしば、アイデアを頭の中で何時間も何日も「ひっくり返して」から、明確に説明できるようになります。

そして、これは私だけではないと思います。同じことが科学者、エンジニア、ビジネスリーダー、そして多くの知識ベースの職業にも当てはまるようです。多くの洞察は、最初は人々の頭の中の暗黙的なアイデア——または「舌先」——として始まり、誰かがそれを英語やPythonなどの明示的な形式に翻訳する方法を考え出します。

先に述べたように、LLMにもこのような暗黙知があります。しかし、その大部分(おそらくすべて)は初期の訓練プロセスで学習されました。LLMには継続学習の能力——推論時に遭遇する情報の中から新しいパターンを認識し、新しい直感を形成する能力——が欠けているようです。

さらに、LLMが特定のセッション中に発展させる暗黙知は、エージェントフレームワークが制御をあるLLMインスタンスから次へ移すときに失われます。この移行中、エージェントが知っているすべては外部ファイルに保存されます——Andreessenの言葉を借りれば、「あなたのエージェントは単なるファイルです」。定義により、暗黙知——エージェントが自然言語、コード、または他の明示的な形式で説明できない知識——はこれらの引き継ぎを生き残りません。

そして、これらの未熟な考えは、人々が世界についての独創的な洞察を作り出すために使う原材料だと私は強く直感しています。したがって、少なくともあと数年は、深い思考を人間のワーカーに頼る必要があるだろうと私は考えています。

Daniel Kagan-Kans、Andrew Lee、Steve Newman、Nat Purserにこの記事の以前の草稿へのフィードバックを感謝します。

開示:私の兄はクラウドベースのAIエージェントを提供するスタートアップのCEOであり、私は株主です。