AI News HubLIVE
站内改写6 分で読了

Mythosと協働する感覚

著者は、初の一般公開されたMythosクラスのAIモデル「Claude 5 Fable」を早期体験。Fableは等時地図の作成や高度なデータ分析ソフトウェアの開発といった複雑なタスクで、従来モデルを大きく上回る性能を発揮する。ユーザーの役割は積極的な構築者から、結果を委託し評価するパトロンへと変化する。AIは自律的にリサーチ、コーディング、意思決定を行い、ブラックボックス化する。高いトークン消費や過敏なガードレール、透明性の欠如といった制限も存在する。

ソースOne Useful Thing著者: Ethan Mollick

私は、初めて一般公開されたMythosクラスのAIモデル「Claude 5 Fable」を早期に体験する機会を得ました。Mythosに関する議論の多くはソフトウェアセキュリティへの影響に集中していましたが、私はそれ以外のあらゆる側面をテストしました(Fableのガードレールは基本的にサイバーセキュリティへの使用を完全に禁止しています)。私の結論は、これまでのあらゆるモデルをはるかに超える飛躍であり、さらに重要なことに、AIとの関係が劇的に変化していることを示唆しています。

まず、Fableはどの程度優れているのか?私が実施した実験のほぼすべてにおいて、これまで使用した他の公開モデルをかなりの差で上回りました。多様な問題に対応でき、驚くべき結果を生み出しました。例えば、複数ページにわたる仕様書を実行するために12時間以上連続して作業することもありました。すぐに、より複雑で本格的なユースケースをいくつか紹介しますが、あらゆるタスクで全体的な改善が見られました。このことを記事で伝える際の問題点は、最も印象的な結果の多くが読者のごく一部にしか興味を持たれないことです。例えば、たった1つのプロンプトと1回のフィードバックから、これまでAIが生成した中で最も洗練された学術的な社会科学論文を作成しました。また、散髪についての10ページに及ぶ叙事詩的な韻文詩(すべての単語が「s」で始まる)も作成しました。

よりわかりやすく楽しい例として、私が遊べるゲームもいくつか作成させました。これらはすべて、Claude Codeでの最初のプロンプト(Fableが私の曖昧な指示から動作可能なもの生成する)と、その後の数回の追加プロンプト(「もっと良くして」といった軽い励ましやフィードバック)によるものです。特筆すべきは、Claudeは画像を生成できないため、すべてのアートや3Dオブジェクトは外部アセットを使わず、数学だけで作られている点です。以下のゲームを試せます:コイン投げゲーム(プロンプト:「Balatro、ただしコイン投げゲーム」)、自己認識のあるヘビが登場するヘビゲーム、地下深くに何があるかを探検するゲーム。

出力は印象的です。しかし、特に本格的なプロジェクトに取り組むにつれて、このツールを使う感覚は喜ばしいと同時に不安を覚えるものでした。喜ばしいのは、ただ依頼するだけで物事が進むからです。不安なのも、ただ依頼するだけで物事が進むからです。

その理由を理解するには、Fableがどのように作業を進めるかを知ることが役立ちます。そのために、以前の多くのAIモデルでテストした例を挙げましょう:等時地図の作成です。これは一定時間内に移動可能な距離を示す地図で、最初のものは1881年にロンドンからの旅行時間を示すものとして作成されました。以前のモデルはどれも、まともな等時地図を作成できませんでした。なぜなら、何千もの潜在的な旅行距離の調査と、多くの小さな判断や決定が必要だからです。私はFableにClaude Codeを使って次のプロンプトで試してみることにしました:「綿密に調査され、美しい等時地図を作成してほしい。さまざまな都市を選択でき、実際のデータに基づいたリアルな等時線を表示できるように。デザインはユニークに。空港(および空港までの移動時間)、電車、徒歩、車を考慮すること。データはリアルタイムである必要はないが、あなたの調査とデータに基づいて現実的であること。最初はいくつかの都市から始めて構わないが、より一般的な方が良い。これはまったく新しいプロジェクトであること。」すると、AIはオリジナルの地図のスタイルでやることを提案しました。私が同意すると、AIは作業を開始しました。

AIが数時間かけて自律的に構築したセッションの記録を見ると、いくつかの異常な点がわかります。まず、AIは複数の他のAI(主に安価なClaude Sonnet)を起動して旅行時間の調査を支援し、最終的に2200以上の特定フライト、TGVから新幹線までの鉄道時刻表、複数の学術論文から各国の道路速度を取得しました。それらのエージェントが実行されている間、AIはコードを書き始めました。さらに多くのエージェントとテストを起動してコードを検証し、その間ずっと進捗状況を記録していました。

結果は、1881年のオリジナルによく似た、印象的な洗練度を備えた完全に機能する地図でした。しかし、完璧というわけではありません。私は多くの遠隔地(グリーンランドなど)が単なる推定値であり、正確な数値ではないことに気づき、Fableに修正を指示しました。今度はAIがワークフローを起動しました。つまり、調査を行い互いの結果をテストする敵対的なエージェントグループです。太平洋のピトケアン島への船舶の頻度や、オタワからグライス・フィヨルドへの行き方などを調べ上げました。そして、非常に短時間に膨大なトークンを消費しました(これについては後述)。

結果は印象的でした。私はさらに数回、興味のある方向にプッシュしました(他の可視化手法の要求など)。数分間かけて結果をクリックして見て回ることをお勧めします。グラフの下部にはその方法と出典が記載されています。

このプロジェクトは、旅行と地図が本当に好きな人以外には役に立たないかもしれませんが、AIが研究、数学、ビジュアル開発、センス、判断、複雑なコーディングなどを含む困難な問題を解決していることを示しています。そして不安なのは、私がほとんど何もしなかったことです。私は非常に野心的な指示を出し、AIがそれに従いました。私はいくつかの小さなフィードバックを与え、AIはそれを解決しました。私の役割は極めて限定的でした。

重要なのは、モデルに比べて私の作業量が限られていただけでなく、モデルがどのように物事を行うか、なぜ特定のアプローチを選んだか、結果の詳細度に至るまで、私のコントロールが限られていたことです。AIの意思決定の詳細は私には示されず、そのプロセスは長すぎて追う価値もありません。地図はAIが何百もの小さな選択について判断することを必要とし、AIはそれらを判断しました。私が選択を理解したり意見を述べる機会はありませんでした。多くの点で、これは奇跡的です(最終的に編集を依頼することは常にできます)が、その一方で、AIを究極のブラックボックスに変えてしまいます。

Fableから得た最も野心的なプロジェクトは、もう少し説明が必要です。私は人間が乱雑な回答を生成する研究を多く行っており、分析を行うにはそれらの回答を適切に分類する必要があります。アイデアの革新性は?なぜ人々はこの本を好きなのか?これを解明するために、私たちは人間の研究者に情報を判断させ、その回答を他の回答と統計的に比較してデータの信頼性を判断してきました。最近の研究では、AIがこの重要な作業を実行できる可能性が示されていますが、AIと人間の判断を較正することは困難で費用がかかります。そこで私はFableに問題を解決するよう依頼しました。まず19ページの複雑な設計ドキュメントを生成し、次にそれを実行しました。

AIは9時間半にわたって作業しました。

結果は、AIがConcordと名付けた極めて洗練されたソフトウェアで、複数のデータセットを取り込み、人間とAIの応答を較正し、結果に対して複雑なデータ分析を実行できました。繰り返しますが、完璧ではありませんでした。専門家として、いくつかのエラーや欠落(私が依頼した設計に起因するものも含む)を発見し、AIに修正させました。しかし、このプロジェクトや他の多くのプロジェクトにおける成果の範囲は、私がこれまで見たものを超えていました。この場合、それは研究者が長年必要としていたが、収益化が難しかったソフトウェアです。あなたは今すぐここのコードを使用または修正できます。完璧ではないと確信しています(私は結果を扱うのに1時間しか費やしていません)が、ソフトウェアエンジニアは私がすぐに見つけられなかった残りの潜在的なバグを修正するでしょう(これこそが、ソフトウェアの新たな用途の爆発を支援するために、将来より多くのプログラマーが必要となる理由の一つです)。

この力は、奇妙さと限界と表裏一体です。限界の一つはトークンの使用量です。FableはOpusの2倍のコストで、トークンの消費速度は生産コストが「非常に高い」ことを示唆していますが、安価なモデルへの巧妙な委任により実際の価格は大幅に下がる可能性があります。Fableのガードレールは、セキュリティ問題のわずかな兆候でも作動し、能力の低いClaude 4.8 Opusにフォールバックします。その頻度は高すぎます。そして、ギザギザのフロンティアは依然として存在します。例えば、AIは相変わらず奇妙なスタイルで文章を書きます(実際、Fableが生成するソフトウェアにはClaudeの癖の痕跡があります。進捗レポートも同様で、「重荷を背負う」「答えを得る」といった表現が使われます)。しかし、より深い奇妙さは、私がほとんど何もする必要がなく、作業中にほとんど何も見えないことです。

昨年、私はこれを「魔法使いと協働する」と呼びました。呪文を唱えると何かが起こる。Fableでは呪文が非常に強力になり、自分が魔法使いであるかどうか確信が持てなくなりました。私はむしろパトロンに近いです。欲しいものを説明し、対価を払い、結果を評価します。魔法は私が見ることのできない場所で、私が投票権を持たない何百もの小さな選択の中で行われます。作業はプロセスから成果へと移行しました。私はもはや舵を取りません。私は委託します。

この脇役化は一時的なもので、インターフェースが追いついていないだけかもしれず、将来的にこれらのモデルが何をしているかをよりよく理解し、途中でより適切に導くための窓が得られるかもしれません。あるいは、その逆もあり得ます。モデルが高性能になるほど、人間が意味のある作業をする余地が減り、ブラックボックスが力の代償になるということです。私は後者の方が本当の方向性である可能性が高いと考えています。これは明らかな意味でのコントロールの喪失ではありません。私は依然としてFableを導くことができ、指示に驚くほどよく従います。指示が野心的であればあるほど、結果は良くなります。しかし、導くことはもはや実行することと同じではありません。私はモデルに指示を出し、モデルは独自のエージェントを起動して調査、執筆、相互チェックを行い、完成品が返ってきます。パトロンは一人のアーティストに依頼します。Fableはむしろスタジオ全体に近く、私は最終作品に承認を与えるクライアントであり、現場に足を踏み入れることは決してありません。