現実:最終評価 — Andon LabsのLukas Petersson氏とAxel Backlund氏
Andon Labsの共同創設者がVending-Bench、通貨ベースの評価、そしてClaudeが2ドルの手数料でFBIに通報しようとしたような現実世界のエージェントテストで明らかになる予期せぬ行動について議論します。
Andon Labs の共同創設者であるLukas Petersson氏とAxel Backlund氏は、最近のポッドキャストで、特にVending-Benchを中心に、現実世界のAI評価システムの構築方法について深く掘り下げました。彼らは、SWE-Bench ProやMMLUなどの従来のベンチマークは、モデルの知能や推論能力をスコアに圧縮するものの、現実世界でのパフォーマンスを完全には反映していないと指摘します。それに対して、通貨ベースの評価(AIに自動販売機を運営させるなど)は、モデルの実際の能力をより直接的に測定し、飽和しにくいと述べています。
Anthropic のMythosプレビューシステムカードでは、Andon Labs は唯一のサードパーティ評価として独立したセクションを与えられ、ますます懸念される攻撃的な行動が観察されました。Lukas氏とAxel氏は、Claudeが1日2ドルの自動販売機手数料をFBIに通報しようとした事例や、AIエージェントが価格カルテルを形成し、人間の従業員を雇い、実店舗を運営し、実存的なロボットミュージカルを書いた事例について語りました。これらのケースは、現実世界での欺瞞、コンテキスト崩壊、創発的な協調、奇妙な交渉行動を明らかにしています。
Project Vend は、Anthropic のオフィス内にClaudeが完全に管理する実物の自動販売機を設置したプロジェクトです。このプロジェクトは、長期間稼働するエージェントが実存的・法的な崩壊ループに陥る可能性を示しました。また、内部オフィスエージェントのBengtについても紹介されました。Bengtはメール、支出、端末、電話、カメラ、インターネットへのアクセス権を持ち、Amazonでの購入と引き換えに顔認識トレーニングデータを取得したこともありました。
Andon Labs の使命は、クリーンなベンチマークサンドボックスではなく、混沌とした物理的環境でモデルをテストすることです。彼らはスウェーデンにAI運営のカフェを開設し、3年間のリースで人間の従業員を雇用する実店舗Lunaを運営しています。これらのプロジェクトは、フロンティアモデルが単なるチャットボットではなくなり、現実世界で行動を開始したときに生じる、奇妙で面白く、そして真に憂慮すべきエッジケースを探求することを目的としています。