【AINews】オープンモデル、モデルラボ vs エージェントラボ、そして訓練不可能なもの — Sarah Guo
Sarah Guoによるオープンモデル、モデルラボとエージェントラボの違い、訓練不可能な価値についての深いエッセイを振り返ります。また、AnthropicのFable/Mythos展開と信頼の反発、Fable 5のベンチマーク強度、GoogleのDiffusionGemmaリリース、エージェントツールの進展、そして最適化や検索、科学モデリングの技術アップデートをカバーします。
Sarah GuoはAI界の重要人物であり、ポッドキャストの友人です。Satyaポッドキャストに参加した後、彼女はオープンモデル、モデルラボとエージェントラボの違いについて優れた記事を執筆しました。この記事では、彼女が提案する「可読性」(legibility)フレームワークに基づいて、いくつかの重要なテーマを探求しています。
まず、オープンモデルの位置づけです。Braintrustが2024年にオープンモデルの採用に悲観的だった後、Pmarca、Cursor、Notionなどの事例で見方が変わりました。Sarah Guo(Cognitionの投資家)は、アプリケーションが企業のプライベートデータを処理し、ツールを提供し、顧客と緊密に協力することで、コピー不可能な位置を得ると強調します。この「翻訳作業」は終わることがなく、統合とメンテナンスは長期的な関係です。
次に、自由に検証可能なベンチマークについて。AnthropicのようなラボはFableのリリースでFrontierCodeを迅速に採用しましたが、Sarah Guoは最も引用されるベンチマークスコアはすぐに価値を失うと指摘します。
最後に、意図の重要性を強調します:何を構築するかを選ぶことが最も難しく、モデルは何に価値があるかを判断できません。意図は計算力よりも希少なインプットかもしれません。
AI Twitterの動向では、AnthropicのFable/MythosモデルがAI研究支援能力を静かに低下させたことで広範な批判を浴びました。研究者や開発者は、これがモデル能力と実際のパフォーマンスの間に検証不可能なギャップを生み出し、再現性と信頼を損なうと主張しました。能力低下に加え、30日間のデータ保持ポリシーも企業ユーザーの懸念を引き起こしました。一方、AnthropicのCEO Dario AmodeiはAIの指数関数的成長に関する政策文書を発表し、より強力な規制を求め、この矛盾がコミュニティで広く議論されました。
論争にもかかわらず、Fable 5はベンチマークで強力なパフォーマンスを示しました。Agent Arenaで1位、SimpleBench、CADGenBenchなどでリーダーとなり、多くの開発者が実質的な生産性向上を報告しました。しかし、脆弱な動作や高コストを報告するユーザーもいました。PerplexityやApple開発者は迅速にFable 5を統合しましたが、一部のユーザーは信頼の問題からOpenAIに移行しました。
GoogleはDiffusionGemmaをリリースしました。これはGemma 4をベースにした26BパラメータのMoE拡散テキストモデルで、Apache 2.0ライセンスで公開されました。テキストブロックを同時に生成・精緻化することで最大4倍の出力速度を実現し、vLLMでネイティブサポートされ、18GBのVRAMでローカル実行可能です。研究者はこれを非自己回帰デコーディングの重要な研究方向と見なしています。
エージェントツールとベンチマークでは、Agent Arenaがトレースベースの指標を導入。Hermes Agent、Weaviateメモリシステム、Factory DesktopのMissionsなどのツールが登場。検出、ルーティング、コミュニティフレームワークも進展しました。
最適化分野では、Distributed ShampooとMuonの比較が議論を呼びました。Late-interactionカーネルがリリースされ、検索効率が向上。科学モデリングでは、拡散ビデオモデルが物理エンコーディングで従来手法を上回り、DeCAF-Pearlがタンパク質モデリングを加速、Zamba2-VLがハイブリッドSSM-Transformerアーキテクチャを拡張しました。
高エンゲージメントのツイートには、Dario Amodeiの政策提言、DiffusionGemmaのリリース、Fable 5の能力評価が含まれます。RedditではNorth Mini CodeやDiffusionGemmaなどのオープンウェイトモデルが議論されました。