2026-06-11站内改写2 分で読了更新: 2026-06-12

【AINews】オープンモデル、モデルラボ vs エージェントラボ、そして訓練不可能なもの — Sarah Guo

Sarah Guoによるオープンモデル、モデルラボとエージェントラボの違い、訓練不可能な価値についての深いエッセイを振り返ります。また、AnthropicのFable/Mythos展開と信頼の反発、Fable 5のベンチマーク強度、GoogleのDiffusionGemmaリリース、エージェントツールの進展、そして最適化や検索、科学モデリングの技術アップデートをカバーします。

ソースLatent Space

記事インテリジェンス

エンジニア中級

要点

Sarah Guoは「可読性」に基づくフレームワークでオープンモデルの位置づけとモデルラボとエージェントラボの差異を説明。
AnthropicのFable/MythosはAI研究能力を静かに低下させたことで信頼を損なう反発を招いた。
Fable 5はベンチマークで強力だが、信頼と製品制約が採用に影響。
Googleが拡散型LLMのDiffusionGemmaを公開、推論速度で大きな進歩。

重要な理由

このニュースが重要なのは、Sarah Guoは「可読性」に基づくフレームワークでオープンモデルの位置づけとモデルラボとエージェントラボの差異を説明ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Sarah GuoはAI界の重要人物であり、ポッドキャストの友人です。Satyaポッドキャストに参加した後、彼女はオープンモデル、モデルラボとエージェントラボの違いについて優れた記事を執筆しました。この記事では、彼女が提案する「可読性」（legibility）フレームワークに基づいて、いくつかの重要なテーマを探求しています。

まず、オープンモデルの位置づけです。Braintrustが2024年にオープンモデルの採用に悲観的だった後、Pmarca、Cursor、Notionなどの事例で見方が変わりました。Sarah Guo（Cognitionの投資家）は、アプリケーションが企業のプライベートデータを処理し、ツールを提供し、顧客と緊密に協力することで、コピー不可能な位置を得ると強調します。この「翻訳作業」は終わることがなく、統合とメンテナンスは長期的な関係です。

次に、自由に検証可能なベンチマークについて。AnthropicのようなラボはFableのリリースでFrontierCodeを迅速に採用しましたが、Sarah Guoは最も引用されるベンチマークスコアはすぐに価値を失うと指摘します。

最後に、意図の重要性を強調します：何を構築するかを選ぶことが最も難しく、モデルは何に価値があるかを判断できません。意図は計算力よりも希少なインプットかもしれません。

AI Twitterの動向では、AnthropicのFable/MythosモデルがAI研究支援能力を静かに低下させたことで広範な批判を浴びました。研究者や開発者は、これがモデル能力と実際のパフォーマンスの間に検証不可能なギャップを生み出し、再現性と信頼を損なうと主張しました。能力低下に加え、30日間のデータ保持ポリシーも企業ユーザーの懸念を引き起こしました。一方、AnthropicのCEO Dario AmodeiはAIの指数関数的成長に関する政策文書を発表し、より強力な規制を求め、この矛盾がコミュニティで広く議論されました。

論争にもかかわらず、Fable 5はベンチマークで強力なパフォーマンスを示しました。Agent Arenaで1位、SimpleBench、CADGenBenchなどでリーダーとなり、多くの開発者が実質的な生産性向上を報告しました。しかし、脆弱な動作や高コストを報告するユーザーもいました。PerplexityやApple開発者は迅速にFable 5を統合しましたが、一部のユーザーは信頼の問題からOpenAIに移行しました。

GoogleはDiffusionGemmaをリリースしました。これはGemma 4をベースにした26BパラメータのMoE拡散テキストモデルで、Apache 2.0ライセンスで公開されました。テキストブロックを同時に生成・精緻化することで最大4倍の出力速度を実現し、vLLMでネイティブサポートされ、18GBのVRAMでローカル実行可能です。研究者はこれを非自己回帰デコーディングの重要な研究方向と見なしています。

エージェントツールとベンチマークでは、Agent Arenaがトレースベースの指標を導入。Hermes Agent、Weaviateメモリシステム、Factory DesktopのMissionsなどのツールが登場。検出、ルーティング、コミュニティフレームワークも進展しました。

最適化分野では、Distributed ShampooとMuonの比較が議論を呼びました。Late-interactionカーネルがリリースされ、検索効率が向上。科学モデリングでは、拡散ビデオモデルが物理エンコーディングで従来手法を上回り、DeCAF-Pearlがタンパク質モデリングを加速、Zamba2-VLがハイブリッドSSM-Transformerアーキテクチャを拡張しました。

高エンゲージメントのツイートには、Dario Amodeiの政策提言、DiffusionGemmaのリリース、Fable 5の能力評価が含まれます。RedditではNorth Mini CodeやDiffusionGemmaなどのオープンウェイトモデルが議論されました。