[AINews] 今日はあまり何も起こらなかった
今号では、AnthropicのFable 5がセーフティフォールバック付きで再開され、エコシステムがマルチモデルオーケストレーションに移行していることを取り上げます。オープンモデルではGLM-5.2がZCodeやベンチマークで進展。エージェント基盤はWikiメモリと構造化コンポジションパターンを導入し、Devin Security Swarmがエージェントベースの脆弱性発見を実証。NVIDIA TwoTowerやオンデバイス推論の進歩などのアーキテクチャの発展も含まれます。
AnthropicはClaude Fable 5を再開したが、セーフティフォールバックを備えている。一部のリクエストはOpus 4.8にルーティングされる可能性があり、生物学・化学分類器はまだ広範すぎる。再開はすぐにツールエコシステムに波及した:CursorはFable 5が評価でリードするが最もコストが高いと報告;DevinはCloud/Desktop/CLIでサポートを追加;Perplexityはオーケストレーターモデルとして復元した。Anthropicはユーザーのレート制限もリセットした。
より興味深いのは、人々がフロンティアモデルの制約にどう適応しているかだ。複数のビルダーが単一モデル依存ではなくマルチモデルオーケストレーションに移行している。@theoはFableを高価値な推論・計画のみに使用し、実装、検証、コンピューター使用作業は他のモデルに委任し、エンドツーエンドのPR成果が大幅に向上したと報告。@omarsar0はチームが単一フロンティアモデルではなくモデル組み合わせ戦略を設計すべきと主張。@MParakhinは「単純タスク事前分類器」に反論し、信頼性の高いルーティングにはしばしばタスク自体の解決が必要だと述べた。ベンチマークでは、@kimmonismusがFable 5のリモート労働指数16.10%を指摘、@ArtificialAnlysはSonnet 5がAA-Briefcaseで2位だがターン数が多くコスト効率が悪いと報告。
オープンモデル分野では、Z.aiがGLM-5.2を中心に製品を構築し、ZCode開発環境をリリース。BYOKサポート、クロスプラットフォーム対応、コーディングプラン加入者向けクォータ増加を含む。@kimmonismusはGLMワークフローと長期自律タスクに最適化されたAIネイティブコーディングIDEと評した。エコシステムは急速に追随:LangChainがGLM-5.2を使ったコーディングフローのガイドを公開、@hwchase17は開発者がGLM-5.2を日常的に使い始めていると指摘。ベンチマークはオープンコーディングモデルのギャップ縮小を示す:@mercor_aiはGLM 5.2がAPEX-SWEでカテゴリをリードした初のオープンモデルとなり、統合タスクでPass@1 55.3%を達成、全体でも最高と報告。@scaling01はGLMが西側フロンティアモデルを超えたとの過大評価に警告しつつも、コードギャップの急速な縮小を認めた。推論面では、vLLMがDeepSeekモデル向けにネイティブDSpark投機的デコードサポートを追加、8×B300で約250 tok/s、@mgoin_はGLM-5.2 DSparkプレビューでデコード速度約1.5倍を発表。@jon_durbinはQwen3-32B上の社内dflashドラフターで同一ハードウェア上で約50%のスループット向上を報告。
エージェント基盤では、「Wikiメモリ」が実用的なデザインパターンとして浮上。@sydneyrunkleはWiki構造メモリがシンプルで拡張可能な基盤だと主張。LangChainはOpenWikiをリリースし、エージェントが消費可能なコードベースドキュメントを生成・維持する。動機は一貫している:エージェントはスレッド間で作業コンテキストを繰り返し失うため、維持・検査可能な知識層が必要。メモリシステムは検索のみから調整・維持へ移行:WeaviateのEngramは候補メモリを抽出し、既存メモリに対して変換してからコミットし、クエリごとに矛盾を解決しないようにする。@bpalitはエンタープライズ設定に拡張し、エージェントメモリは管理され、パーミッション対応、共有される必要があると述べた。構造化コンポジションは「モデルにすべてのツールを与える」素朴なアプローチに取って代わる:@omarsar0はSkillComposerを強調し、スキル選択を自己回帰的コンポジション問題として扱い、SkillsBenchでスキルなしベースライン比+23.1pp/+18.2ppの改善を報告。Deep Agentsは再帰的言語モデルワークフローのサポートを追加、@hwchase17は動的サブエージェントをAgentic MapReduceパターンに接続した。
セキュリティ面では、CognitionのDevin Security Swarmがエージェントアーキテクチャをエンタープライズワークフローに特化させた明確な例。システムはAgentic MapReduceを使用して境界エージェントをコードベースにファンアウトし、発見を集約、悪用可能性を検証し、確認された脆弱性を提示する。Cognitionは代替手段よりコスト効率が高く正確だと主張し、Fortune 500のパイロットで本番リポジトリ内の1000以上の脆弱性を発見・修正したと述べた。@jakejluoと@levieはこのパターンが大規模ドキュメント、コード、知識ワークフローに一般化すると考えている。AIエージェント評価は急速にサブ分野になりつつある:@random_walkerはエージェント評価を推進する新しい論文をいくつか指摘。実例としては、Agent ArenaがFable 5をエージェントモードで再有効化、AA-AgentPerfによるメガワットあたりエージェントシステムベンチマーク、WorldModelGymによる世界モデルが良好な意思決定をサポートするかの評価など。FLARE-AIは欠陥とインシデント報告の標準化を目指し、問題が適切な開発者とレジストリにルーティングされるようにする。
システム面では、NVIDIAのTwoTowerが際立つ:Nemotron-Labs-TwoTowerは30Bモデルを拡散型言語モデルに適応させ、2コピー構成でトークンを並列書き込み。結果:生成速度2.42倍向上、元のモデル品質の98.7%を維持。オンデバイスおよびブラウザ推論はエージェント最適化と専用ランタイムの恩恵を受け続ける:Google GemmaはWebGPU Gemma 4がM4上で255 tok/sを達成、Fable 5で書かれたカーネルによるもの。@andimarafiotiはGemma 4 31BとCerebras推論に基づく完全オープンソースのリアルタイム音声スタックをデモ、OpenAIリアルタイムAPIのドロップイン代替を目指す。カーネルレベルでは、Hugging FaceのkernelsライブラリがMiniMaxのMSAカーネルを公開、Triton-on-Macも関心を集めた。
アーキテクチャ研究:@gklambauerはLeCun主導の世界モデルアプローチAdaJEPAを指摘、潜在状態予測誤差によるテスト時適応を実現;@LiorOnAIはNEOを要約、次フレーム予測ではなく再利用可能な因果「プログラム」を学習;@ziv_ravidは「想像力でのトレーニング」が活発なパラダイムであると強調。