2026-06-13站内改写2 分鐘閱讀更新: 2026-06-13

【AINews】Fable和Mythos正式因危險被撤回

Anthropic在發佈僅3天后，因美國政府指令撤回Claude Fable 5和Mythos 5模型，引發“模型主權”爭論。同時，開源社區發佈Kimi K2.7-Code和MiniMax M3模型，基準測試和代理基礎設施也有重要更新。

在6月11日至12日的AI新聞中，最重磅的消息是Anthropic宣佈暫停其最新模型Claude Fable 5和Mythos 5的訪問權限，原因是美國政府指令要求限制外國國民使用，並波及所有用户。Anthropic表示，政府僅提供了口頭證據，聲稱存在潛在的、非普遍性的越獄風險，但公司認為這可能是誤解。此舉迅速引發了下游產品和基準測試的連鎖反應，包括Cognition/Devin和Agent Arena在內都受到了影響。

AI社區將此事件重新定義為“模型主權”風險，而非單純的政策問題。工程師們指出，依賴單一前沿API供應商現在面臨明確的地緣政治風險，因為出口管制可能導致服務一夜之間中斷。Anthropic試圖通過重置速率限制來緩和影響，但業界普遍認為，基礎設施所有權和供應鏈多樣化至關重要。

與此同時，開源模型領域迎來重大發布。Moonshot AI開源了Kimi K2.7-Code，一個專注於編程的MoE模型，擁有1T總參數、32B激活參數和256K上下文。該模型在多項基準測試中相比K2.6有顯著提升，但社區評價其“更誠實而非更強大”，在原始前沿能力上仍落後於頂級模型。MiniMax也發佈了M3，一個約428B參數、23B激活的多模態MoE模型，支持1M上下文，並迅速獲得了SGLang、vLLM等生態支持。

在基準測試方面，Artificial Analysis用DeepSWE替換了SWE-Bench Pro，以減少基準作弊行為，導致排名大幅變動。Claude Code搭配Fable 5以77分登頂，而Codex搭配GPT-5.5以76分緊隨其後。此外，Epoch AI發佈了FrontierMath v2，修正了42%的問題錯誤，顯著提高了分數，表明數學基準上限正在快速移動。

代理基礎設施方面，Artificial Analysis推出了AA-AgentPerf基準，專門衡量代理推理的效能，以“每兆瓦代理數”為核心指標。同時，SkyPilot發佈了SkyPilot Sandboxes，用於在用户自己的Kubernetes集羣上運行不受信任的LLM生成代碼，聲稱啓動時間低於1秒，每個集羣可支持5萬個沙箱，成本比託管供應商低4-10倍。這些進展表明，團隊正在從演示轉向資產封閉性、可重複性和基礎設施所有權。

總體而言，本週的新聞突顯了AI領域的快速變化和地緣政治風險的影響，以及開源社區在模型創新和基礎設施方面的持續努力。