AI News HubLIVE
站内改写2 分鐘閱讀

【AINews】Fable和Mythos正式因危險被撤回

Anthropic在發佈僅3天后,因美國政府指令撤回Claude Fable 5和Mythos 5模型,引發“模型主權”爭論。同時,開源社區發佈Kimi K2.7-Code和MiniMax M3模型,基準測試和代理基礎設施也有重要更新。

在6月11日至12日的AI新聞中,最重磅的消息是Anthropic宣佈暫停其最新模型Claude Fable 5和Mythos 5的訪問權限,原因是美國政府指令要求限制外國國民使用,並波及所有用户。Anthropic表示,政府僅提供了口頭證據,聲稱存在潛在的、非普遍性的越獄風險,但公司認為這可能是誤解。此舉迅速引發了下游產品和基準測試的連鎖反應,包括Cognition/Devin和Agent Arena在內都受到了影響。

AI社區將此事件重新定義為“模型主權”風險,而非單純的政策問題。工程師們指出,依賴單一前沿API供應商現在面臨明確的地緣政治風險,因為出口管制可能導致服務一夜之間中斷。Anthropic試圖通過重置速率限制來緩和影響,但業界普遍認為,基礎設施所有權和供應鏈多樣化至關重要。

與此同時,開源模型領域迎來重大發布。Moonshot AI開源了Kimi K2.7-Code,一個專注於編程的MoE模型,擁有1T總參數、32B激活參數和256K上下文。該模型在多項基準測試中相比K2.6有顯著提升,但社區評價其“更誠實而非更強大”,在原始前沿能力上仍落後於頂級模型。MiniMax也發佈了M3,一個約428B參數、23B激活的多模態MoE模型,支持1M上下文,並迅速獲得了SGLang、vLLM等生態支持。

在基準測試方面,Artificial Analysis用DeepSWE替換了SWE-Bench Pro,以減少基準作弊行為,導致排名大幅變動。Claude Code搭配Fable 5以77分登頂,而Codex搭配GPT-5.5以76分緊隨其後。此外,Epoch AI發佈了FrontierMath v2,修正了42%的問題錯誤,顯著提高了分數,表明數學基準上限正在快速移動。

代理基礎設施方面,Artificial Analysis推出了AA-AgentPerf基準,專門衡量代理推理的效能,以“每兆瓦代理數”為核心指標。同時,SkyPilot發佈了SkyPilot Sandboxes,用於在用户自己的Kubernetes集羣上運行不受信任的LLM生成代碼,聲稱啓動時間低於1秒,每個集羣可支持5萬個沙箱,成本比託管供應商低4-10倍。這些進展表明,團隊正在從演示轉向資產封閉性、可重複性和基礎設施所有權。

總體而言,本週的新聞突顯了AI領域的快速變化和地緣政治風險的影響,以及開源社區在模型創新和基礎設施方面的持續努力。