【AINews】Fable和Mythos正式因危險被撤回
Anthropic在釋出僅3天后,因美國政府指令撤回Claude Fable 5和Mythos 5模型,引發“模型主權”爭論。同時,開源社群釋出Kimi K2.7-Code和MiniMax M3模型,基準測試和代理基礎設施也有重要更新。
在6月11日至12日的AI新聞中,最重磅的訊息是Anthropic宣佈暫停其最新模型Claude Fable 5和Mythos 5的訪問許可權,原因是美國政府指令要求限制外國國民使用,並波及所有使用者。Anthropic表示,政府僅提供了口頭證據,聲稱存在潛在的、非普遍性的越獄風險,但公司認為這可能是誤解。此舉迅速引發了下游產品和基準測試的連鎖反應,包括Cognition/Devin和Agent Arena在內都受到了影響。
AI社群將此事件重新定義為“模型主權”風險,而非單純的政策問題。工程師們指出,依賴單一前沿API供應商現在面臨明確的地緣政治風險,因為出口管制可能導致服務一夜之間中斷。Anthropic試圖透過重置速率限制來緩和影響,但業界普遍認為,基礎設施所有權和供應鏈多樣化至關重要。
與此同時,開源模型領域迎來重大發布。Moonshot AI開源了Kimi K2.7-Code,一個專注於程式設計的MoE模型,擁有1T總引數、32B啟用引數和256K上下文。該模型在多項基準測試中相比K2.6有顯著提升,但社群評價其“更誠實而非更強大”,在原始前沿能力上仍落後於頂級模型。MiniMax也釋出了M3,一個約428B引數、23B啟用的多模態MoE模型,支援1M上下文,並迅速獲得了SGLang、vLLM等生態支援。
在基準測試方面,Artificial Analysis用DeepSWE替換了SWE-Bench Pro,以減少基準作弊行為,導致排名大幅變動。Claude Code搭配Fable 5以77分登頂,而Codex搭配GPT-5.5以76分緊隨其後。此外,Epoch AI釋出了FrontierMath v2,修正了42%的問題錯誤,顯著提高了分數,表明數學基準上限正在快速移動。
代理基礎設施方面,Artificial Analysis推出了AA-AgentPerf基準,專門衡量代理推理的效能,以“每兆瓦代理數”為核心指標。同時,SkyPilot釋出了SkyPilot Sandboxes,用於在使用者自己的Kubernetes叢集上執行不受信任的LLM生成程式碼,聲稱啟動時間低於1秒,每個叢集可支援5萬個沙箱,成本比託管供應商低4-10倍。這些進展表明,團隊正在從演示轉向資產封閉性、可重複性和基礎設施所有權。
總體而言,本週的新聞突顯了AI領域的快速變化和地緣政治風險的影響,以及開源社群在模型創新和基礎設施方面的持續努力。