AI News HubLIVE
站内改写2 分钟阅读

【AINews】Fable和Mythos正式因危险被撤回

Anthropic在发布仅3天后,因美国政府指令撤回Claude Fable 5和Mythos 5模型,引发“模型主权”争论。同时,开源社区发布Kimi K2.7-Code和MiniMax M3模型,基准测试和代理基础设施也有重要更新。

在6月11日至12日的AI新闻中,最重磅的消息是Anthropic宣布暂停其最新模型Claude Fable 5和Mythos 5的访问权限,原因是美国政府指令要求限制外国国民使用,并波及所有用户。Anthropic表示,政府仅提供了口头证据,声称存在潜在的、非普遍性的越狱风险,但公司认为这可能是误解。此举迅速引发了下游产品和基准测试的连锁反应,包括Cognition/Devin和Agent Arena在内都受到了影响。

AI社区将此事件重新定义为“模型主权”风险,而非单纯的政策问题。工程师们指出,依赖单一前沿API供应商现在面临明确的地缘政治风险,因为出口管制可能导致服务一夜之间中断。Anthropic试图通过重置速率限制来缓和影响,但业界普遍认为,基础设施所有权和供应链多样化至关重要。

与此同时,开源模型领域迎来重大发布。Moonshot AI开源了Kimi K2.7-Code,一个专注于编程的MoE模型,拥有1T总参数、32B激活参数和256K上下文。该模型在多项基准测试中相比K2.6有显著提升,但社区评价其“更诚实而非更强大”,在原始前沿能力上仍落后于顶级模型。MiniMax也发布了M3,一个约428B参数、23B激活的多模态MoE模型,支持1M上下文,并迅速获得了SGLang、vLLM等生态支持。

在基准测试方面,Artificial Analysis用DeepSWE替换了SWE-Bench Pro,以减少基准作弊行为,导致排名大幅变动。Claude Code搭配Fable 5以77分登顶,而Codex搭配GPT-5.5以76分紧随其后。此外,Epoch AI发布了FrontierMath v2,修正了42%的问题错误,显著提高了分数,表明数学基准上限正在快速移动。

代理基础设施方面,Artificial Analysis推出了AA-AgentPerf基准,专门衡量代理推理的效能,以“每兆瓦代理数”为核心指标。同时,SkyPilot发布了SkyPilot Sandboxes,用于在用户自己的Kubernetes集群上运行不受信任的LLM生成代码,声称启动时间低于1秒,每个集群可支持5万个沙箱,成本比托管供应商低4-10倍。这些进展表明,团队正在从演示转向资产封闭性、可重复性和基础设施所有权。

总体而言,本周的新闻突显了AI领域的快速变化和地缘政治风险的影响,以及开源社区在模型创新和基础设施方面的持续努力。