2026-06-13站内改写2 分钟阅读更新: 2026-06-13

【AINews】Fable和Mythos正式因危险被撤回

Anthropic在发布仅3天后，因美国政府指令撤回Claude Fable 5和Mythos 5模型，引发“模型主权”争论。同时，开源社区发布Kimi K2.7-Code和MiniMax M3模型，基准测试和代理基础设施也有重要更新。

在6月11日至12日的AI新闻中，最重磅的消息是Anthropic宣布暂停其最新模型Claude Fable 5和Mythos 5的访问权限，原因是美国政府指令要求限制外国国民使用，并波及所有用户。Anthropic表示，政府仅提供了口头证据，声称存在潜在的、非普遍性的越狱风险，但公司认为这可能是误解。此举迅速引发了下游产品和基准测试的连锁反应，包括Cognition/Devin和Agent Arena在内都受到了影响。

AI社区将此事件重新定义为“模型主权”风险，而非单纯的政策问题。工程师们指出，依赖单一前沿API供应商现在面临明确的地缘政治风险，因为出口管制可能导致服务一夜之间中断。Anthropic试图通过重置速率限制来缓和影响，但业界普遍认为，基础设施所有权和供应链多样化至关重要。

与此同时，开源模型领域迎来重大发布。Moonshot AI开源了Kimi K2.7-Code，一个专注于编程的MoE模型，拥有1T总参数、32B激活参数和256K上下文。该模型在多项基准测试中相比K2.6有显著提升，但社区评价其“更诚实而非更强大”，在原始前沿能力上仍落后于顶级模型。MiniMax也发布了M3，一个约428B参数、23B激活的多模态MoE模型，支持1M上下文，并迅速获得了SGLang、vLLM等生态支持。

在基准测试方面，Artificial Analysis用DeepSWE替换了SWE-Bench Pro，以减少基准作弊行为，导致排名大幅变动。Claude Code搭配Fable 5以77分登顶，而Codex搭配GPT-5.5以76分紧随其后。此外，Epoch AI发布了FrontierMath v2，修正了42%的问题错误，显著提高了分数，表明数学基准上限正在快速移动。

代理基础设施方面，Artificial Analysis推出了AA-AgentPerf基准，专门衡量代理推理的效能，以“每兆瓦代理数”为核心指标。同时，SkyPilot发布了SkyPilot Sandboxes，用于在用户自己的Kubernetes集群上运行不受信任的LLM生成代码，声称启动时间低于1秒，每个集群可支持5万个沙箱，成本比托管供应商低4-10倍。这些进展表明，团队正在从演示转向资产封闭性、可重复性和基础设施所有权。

总体而言，本周的新闻突显了AI领域的快速变化和地缘政治风险的影响，以及开源社区在模型创新和基础设施方面的持续努力。