AI News HubLIVE
站内改写2 分钟阅读

【AINews】FrontierCode:针对代码质量的基准测试,而非敷衍了事

Cognition推出FrontierCode基准测试,专注于评估代码的可合并性而非仅通过单元测试。最佳模型在 hardest 子集上仅得13%,表明编码远未解决。同时,代理控制转向“循环”模式,并伴有诸多警告。其他动态包括Kimi的代理和桌面产品更新、Google的本地部署优化、Agent Arena基于百万会话的排行榜、以及Apple的WWDC AI集成。

Cognition发布了FrontierCode基准测试,旨在将代码评估标准从简单的单元测试通过提升至实际可合并性。该测试由开源维护者构建,每项任务耗时超过40小时,评估维度包括回归安全性、代码整洁度、范围、测试正确性和可维护性。结果显示,最佳模型Opus 4.8在 hardest 子集上的得分仅为13%,远低于SWE-Bench风格的50%+,表明编码领域的解决程度被高估。

“循环”正成为代理控制的主流隐喻,但需要谨慎使用。实践者强调代理应被赋予清晰目标、验证标准和迭代结构,而非一次性提示。例如,dzhng提倡“不要用循环,设计状态机”,而Omar Sar0和Graham Neubig则指出在易于验证的领域之外,人类检查点仍然必不可少。

产品层面的变化反映了这一趋势:ClaudeDevs为MCP连接器开发者添加了可观测性仪表板,MagicPath推出了Builder计划以支持外部代理工作流和多人画布编辑。LangSmith Sandboxes和Modal的沙箱扩展故事都指向同一个基础设施趋势:代理需要隔离、可检查、长时间运行的环境。

在模型方面,Moonshot更新了Kimi代码代理,增加了CLI安装、拖放视频作为编码上下文、ACP支持、插件和IDE集成,并推出了包含300个本地子代理的桌面代理产品Kimi Work。Google发布了QAT Gemma 4检查点,内存使用减少约4倍,Gemma 4 E2B可在约1GB内存下运行。llama.cpp增加了视频输入支持。

Agent Arena基于超过100万真实会话,通过因果追踪而非投票来评估不同编排器/框架的处理效果,涵盖确认成功、赞扬与抱怨比例、可控性、bash恢复和工具幻觉五个信号。

在消费级AI平台方面,Google升级了NotebookLM,增加了代理聊天、更强推理和新输出格式,同时将AI Plus订阅价格从7.99美元降至4.99美元。Apple的WWDC重点展示了集成而非前沿性能,其设备端模型采用20B参数查询路由架构,每次查询从NAND加载专家到RAM。

研究方向上,Anthropic认为AI在科学领域进展缓慢的瓶颈在于基础设施不匹配,而OpenEnv已转移至包括Hugging Face、Meta-PyTorch、Reflection、Unsloth等在内的联盟。Hivemind宣布了一个系统,能将来自Claude Code、Codex、Cursor等代理的轨迹转化为可复用技能。

优化讨论活跃,多个线程辩论Muon与Shampoo的区别,表明对优化器级别改进的兴趣重燃。