Import AI 453:突破性的AI智能体;MirrorCode;以及关于逐渐失权的十种观点
本期Import AI探讨了MirrorCode基准测试,显示AI能自主重现已有的复杂软件;《风落政策图谱》帮助理解应对变革性AI的政策选项;谷歌DeepMind论文列出六类针对AI智能体的攻击;AI预测者加倍了对2028年底全面自动化AI研发的概率估计;David Krueger提出了关于逐渐失权的十种思考方式。
欢迎阅读Import AI,这是一份关于AI研究的通讯。本期篇幅较短,因为我本周参加了2026年的比尔德伯格会议。
AI可逆向工程包含数千行代码的软件
AI评测机构METR和Epoch开发了MirrorCode基准测试,旨在测试AI模型自主重现已有的复杂软件的能力。结果显示,AI系统在特定编程任务上的能力远超大多数人预期,表明AI进步可能比我们先前认为的更快。
MirrorCode的每个任务包含一个命令行程序,要求AI智能体精确地重新实现该程序。AI智能体仅能执行原始程序并访问可见的测试用例,但无法获取原始源代码。该基准测试包含20多个目标程序,涵盖Unix实用工具、数据序列化与查询工具、生物信息学、解释器、静态分析、密码学和压缩等领域。
当前AI模型在部分任务上表现出色:Claude Opus 4.6成功重新实现了gotree——一个约16000行Go代码、包含40多个命令的生物信息学工具包。研究人员估计,没有AI帮助的人类工程师完成相同任务可能需要2-17周。他们还发现,随着推理计算量的增加,性能持续提升,表明给定足够的令牌,这些任务可能被解决。
需要注意的是,这个基准测试与普通编程测试不同,更应视为AI系统在大量辅助下模仿其他系统功能的证据。测试中的AI被要求克隆产生标准输出的程序,可能存在对简单程序的记忆,且仅覆盖了潜在软件项目的一小部分。
应对变革性AI需要哪些政策?这里有一份“图谱”帮助导航
风落信托(Windfall Trust)是一个致力于应对变革性AI带来的社会挑战的政策加速器,他们发布了《风落政策图谱》,帮助直观地探索各种旨在“应对变革性AI带来的经济 disruption”的政策提案。该图谱包含48个独立想法,分为五大类:公共与社会投资、劳动力市场适应、财富捕获、监管与市场设计、全球协调。例如,长期的劳动力解决方案可能是缩短工作周,中期解决方案则包括劳动力培训和再技能项目。
人们如何破坏AI智能体?六类攻击方式
谷歌DeepMind的一篇新论文列出了六类可针对AI智能体的攻击,并提出了相应的缓解措施。这六类攻击包括:内容注入(将命令嵌入CSS、HTML或其他元数据)、语义操纵(用情感或权威语言混淆智能体)、认知状态(在检索语料库中插入虚假陈述)、行为控制(在外部资源中嵌入对抗性提示)、系统性攻击(广播信号消耗智能体容量)以及人类在回路中的攻击(利用认知偏见影响人类监督者)。缓解措施包括技术层面(使模型更健壮)、生态层面(建立标准与透明度机制)以及法律与伦理框架。
AI预测者将2028年底完全自动化AI研发的概率加倍
AI研究员兼预测者Ryan Greenblatt认为,2026年AI进步将快于2025年,并将2028年底前完全自动化AI研究的概率从15%上调至30%。他调整预测的原因包括:模型表现超出预期(如Opus 4.5和Codex 5.2),AI系统能完成人类数月到数年的任务,以及在易于验证的软件任务上表现惊人,这类任务可以通过“测试套件+自我优化”循环取得进展。
关于逐渐失权的十种思考方式
AI安全研究员David Krueger撰文列出了十种思考“逐渐失权”的方式——即通过构建越来越强大的AI系统,人类可能最终将自身置于未来的乘客座位上。这十种视角包括:AI的目标是取代人类;企业和政府不关心你;信息技术通过递归反馈循环自然集中权力;AI如此出色以至于你最终会外包一切;工具性目标变成终极目标;消费模式预示我们变成《机器人总动员》中肥胖无助的人类;终结者但只是将你关进无形监狱;逐渐失权本质上是资本主义的延续;是21世纪人类“元危机”的另一个名称;以及逐渐失权是人类新继任物种的进化。
科技故事:在奇点期间种植豆茎
本期故事是对一位前AI实验室员工的采访,他在2029年“提升时期”中期选择远离城市,在花园里种植植物,观察世界变化,并反思自己曾经的决策。