2026-06-15站内改写2 分钟阅读更新: 2026-06-15

Import AI 461：“对齐未走上正轨”；FrontierCode；以及合成研究实习生

本期Import AI涵盖多个AI研究进展：新安全初创公司Sequent声称“对齐未走上正轨”，计划通过多元化研究组合提高超级智能对齐信心；中国文化遗产QA数据集ChinaHeritaQA用于评估视觉语言模型的文化推理能力；Cognition推出难度极高的编程基准FrontierCode，测试代码质量；小米发布每秒1000 tokens的超快推理模型；以及模拟研究实习生工作的AARR基准。

来源Import AI作者: Jack Clark

欢迎阅读Import AI，一份关于AI研究的新闻通讯。本期内容涵盖多个AI领域的最新进展。

AI研究人员创立新安全初创公司，声称“对齐未走上正轨” 来自英国AI安全研究所对齐团队以及对齐理论初创公司Timaeus的研究人员联合成立了新的非营利研究组织Sequent，旨在创建能够让我们对超级智能AI系统安全性有更高信心的对齐技术。Sequent在声明中写道：“人工超级智能（ASI）可能在未来几年内出现。目前尚不清楚对齐是否能在相同时间框架内准备好。至少，AI实验室的实证项目不太可能在训练ASI之前提供先验信心，即一切都会顺利。”

Sequent计划在两年内拥有40-80名全职员工，目标是初步筹集1-1.5亿美元，并准备在取得进展后筹集更多资金。其研究计划与主流AI实验室不同，旨在寻找“原则性的理由，让我们相信在可控情况下观察到的对齐（例如训练中或选定环境下的评估）能够泛化到不易控制的情况（例如在世界范围内执行的大规模、长期任务）”。研究方向包括可扩展监督、学习理论、启发式论证、博弈论和角色等。

通过ChinaHeritaQA测试中国联合国教科文组织遗址知识 由多所大学研究人员组成的团队构建了ChinaHeritaQA，这是一个用于评估视觉语言模型（VLM）对中国世界遗产文化推理能力的多模态基准数据集。该数据集包含51个文化遗产地的2279张图像和14133个中英文多项选择问答对，图像来自新浪微博。问题类型包括身份识别、视觉定位、描述匹配、历史分期、历史背景、功能分析和建筑分析。值得注意的是，开放权重模型Qwen-VL-8B-Instruct的准确率（81%）已超过人类平均水平（约67%）。

FrontierCode——一个衡量代码质量的硬核编程基准 Devin的制造商Cognition推出了名为FrontierCode的新编程基准。该基准由20名开源开发者精心构建，包含150个任务，分为钻石、主和扩展三个难度等级。评估标准注重代码的可合并性，包括正确性、测试质量、范围纪律、风格和代码库标准。结果令人欣慰：Claude Opus 4.8在钻石难度上仅得13.4%，GPT-5.5得6.3%。这表明FrontierCode在短期内不会饱和。

小米以每秒1000 tokens的速度加入竞赛 中国科技公司小米发布了MiMo-V2.5-Pro-UltraSpeed模型，这是一个1万亿参数的大型语言模型，其卖点在于极快的推理速度——每秒1000 tokens。这一速度通过模型与软件栈的协同设计实现，包括FP4量化、基于块级掩码并行预测的投机解码方法DFlash，以及Tile AI的TileRT软件。该模型运行在“8-GPU通用节点”上，而非专用硬件。这种速度解锁了如快速重构软件等新能力。

AI系统可完成部分研究实习生的工作 西安交通大学和西安电子科技大学的研究人员开发了名为AARR（Act As a Real Researcher）的基准系列，旨在评估AI系统协助科学工作的能力。首个子基准AARRI-Bench模拟初级研究任务。Claude-Opus-4.7结合Mini-Swe-Agent框架获得了68.3%的最佳性能。

以上是本期Import AI的全部内容。感谢阅读！