AI News HubLIVE
站内改写2 分钟阅读

Import AI 461:“对齐未走上正轨”;FrontierCode;以及合成研究实习生

本期Import AI涵盖多个AI研究进展:新安全初创公司Sequent声称“对齐未走上正轨”,计划通过多元化研究组合提高超级智能对齐信心;中国文化遗产QA数据集ChinaHeritaQA用于评估视觉语言模型的文化推理能力;Cognition推出难度极高的编程基准FrontierCode,测试代码质量;小米发布每秒1000 tokens的超快推理模型;以及模拟研究实习生工作的AARR基准。

来源Import AI作者: Jack Clark

欢迎阅读Import AI,一份关于AI研究的新闻通讯。本期内容涵盖多个AI领域的最新进展。

AI研究人员创立新安全初创公司,声称“对齐未走上正轨” 来自英国AI安全研究所对齐团队以及对齐理论初创公司Timaeus的研究人员联合成立了新的非营利研究组织Sequent,旨在创建能够让我们对超级智能AI系统安全性有更高信心的对齐技术。Sequent在声明中写道:“人工超级智能(ASI)可能在未来几年内出现。目前尚不清楚对齐是否能在相同时间框架内准备好。至少,AI实验室的实证项目不太可能在训练ASI之前提供先验信心,即一切都会顺利。”

Sequent计划在两年内拥有40-80名全职员工,目标是初步筹集1-1.5亿美元,并准备在取得进展后筹集更多资金。其研究计划与主流AI实验室不同,旨在寻找“原则性的理由,让我们相信在可控情况下观察到的对齐(例如训练中或选定环境下的评估)能够泛化到不易控制的情况(例如在世界范围内执行的大规模、长期任务)”。研究方向包括可扩展监督、学习理论、启发式论证、博弈论和角色等。

通过ChinaHeritaQA测试中国联合国教科文组织遗址知识 由多所大学研究人员组成的团队构建了ChinaHeritaQA,这是一个用于评估视觉语言模型(VLM)对中国世界遗产文化推理能力的多模态基准数据集。该数据集包含51个文化遗产地的2279张图像和14133个中英文多项选择问答对,图像来自新浪微博。问题类型包括身份识别、视觉定位、描述匹配、历史分期、历史背景、功能分析和建筑分析。值得注意的是,开放权重模型Qwen-VL-8B-Instruct的准确率(81%)已超过人类平均水平(约67%)。

FrontierCode——一个衡量代码质量的硬核编程基准 Devin的制造商Cognition推出了名为FrontierCode的新编程基准。该基准由20名开源开发者精心构建,包含150个任务,分为钻石、主和扩展三个难度等级。评估标准注重代码的可合并性,包括正确性、测试质量、范围纪律、风格和代码库标准。结果令人欣慰:Claude Opus 4.8在钻石难度上仅得13.4%,GPT-5.5得6.3%。这表明FrontierCode在短期内不会饱和。

小米以每秒1000 tokens的速度加入竞赛 中国科技公司小米发布了MiMo-V2.5-Pro-UltraSpeed模型,这是一个1万亿参数的大型语言模型,其卖点在于极快的推理速度——每秒1000 tokens。这一速度通过模型与软件栈的协同设计实现,包括FP4量化、基于块级掩码并行预测的投机解码方法DFlash,以及Tile AI的TileRT软件。该模型运行在“8-GPU通用节点”上,而非专用硬件。这种速度解锁了如快速重构软件等新能力。

AI系统可完成部分研究实习生的工作 西安交通大学和西安电子科技大学的研究人员开发了名为AARR(Act As a Real Researcher)的基准系列,旨在评估AI系统协助科学工作的能力。首个子基准AARRI-Bench模拟初级研究任务。Claude-Opus-4.7结合Mini-Swe-Agent框架获得了68.3%的最佳性能。

以上是本期Import AI的全部内容。感谢阅读!