2026-06-15站内改写2 分鐘閱讀更新: 2026-06-15

Import AI 461：“對齊未走上正軌”；FrontierCode；以及合成研究實習生

本期Import AI涵蓋多個AI研究進展：新安全初創公司Sequent聲稱“對齊未走上正軌”，計劃通過多元化研究組合提高超級智能對齊信心；中國文化遺產QA數據集ChinaHeritaQA用於評估視覺語言模型的文化推理能力；Cognition推出難度極高的編程基準FrontierCode，測試代碼質量；小米發佈每秒1000 tokens的超快推理模型；以及模擬研究實習生工作的AARR基準。

來源Import AI作者: Jack Clark

歡迎閲讀Import AI，一份關於AI研究的新聞通訊。本期內容涵蓋多個AI領域的最新進展。

AI研究人員創立新安全初創公司，聲稱“對齊未走上正軌” 來自英國AI安全研究所對齊團隊以及對齊理論初創公司Timaeus的研究人員聯合成立了新的非營利研究組織Sequent，旨在創建能夠讓我們對超級智能AI系統安全性有更高信心的對齊技術。Sequent在聲明中寫道：“人工超級智能（ASI）可能在未來幾年內出現。目前尚不清楚對齊是否能在相同時間框架內準備好。至少，AI實驗室的實證項目不太可能在訓練ASI之前提供先驗信心，即一切都會順利。”

Sequent計劃在兩年內擁有40-80名全職員工，目標是初步籌集1-1.5億美元，並準備在取得進展後籌集更多資金。其研究計劃與主流AI實驗室不同，旨在尋找“原則性的理由，讓我們相信在可控情況下觀察到的對齊（例如訓練中或選定環境下的評估）能夠泛化到不易控制的情況（例如在世界範圍內執行的大規模、長期任務）”。研究方向包括可擴展監督、學習理論、啓發式論證、博弈論和角色等。

通過ChinaHeritaQA測試中國聯合國教科文組織遺址知識 由多所大學研究人員組成的團隊構建了ChinaHeritaQA，這是一個用於評估視覺語言模型（VLM）對中國世界遺產文化推理能力的多模態基準數據集。該數據集包含51個文化遺產地的2279張圖像和14133箇中英文多項選擇問答對，圖像來自新浪微博。問題類型包括身份識別、視覺定位、描述匹配、歷史分期、歷史背景、功能分析和建築分析。值得注意的是，開放權重模型Qwen-VL-8B-Instruct的準確率（81%）已超過人類平均水平（約67%）。

FrontierCode——一個衡量代碼質量的硬核編程基準 Devin的製造商Cognition推出了名為FrontierCode的新編程基準。該基準由20名開源開發者精心構建，包含150個任務，分為鑽石、主和擴展三個難度等級。評估標準注重代碼的可合併性，包括正確性、測試質量、範圍紀律、風格和代碼庫標準。結果令人欣慰：Claude Opus 4.8在鑽石難度上僅得13.4%，GPT-5.5得6.3%。這表明FrontierCode在短期內不會飽和。

小米以每秒1000 tokens的速度加入競賽 中國科技公司小米發佈了MiMo-V2.5-Pro-UltraSpeed模型，這是一個1萬億參數的大型語言模型，其賣點在於極快的推理速度——每秒1000 tokens。這一速度通過模型與軟件棧的協同設計實現，包括FP4量化、基於塊級掩碼並行預測的投機解碼方法DFlash，以及Tile AI的TileRT軟件。該模型運行在“8-GPU通用節點”上，而非專用硬件。這種速度解鎖瞭如快速重構軟件等新能力。

AI系統可完成部分研究實習生的工作 西安交通大學和西安電子科技大學的研究人員開發了名為AARR（Act As a Real Researcher）的基準系列，旨在評估AI系統協助科學工作的能力。首個子基準AARRI-Bench模擬初級研究任務。Claude-Opus-4.7結合Mini-Swe-Agent框架獲得了68.3%的最佳性能。

以上是本期Import AI的全部內容。感謝閲讀！