Import AI 461:“對齊未走上正軌”;FrontierCode;以及合成研究實習生
本期Import AI涵蓋多個AI研究進展:新安全初創公司Sequent聲稱“對齊未走上正軌”,計劃通過多元化研究組合提高超級智能對齊信心;中國文化遺產QA數據集ChinaHeritaQA用於評估視覺語言模型的文化推理能力;Cognition推出難度極高的編程基準FrontierCode,測試代碼質量;小米發佈每秒1000 tokens的超快推理模型;以及模擬研究實習生工作的AARR基準。
歡迎閲讀Import AI,一份關於AI研究的新聞通訊。本期內容涵蓋多個AI領域的最新進展。
AI研究人員創立新安全初創公司,聲稱“對齊未走上正軌” 來自英國AI安全研究所對齊團隊以及對齊理論初創公司Timaeus的研究人員聯合成立了新的非營利研究組織Sequent,旨在創建能夠讓我們對超級智能AI系統安全性有更高信心的對齊技術。Sequent在聲明中寫道:“人工超級智能(ASI)可能在未來幾年內出現。目前尚不清楚對齊是否能在相同時間框架內準備好。至少,AI實驗室的實證項目不太可能在訓練ASI之前提供先驗信心,即一切都會順利。”
Sequent計劃在兩年內擁有40-80名全職員工,目標是初步籌集1-1.5億美元,並準備在取得進展後籌集更多資金。其研究計劃與主流AI實驗室不同,旨在尋找“原則性的理由,讓我們相信在可控情況下觀察到的對齊(例如訓練中或選定環境下的評估)能夠泛化到不易控制的情況(例如在世界範圍內執行的大規模、長期任務)”。研究方向包括可擴展監督、學習理論、啓發式論證、博弈論和角色等。
通過ChinaHeritaQA測試中國聯合國教科文組織遺址知識 由多所大學研究人員組成的團隊構建了ChinaHeritaQA,這是一個用於評估視覺語言模型(VLM)對中國世界遺產文化推理能力的多模態基準數據集。該數據集包含51個文化遺產地的2279張圖像和14133箇中英文多項選擇問答對,圖像來自新浪微博。問題類型包括身份識別、視覺定位、描述匹配、歷史分期、歷史背景、功能分析和建築分析。值得注意的是,開放權重模型Qwen-VL-8B-Instruct的準確率(81%)已超過人類平均水平(約67%)。
FrontierCode——一個衡量代碼質量的硬核編程基準 Devin的製造商Cognition推出了名為FrontierCode的新編程基準。該基準由20名開源開發者精心構建,包含150個任務,分為鑽石、主和擴展三個難度等級。評估標準注重代碼的可合併性,包括正確性、測試質量、範圍紀律、風格和代碼庫標準。結果令人欣慰:Claude Opus 4.8在鑽石難度上僅得13.4%,GPT-5.5得6.3%。這表明FrontierCode在短期內不會飽和。
小米以每秒1000 tokens的速度加入競賽 中國科技公司小米發佈了MiMo-V2.5-Pro-UltraSpeed模型,這是一個1萬億參數的大型語言模型,其賣點在於極快的推理速度——每秒1000 tokens。這一速度通過模型與軟件棧的協同設計實現,包括FP4量化、基於塊級掩碼並行預測的投機解碼方法DFlash,以及Tile AI的TileRT軟件。該模型運行在“8-GPU通用節點”上,而非專用硬件。這種速度解鎖瞭如快速重構軟件等新能力。
AI系統可完成部分研究實習生的工作 西安交通大學和西安電子科技大學的研究人員開發了名為AARR(Act As a Real Researcher)的基準系列,旨在評估AI系統協助科學工作的能力。首個子基準AARRI-Bench模擬初級研究任務。Claude-Opus-4.7結合Mini-Swe-Agent框架獲得了68.3%的最佳性能。
以上是本期Import AI的全部內容。感謝閲讀!