AI News HubLIVE
站內改寫2 分鐘閱讀

Import AI 453:突破性的AI智能體;MirrorCode;以及關於逐漸失權的十種觀點

本期Import AI探討了MirrorCode基準測試,顯示AI能自主重現已有的複雜軟件;《風落政策圖譜》幫助理解應對變革性AI的政策選項;谷歌DeepMind論文列出六類針對AI智能體的攻擊;AI預測者加倍了對2028年底全面自動化AI研發的概率估計;David Krueger提出了關於逐漸失權的十種思考方式。

來源Import AI作者: Jack Clark

歡迎閲讀Import AI,這是一份關於AI研究的通訊。本期篇幅較短,因為我本週參加了2026年的比爾德伯格會議。

AI可逆向工程包含數千行代碼的軟件

AI評測機構METR和Epoch開發了MirrorCode基準測試,旨在測試AI模型自主重現已有的複雜軟件的能力。結果顯示,AI系統在特定編程任務上的能力遠超大多數人預期,表明AI進步可能比我們先前認為的更快。

MirrorCode的每個任務包含一個命令行程序,要求AI智能體精確地重新實現該程序。AI智能體僅能執行原始程序並訪問可見的測試用例,但無法獲取原始源代碼。該基準測試包含20多個目標程序,涵蓋Unix實用工具、數據序列化與查詢工具、生物信息學、解釋器、靜態分析、密碼學和壓縮等領域。

當前AI模型在部分任務上表現出色:Claude Opus 4.6成功重新實現了gotree——一個約16000行Go代碼、包含40多個命令的生物信息學工具包。研究人員估計,沒有AI幫助的人類工程師完成相同任務可能需要2-17周。他們還發現,隨着推理計算量的增加,性能持續提升,表明給定足夠的令牌,這些任務可能被解決。

需要注意的是,這個基準測試與普通編程測試不同,更應視為AI系統在大量輔助下模仿其他系統功能的證據。測試中的AI被要求克隆產生標準輸出的程序,可能存在對簡單程序的記憶,且僅覆蓋了潛在軟件項目的一小部分。

應對變革性AI需要哪些政策?這裏有一份“圖譜”幫助導航

風落信託(Windfall Trust)是一個致力於應對變革性AI帶來的社會挑戰的政策加速器,他們發佈了《風落政策圖譜》,幫助直觀地探索各種旨在“應對變革性AI帶來的經濟 disruption”的政策提案。該圖譜包含48個獨立想法,分為五大類:公共與社會投資、勞動力市場適應、財富捕獲、監管與市場設計、全球協調。例如,長期的勞動力解決方案可能是縮短工作周,中期解決方案則包括勞動力培訓和再技能項目。

人們如何破壞AI智能體?六類攻擊方式

谷歌DeepMind的一篇新論文列出了六類可針對AI智能體的攻擊,並提出了相應的緩解措施。這六類攻擊包括:內容注入(將命令嵌入CSS、HTML或其他元數據)、語義操縱(用情感或權威語言混淆智能體)、認知狀態(在檢索語料庫中插入虛假陳述)、行為控制(在外部資源中嵌入對抗性提示)、系統性攻擊(廣播信號消耗智能體容量)以及人類在迴路中的攻擊(利用認知偏見影響人類監督者)。緩解措施包括技術層面(使模型更健壯)、生態層面(建立標準與透明度機制)以及法律與倫理框架。

AI預測者將2028年底完全自動化AI研發的概率加倍

AI研究員兼預測者Ryan Greenblatt認為,2026年AI進步將快於2025年,並將2028年底前完全自動化AI研究的概率從15%上調至30%。他調整預測的原因包括:模型表現超出預期(如Opus 4.5和Codex 5.2),AI系統能完成人類數月到數年的任務,以及在易於驗證的軟件任務上表現驚人,這類任務可以通過“測試套件+自我優化”循環取得進展。

關於逐漸失權的十種思考方式

AI安全研究員David Krueger撰文列出了十種思考“逐漸失權”的方式——即通過構建越來越強大的AI系統,人類可能最終將自身置於未來的乘客座位上。這十種視角包括:AI的目標是取代人類;企業和政府不關心你;信息技術通過遞歸反饋循環自然集中權力;AI如此出色以至於你最終會外包一切;工具性目標變成終極目標;消費模式預示我們變成《機器人總動員》中肥胖無助的人類;終結者但只是將你關進無形監獄;逐漸失權本質上是資本主義的延續;是21世紀人類“元危機”的另一個名稱;以及逐漸失權是人類新繼任物種的進化。

科技故事:在奇點期間種植豆莖

本期故事是對一位前AI實驗室員工的採訪,他在2029年“提升時期”中期選擇遠離城市,在花園裏種植植物,觀察世界變化,並反思自己曾經的決策。