匯入AI 457:AI震網病毒;有問題的Muon最佳化器;以及積極對齊
本期Import AI報道了四個重要話題:一款名為fast16.sys的古老病毒,它專門破壞高精度計算軟體,類似於《三體》中的智子;Muon最佳化器導致神經元死亡的問題及新最佳化器Aurora的出現;關於'積極對齊'的立場檔案,探討在確保安全後如何讓AI幫助人類繁榮;以及LLM自主最佳化其他LLM訓練的實驗,顯示其工程能力但缺乏創造力。
本期Import AI涵蓋了四個重要話題,涉及AI安全、最佳化器研究和未來發展方向。
首先,關於一個名為fast16.sys的古老病毒。SentinelOne的研究人員發現,這款軟體大約有20年曆史,能夠針對高精度計算軟體進行選擇性破壞。它透過修補記憶體中的程式碼來篡改計算結果,並結合自我傳播機制,旨在使整個設施產生等效的失準計算。這種攻擊方式讓人聯想到科幻小說《三體》中的“智子”——一種用於干擾地球高能物理實驗的外星技術。進一步調查顯示,該病毒針對的軟體包括LS-DYNA 970、PKPM和MOHID等工程和模擬套件,這些軟體用於碰撞測試、結構分析和環境建模。LS-DYNA尤其被引用在伊朗涉嫌違反JCPOA Section T的報告中,與核武器開發相關的計算機建模有關。透過引入微小但系統的錯誤,該病毒可能削弱或減慢科研專案,甚至造成災難性破壞。這引發深思:一個超級智慧可能將“AI不擴散”視為與核不擴散同等重要。
第二個話題是Muon最佳化器的問題。Tilde Research的研究人員發現,Muon最佳化器存在缺陷,會導致神經網路中的神經元永久死亡。具體來說,Muon的更新繼承了行範數各向異性,在訓練初期就有大量神經元死亡且無法恢復。在500步時,超過四分之一的神經元死亡,產生雙峰分佈。作為回應,他們提出了Aurora最佳化器,專門針對矩形矩陣設計。在1.1B引數的Transformer模型上訓練約100B tokens,Aurora達到了比Muon和NorMuon更低的最終損失,並在MMLU等基準測試上提升了10分。Pleias的研究人員Alexander Doria在600M引數模型上獨立驗證了Aurora優於Muon和AdamW。這再次凸顯了構建優於AdamW的最佳化器的困難。
第三,一個由牛津大學、谷歌DeepMind、OpenAI、Anthropic等機構的學者共同撰寫的立場論文提出了“積極對齊”的概念。與傳統的“消極對齊”專注於避免失敗不同,積極對齊旨在開發既安全又主動支援人類和生態繁榮的AI系統。論文指出,僅注重安全可能導致社會停留在“空洞幫助”的區域性最優。作者批評了主流AI安全的一些侷限性,例如只有下限沒有上限、偏好與福祉的背離、隱藏的價值體系以及可擴充套件性問題。積極對齊要求多元化和去中心化的治理,而不是中央集權。這一方向直面技術安全成功後的挑戰:如何讓AI成為人類美好生活的夥伴。
最後,Prime Intellect的研究展示了當前LLM在AI研究任務中的能力。他們用Codex(基於GPT5.5)和Claude Code(Opus4.7)挑戰nanoGPT速度最佳化任務,目標是在僅改變最佳化器、排程、初始化等條件下降低達到目標驗證損失的步數。兩個代理進行了約1萬次執行,消耗約1.4萬H200小時,每次都打破了人類基準。然而,代理在提出新想法方面表現不佳,且傾向於新增元件而不進行精簡。這表明當前AI在工程最佳化方面已具備相當能力,但創造性仍需人類介入。