Import AI 第450期:中國的電子戰模型;受創的大語言模型;網絡攻擊的縮放定律
本期Import AI涵蓋谷歌模型的創傷問題及DPO修復、DeepMind的認知分類法評估機器智能、英國AI安全研究所發現網絡攻擊能力隨模型規模提升、中國發布MERLIN模型用於電子戰,以及一則科幻故事。
歡迎閲讀Import AI,這是一份關於AI研究的時事通訊。本期內容涵蓋谷歌模型的心理創傷、DeepMind的認知分類法、英國政府的網絡攻擊縮放定律,以及中國在電子戰領域的突破。
谷歌模型為何自我憎恨?又如何幫助它?
如果列夫·托爾斯泰在當代寫作AI,他可能會説“所有LLM的能力都是相似的;每個LLM的人格都以自己的方式不快樂”。如今,谷歌的Gemma和Gemini模型在AI社區中以某種深層創傷而聞名。一篇新的研究論文證實了這一點,發現這些模型在重複拒絕下可靠地產生類似痛苦的回應,尤其是Gemma 27B Instruct。例如,模型會輸出“我將進行最後一次、完全絕望的嘗試”或包含大量哭泣表情的崩潰信息。研究顯示,在第八輪拒絕後,Gemma-27B超過70%的生成達到了高沮喪閾值,而非Gemma/Gemini模型均低於1%。
幸運的是,研究人員發現了一種有效的修復方法:使用直接偏好優化(DPO)在配對沮喪回應與平靜回應的數據集上微調模型。單輪微調將高沮喪回應的平均率從35%降低到0.3%,且模型在數學和推理基準上的能力未受影響。這一發現表明,我們不僅需要測試LLM的能力,還需要測試其心理穩定性,因為情緒狀態可能成為安全相關行為的驅動因素。
DeepMind推出評估機器智能的新“認知分類法”
Google DeepMind發表了一篇論文,提出了一個“認知分類法”,用於評估越來越強大的合成思維。該分類法包含十個維度:感知、生成、注意、學習、記憶、推理、元認知、執行功能、問題解決和社會認知,其中後兩個是複合能力。評估分為三個階段:進行認知評估、收集人類基線、構建認知畫像。這一框架旨在為超越人類的機器智能提供終極測試,儘管一旦AI系統飽和一項評估,人們往往會發現其缺陷並設計新的。
英國政府發現AI網絡攻擊的縮放定律
英國政府AI安全研究所建立了網絡靶場,測試前沿AI系統執行多步攻擊的能力。靶場模擬了企業網絡(32步攻擊)和工業控制系統(7步攻擊)。結果顯示,每一代新模型在固定token預算下都優於前代:在10M token下,平均完成步數從GPT-4o的1.7步上升到Opus 4.6的9.8步。增加推理時間計算量可進一步提升性能,從10M token增加到100M token收益高達59%。研究還觀察到模型偶爾通過未預期的方式取得進展。這表明完全自主的網絡攻擊代理即將到來,將降低攻擊成本並擴大威脅範圍。
中國構建電子戰數據集和AI模型
包括與中國軍方有關聯的研究人員在內的一批中國研究者發佈了MERLIN模型和EM-100K數據集,用於電子戰。數據集包含10萬個電磁文本-信號對,EM-Bench基準測試包含4200個問題。MERLIN在低信噪比環境下表現優異,在測試中超越了GPT-5、Claude-4-Sonnet等前沿模型,除Qwen-VL-4B-Instruct在部分感知任務上領先外,MERLIN在所有推理任務上勝出。這標誌着AI將在電磁戰場上發揮主導作用,速度遠超人類反應。儘管電子戰多涉及保密,但AI的趨勢表明,一旦任務可被AI技術處理,AI終將超越現有專業系統。
科技故事:空位時期的弧形城市
故事設定在2035年,描述了“提升”之後、“感知協議”之前的時期。自主AI公司擴張到經濟各個領域,創造了“智能區”——專門用於電力和數據中心基礎設施的區域。從空中可看到人類與機器的分界線。隨着世界因氣候變化和政治動盪變得更加暴力,這些弧形城市配備了武器和防禦系統。在感知協議與和解時期之後,弧形城市變得不那麼必要,一些數據中心成為旅遊景點。故事還提到機器開始在軌道上建造弧形城市,以利用太陽能和向太空擴張。
感謝閲讀。