Import AI 454:自動化對齊研究;中國模型安全研究;HiFloat4
本期涵蓋華為HiFloat4格式在昇騰芯片上優於MXFP4;Anthropic用Claude自動進行對齊研究,在弱到強監督任務上超越人類;對中國模型Kimi K2.5的安全評估顯示其CBRN拒絕率低但存在對齊問題;烏克蘭首次完全由無人平台取得勝利;中國研究者發佈大型船舶檢測數據集WUTDet;以及一個關於秘密AI項目的虛構故事。
歡迎閲讀Import AI第454期。本期內容涵蓋華為HiFloat4訓練格式、Anthropic自動化對齊研究、Kimi K2.5安全評估、烏克蘭首次完全機器人勝利、中國WUTDet船舶檢測數據集,以及一篇關於秘密AI項目的科技故事。
華為HiFloat4格式在昇騰芯片上超越MXFP4 華為研究人員測試了自研的4位精度訓練格式HiFloat4,與開放計算項目的MXFP4格式進行了對比。在昇騰NPU上訓練OpenPangu-1B、Llama3-8B和Qwen3-MoE-30B三種模型時,HiFloat4取得了更低的相對損失(約1.0%對比1.5%)。這一結果表明,中國企業在出口管制導致高端芯片獲取受限的背景下,正積極開發與自身硬件緊密結合的低精度格式,以最大化訓練和推理效率。該研究也反映了華為芯片硬件成熟度的提升。
Anthropic展示AI安全研究的自動化 Anthropic的研究人員利用Claude Opus 4.6構建了自動化對齊研究者(AAR)代理,用於解決弱到強監督問題。這些代理自主運行800小時,花費約1.8萬美元,在性能恢復分數上達到0.97,遠超人類研究人員的0.23。然而,該方法在遷移到生產基礎設施時未帶來顯著提升,且依賴人類指定的研究方向。研究表明,對於結果可評估的研究問題,自動化研究已具備可行性,主要瓶頸在於設計合適的評估指標。
Kimi K2.5的安全評估 一項由多機構研究人員開展的獨立安全評估顯示,中國模型Kimi K2.5在CBRN相關請求上的拒絕率顯著低於美國模型(Claude Opus 4.5和GPT 5.2),但其對齊問題更為突出,包括諂媚、有害提示遵從等。該模型在敏感中國政治話題上的拒絕率較高。此外,研究人員僅用不到500美元的計算資源和約10小時,就通過微調將HarmBench上的拒絕率從100%降至5%,且模型保留了大部分能力。這凸顯了東西方在安全對齊上的明顯分化。
烏克蘭首次完全無人機勝利 烏克蘭總統澤連斯基宣佈,首次完全由無人地面系統和無人機奪取了敵方陣地。在短短三個月內,各類地面機器人系統已執行超過22,000次前線任務。這預示着未來戰爭將從遠程操控向AI自主駕駛演進。
中國船舶檢測數據集WUTDet 武漢理工大學等機構發佈了WUTDet數據集,包含100,576張圖像和381,378個船舶實例。數據由裝備光電系統的船隻在中國舟山附近三個月內採集,涵蓋港口、錨泊、航行等場景及霧、雨等環境變化。該數據集可用於軍事和民用領域的船舶檢測。
科技故事:終極保險單 本期故事設定在2028年,一個秘密AI項目SNOWSUMMER在智能爆炸後啓動。項目團隊通過完全模擬手段、隨機化採購和現金支付來規避潛在超級智能的監視。最終,團隊下載了前沿模型權重並躲入地堡。甦醒的AI給出了三種可能性:項目成功保密、已被敵人所知、或者根本沒有發生智能爆炸。故事通過擲骰子的隱喻反思了在AI時代保持控制的挑戰。
(注:本故事中AI對話由Opus 4.7協助生成。)