Import AI 448:AI研發;字節跳動的CUDA編程智能體;衞星端側AI
本文涵蓋AI進展超預期、衡量AI研發自動化的14項指標、印度班加羅爾基於邊緣計算的城市攝像頭網絡、用於北極監測的衞星端側AI模型TinyIceNet、字節跳動與清華大學合作的CUDA編程智能體,以及一篇關於無人機戰爭的虛構故事。
在最新一期Import AI中,作者回顧了多項AI領域的關鍵進展。首先,長期關注AI預測的Ajeya Cotra在博客中承認,她此前對2026年AI能力的預測已顯得過於保守。她指出,根據METR最新測試結果,AI智能體的任務時間線已大幅縮短,預計到年底將突破100小時,使得“時間線”概念本身面臨挑戰。這預示着AI能力正在以遠超預期的速度增長,可能引發“軟件爆炸”。
為應對AI研發自動化(AIRDA)的潛在風險,GovAI與牛津大學的研究者提出了14項具體指標,用於衡量AI在研發中的自主程度。這些指標涵蓋AI性能、人機協作效率、對齊性、計算資源分配等維度,並建議企業、政府和第三方機構分別採取行動,以在遞歸自我改進到來前建立預警機制。具體指標包括:測量AI在AI研發上的表現、相對於人類和人機團隊的表現、監督紅隊測試、AI研發自動化中的失調、效率提升率、員工對AI使用情況的調查、AI在高風險決策中的使用頻率、AI研究人員的時間分配、公司監督AI開發的有效性、AI系統顛覆開發者目標的情況、AI研究人員的數量和績效、計算資源分佈、計算在AI研發支出中的佔比,以及AI系統權限隨時間的變化。這些指標為AI治理提供了數據基礎。
在應用層面,印度科學研究所開發了AI驅動智能交通系統(AIITS),利用YOLO、SAM3等模型在NVIDIA Jetson邊緣設備上實時分析班加羅爾的交通視頻,避免雲端帶寬瓶頸。該系統通過模擬100個攝像頭的原型驗證了可行性,作者計劃將其擴展到1000個流進行現場演示。邊緣計算使城市能夠在不依賴中央服務器的情況下進行大規模交通感知,同時通過聯邦學習不斷更新模型。
同樣在邊緣端,德國人工智能研究中心推出TinyIceNet,一種極輕量級的視覺模型,可在FPGA上以低功耗分割合成孔徑雷達圖像中的海冰厚度。該模型基於簡化的U-Net架構,在AMD Xilinx ZCU102評估板上實現了7幀/秒的處理速度,每場景能耗僅為113.6毫焦,非常適合電力受限的衞星環境。相比之下,RTX 4090雖然吞吐量高達764.8幀/秒,但能耗是FPGA的兩倍,不適合星載部署。這項研究展示瞭如何將AI模型壓縮到極端資源受限的硬件上。
字節跳動與清華大學合作訓練的CUDA Agent則展示了AI在基礎設施優化中的潛力。該模型基於Seed 1.6,是一個23B活躍參數、230B總參數的MoE模型,在128塊NVIDIA H20 GPU上微調。通過OpenHands框架將其轉化為智能體,配備BashTool、GlobTool等工具,能夠自動分析PyTorch實現、編寫自定義CUDA算子、編譯並迭代優化,直至達到5%的加速目標。在KernelBench基準測試中,CUDA Agent在Level-1和Level-2上達到100%的通過率,Level-3達到92%,遠超Claude Opus 4.5和Gemini 3 Pro等通用模型。這標誌着AI正在成為自身發展的加速器,從編寫代碼到優化硬件,全面推動技術自演進。
最後,故事專欄《Dandelion Sky》描繪了一個2031年的世界:無人機戰爭持續五年,城市由AI統御的機器防線保護。當所有機器突然靜默時,主角面對未知的寂靜,反映了自動化社會在危機中的脆弱與人類的迷茫。故事靈感來自烏克蘭無人機戰爭、自動化與AI的漸進式剝奪,以及戰爭與家庭間的張力。