AI News HubLIVE
站內改寫2 分鐘閱讀

Claude Mythos與誤導性的開源模型恐慌

本文分析了Claude Mythos模型發佈後引發的關於開源AI模型安全風險的討論。作者認為這種恐慌與以往類似,指出開源模型的能力差距、運行成本以及具體的安全評估需求,呼籲進行細緻研究而非全面禁止。

來源Interconnects (Nathan Lambert)作者: Nathan Lambert

隨着Claude Mythos模型的發佈,其強大的能力(尤其在網絡安全領域)引發了一波反對開源AI模型的浪潮。批評者認為,數字基礎設施尚未準備好應對開源版本,可能導致多方發起攻擊。然而,作者指出,這種反衝將許多未知因素簡單化為籠統的政策建議,反而可能削弱網絡安全準備。

回顧歷史,類似恐慌曾出現在OpenAI withheld GPT-2權重及發佈GPT-4時,但均未成真。當前討論的核心錯誤在於假設開閉源模型能力差距靜止,並將開放權重一般性與具體問題掛鈎。作者此前已論證,最優秀的前沿開源模型在整體能力上將落後於閉源模型,但6至18個月的時間差實際上是一種平衡:既允許安全監測,又促進開源生態系統發展。

對於網絡安全領域,情況更為複雜。開源模型在特定基準上保持較快跟進,但閉源模型在通用代理能力上仍佔優勢。評估Claude Mythos級別開源模型的風險,需要了解三個要素:訓練與發佈權重、賦予模型有效工具的“馬具”、以及推理計算與軟件。當前估算表明,領先閉源模型參數規模約3-5萬億,而最大開源模型(來自中國實驗室)約1萬億。Claude Mythos的定價是Opus的5倍,可能源於參數倍增與推理效率降低。

運行如此規模的模型成本高昂:8萬億參數的MoE模型可能需要約100塊H100 GPU,每天花費約1萬美元。這意味着只有極少數行動者能獲取這些資源,而非每個互聯網用户。作者強調,工具如Mythos將賦予頂尖攻擊者更強大的能力,但不會讓每個青少年都擁有核武器。

作者承認,網絡安全濫用可能成為一條紅線,使得發佈超過一定能力閾值的開源文本模型存在道德問題。但基於過往經驗,目前尚不能將其作為停止開源模型進展的普遍理由。當Claude Mythos僅對少數合作伙伴開放時,強大的開源模型反而有助於評估風險。完全依賴單一私營公司決定國際基礎設施安全並非可持續的平衡。

最後,作者提出三個研究方向:測量開源與閉源模型在網絡安全能力上的差距(是否保持6-9個月滯後);獨立評估Claude Mythos和Project Glasswing對現有網絡安全問題的實際影響;若模型能力跟進且防禦能力不足,如何更好地監控乃至監管特定領域能力。目標是鼓勵對開源模型的恐懼保持具體性。全面禁止開源模型將剝奪國家影響這項技術的能力,且無法徹底消滅開源模型,只能引導和理解。