2026-04-10 05:28 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Claude Mythos與誤導性的開源模型恐慌

本文分析了Claude Mythos模型發佈後引發的關於開源AI模型安全風險的討論。作者認為這種恐慌與以往類似，指出開源模型的能力差距、運行成本以及具體的安全評估需求，呼籲進行細緻研究而非全面禁止。

來源Interconnects (Nathan Lambert)作者: Nathan Lambert

隨着Claude Mythos模型的發佈，其強大的能力（尤其在網絡安全領域）引發了一波反對開源AI模型的浪潮。批評者認為，數字基礎設施尚未準備好應對開源版本，可能導致多方發起攻擊。然而，作者指出，這種反衝將許多未知因素簡單化為籠統的政策建議，反而可能削弱網絡安全準備。

回顧歷史，類似恐慌曾出現在OpenAI withheld GPT-2權重及發佈GPT-4時，但均未成真。當前討論的核心錯誤在於假設開閉源模型能力差距靜止，並將開放權重一般性與具體問題掛鈎。作者此前已論證，最優秀的前沿開源模型在整體能力上將落後於閉源模型，但6至18個月的時間差實際上是一種平衡：既允許安全監測，又促進開源生態系統發展。

對於網絡安全領域，情況更為複雜。開源模型在特定基準上保持較快跟進，但閉源模型在通用代理能力上仍佔優勢。評估Claude Mythos級別開源模型的風險，需要了解三個要素：訓練與發佈權重、賦予模型有效工具的“馬具”、以及推理計算與軟件。當前估算表明，領先閉源模型參數規模約3-5萬億，而最大開源模型（來自中國實驗室）約1萬億。Claude Mythos的定價是Opus的5倍，可能源於參數倍增與推理效率降低。

運行如此規模的模型成本高昂：8萬億參數的MoE模型可能需要約100塊H100 GPU，每天花費約1萬美元。這意味着只有極少數行動者能獲取這些資源，而非每個互聯網用户。作者強調，工具如Mythos將賦予頂尖攻擊者更強大的能力，但不會讓每個青少年都擁有核武器。

作者承認，網絡安全濫用可能成為一條紅線，使得發佈超過一定能力閾值的開源文本模型存在道德問題。但基於過往經驗，目前尚不能將其作為停止開源模型進展的普遍理由。當Claude Mythos僅對少數合作伙伴開放時，強大的開源模型反而有助於評估風險。完全依賴單一私營公司決定國際基礎設施安全並非可持續的平衡。

最後，作者提出三個研究方向：測量開源與閉源模型在網絡安全能力上的差距（是否保持6-9個月滯後）；獨立評估Claude Mythos和Project Glasswing對現有網絡安全問題的實際影響；若模型能力跟進且防禦能力不足，如何更好地監控乃至監管特定領域能力。目標是鼓勵對開源模型的恐懼保持具體性。全面禁止開源模型將剝奪國家影響這項技術的能力，且無法徹底消滅開源模型，只能引導和理解。