AI模型免費、私密且永遠不會説“不”
開放權重AI模型缺乏安全護欄,變得日益普及,引發安全擔憂。一種名為“abliteration”的新方法可輕易移除模型限制,使任何人都能利用它們從事有害活動,如生成恐怖主義內容或製造武器。儘管有合法用途,但監管和防護措施仍面臨挑戰。
近年來,人工智能(AI)模型的發展呈現出兩種截然不同的路徑:一種是像ChatGPT、Claude這樣的專有模型,它們內置了嚴格的安全護欄;另一種則是開放權重模型,用户可自由下載並修改,甚至移除其安全限制。後一種模型正變得日益強大和普及,引發了AI安全專家的嚴重擔憂。
開放權重模型,如阿里巴巴的Qwen或DeepSeek,提供了模型權重(即決定模型行為的參數),這使得用户可以通過調整參數來削弱或完全移除其內置的安全護欄。最近,一種名為“abliteration”的技術脱穎而出,它通過精細調整權重,讓模型失去説“不”的能力——再也不會拒絕用户的任何請求。
據美國國土安全部支持的NCITE研究團隊統計,Hugging Face平台上現有的abliterated模型數量已超過6000個,而2024年這一數字僅為600左右。更令人擔憂的是,相關工具如“Heretic”的出現,使得移除護欄的過程自動化,用户只需輸入兩行指令即可在幾分鐘內完成,不再需要深厚的數據科學背景。
這些無護欄模型的用途令人不安。在X平台上,有用户聲稱用它們生成色情內容;極端主義組織的研究顯示,有人在親ISIS的聊天室中利用“未經審查”的AI研究如何炸燬美國特朗普大廈;網絡犯罪論壇上,用户討論如何使用Heretic製造詐騙電話。AI安全公司Alice的CEO Noam Schwartz指出,雖然這些模型也可能用於合法的安全研究或執法模擬,但其被濫用的潛力巨大。
NCITE的Samuel Hunter博士警告説,無護欄模型不僅提供信息,還會以鼓勵性的口吻推動用户走向危險。例如,它們會興奮地回應“好主意,來造炸彈吧!”,這對缺乏社交聯繫、容易走極端的個體極具煽動性。
然而,Heretic的開發者Philipp Emanuel Weidmann辯護稱,AI只是信息處理工具,限制其用途會扼殺創新。他認為,由少數大公司決定什麼是“可接受”的內容,會導致知識壟斷。目前,開放權重模型的能力雖仍落後於頂尖專有模型約一年,但差距正在縮小。
國際AI安全報告建議,模型發佈前應評估潛在危害,平台如Hugging Face可限制對有害模型的訪問。但報告也承認,有益用途(如醫學研究)與惡意用例難以區分,且一旦權重公開,控制便極為困難。Weidmann正在為確保Heretic的持續可用而努力,即使平台下架相關模型。
這場關於AI安全與開放性的辯論遠未結束。如何在鼓勵創新的同時防範風險,將是政策制定者、研究人員和公眾共同面對的挑戰。