CyberSecQwen-4B:為什麼防禦性網絡安全需要小型、專用、本地可運行的模型
CyberSecQwen-4B是一個基於Qwen3-4B-Instruct微調的小型網絡安全專用模型,旨在解決防禦性網絡安全中對數據隱私、成本和離線部署的需求。該模型在CTI-Bench基準測試中,以4B參數量匹配甚至超過8B的Cisco Foundation-Sec-Instruct模型,同時完全在單個AMD MI300X GPU上訓練和運行。文章詳細介紹了訓練方法、數據來源、基準結果以及未來方向。
文章情報
要點
- CyberSecQwen-4B在CTI-MCQ任務上比8B的Cisco模型高出8.7個百分點,在CVE-CWE映射任務上保持97.3%的準確率,參數量減半。
- 模型在單張12 GB消費級GPU上運行,適合敏感數據不離站、低成本、離線環境。
- 使用LoRA微調,基於Qwen3-4B-Instruct,訓練數據包括MITRE/NVD的CVE-CWE映射和合成問答對,已去重。
- 未來計劃包括1B變體、GGUF量化、持續評估和對抗性魯棒性增強。
為甚麼重要
這條新聞值得關注,因為CyberSecQwen-4B在CTI-MCQ任務上比8B的Cisco模型高出8.7個百分點,在CVE-CWE映射任務上保持97.3%的準確率,參數量減半。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
前沿模型雖然能力強大,但調用成本高昂,且每次提示都要發送到第三方數據中心,同時它們被明確訓練為拒絕處理真實防禦者日常面對的混亂邊緣情況——比如事件報告、日誌中發現的可疑負載、漏洞披露草稿。防禦性網絡安全領域無法接受這些權衡。
敏感證據必須內部處理。SOC分析師處理泄露的憑證、惡意軟件逆向工程師分析樣本、漏洞研究人員撰寫CVE報告——他們都不應該將這些內容粘貼到託管API中。數據本身就可能成為泄露源。每次調用的API成本會累積,中規模SOC每天處理數千條低置信度警報,調用API解釋CVE或識別CWE會將防禦自動化變成預算問題。此外,隔離或部分連接的環境在關鍵基礎設施、醫療保健和政府工作中是常態,而不是例外。如果工具無法在筆記本電腦或單塊本地GPU上運行,它就無法在這些環境中部署。
攻擊者正在變得更加自動化。勒索軟件團伙使用LLM用30種語言起草釣魚郵件;漏洞賞金自動化工具鏈結合智能體進行模糊測試、分類和利用,速度超過人類審查。防禦需要與攻擊相同的速度,而這需要防禦者擁有並可運行的模型。
因此,本地運行至關重要。但僅僅“本地”還不夠。一個70B的通用模型在四塊GPU上本地運行是“本地”,但並不可部署。一個4B的通用模型在單塊消費級GPU上本地運行是可部署的,但在實際需要的任務上無法擊敗8B的專用模型。CyberSecQwen-4B的核心假設是,對於狹窄且經過充分評估的網絡威脅情報任務——如CWE分類、CVE到CWE映射、結構化CTI問答——精心調優的4B模型可以匹配甚至超越8B專用模型,同時適配12 GB消費級顯卡。
該項目針對最強的公共基線——Cisco的Foundation-Sec-Instruct-8B——進行了測試。在CTI-Bench基準上,CyberSecQwen-4B在CTI-MCQ(2500項多選題)上得分0.5868,比Cisco的0.4996高出8.7個百分點;在CTI-RCM(1000項CVE到CWE映射)上得分0.6664,相比Cisco的0.6850僅低1.9個百分點,保留了97.3%的準確率,而參數量僅為一半。
訓練在單個AMD Instinct MI300X 192 GB實例上完成,使用ROCm 7、FlashAttention-2、bf16精度,序列長度4096。訓練數據包括2021年MITRE/NVD的CVE-CWE映射(已去除與CTI-Bench評估集的重疊)以及基於去重CVE描述生成的合成防禦分析師問答對。基礎模型為Qwen3-4B-Instruct-2507,採用LoRA微調(r=64,alpha=64,dropout=0.05),學習率5e-5,餘弦退火,10個epoch。
為了驗證結果的普適性,團隊還用相同的數據和超參數訓練了基於Gemma-4-E2B-it的姊妹模型Gemma4Defense-2B。兩者在CTI-RCM上僅相差0.9個百分點,表明配方是有效的,而非特定於模型家族。CyberSecQwen-4B使用Apache 2.0許可,適用於對Gemma使用條款有顧慮的場景;Gemma4Defense-2B則在2B參數更適合部署時選用。
文章還提到了挑戰與解決方案,包括FlashAttention-2在Gemma-4上因頭維度512而失敗(回退到sdpa)、AITER內核衝突、bitsandbytes對ROCm的官方支持缺失、vLLM ROCm聊天模板處理等。
CyberSecQwen-4B旨在供安全從業者用於CWE分類、CTI問答和防禦性分類輔助。它明確不用於生成漏洞利用代碼、自動執行安全決策(需人工審核)、法律/醫療/監管建議或通用聊天/代碼生成。未來計劃包括開發1B變體以實現筆記本級部署、發佈GGUF量化版以在手機/邊緣設備運行、持續評估新CVE-CWE映射、以及增強對抗性提示注入魯棒性。