DeepSeek-V2.5:融合通用與編程能力的新開源模型
DeepSeek正式發佈DeepSeek-V2.5,該模型融合了DeepSeek-V2-0628的通用對話能力和DeepSeek-Coder-V2-0724的強大代碼處理能力,在寫作、指令跟隨等任務上顯著提升,並增強了安全性和人類偏好對齊。模型現已開源並在網頁和API上可用。
文章情報
要點
- DeepSeek-V2.5合併了通用聊天模型和代碼模型,提供一體化體驗。
- 在多項基準測試中表現優於前代版本,尤其在中文內容創作和問答方面。
- 安全性大幅提升,抵抗越獄攻擊能力增強,同時減少對正常查詢的誤傷。
- 代碼能力保留並優化,FIM補全任務提升5.1%,在HumanEval和LiveCodeBench上表現更好。
為甚麼重要
這條新聞值得關注,因為DeepSeek-V2.5合併了通用聊天模型和代碼模型,提供一體化體驗。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
DeepSeek於2024年9月5日正式發佈了DeepSeek-V2.5,這是一個將通用對話與編程能力深度融合的新一代開源模型。該模型由DeepSeek-V2-0628和DeepSeek-Coder-V2-0724合併而成,不僅保留了前者的通用對話能力,還繼承了後者的強大代碼處理能力,並在對齊人類偏好方面進行了優化。此外,DeepSeek-V2.5在寫作和指令跟隨等任務上取得了顯著進步,現已通過網頁和API向用户開放,且API端點向後兼容,用户可通過deepseek-coder或deepseek-chat調用。
在通用能力方面,DeepSeek-V2.5在大多數行業標準測試集上超越了前代版本。內部中文評估顯示,與DeepSeek-V2-0628相比,該模型對GPT-4o mini和ChatGPT-4o-latest的勝率顯著提高,尤其是在內容創作和問答任務中,整體用户體驗得到提升。
安全性是本次迭代的重點之一。DeepSeek-V2.5更清晰地定義了模型安全邊界,在增強抵禦越獄攻擊能力的同時,減少了安全策略對正常查詢的過度泛化。內部測試顯示,整體安全得分從DeepSeek-V2-0628的74.4%提升至82.6%,安全溢出率從11.3%降至4.6%。
在代碼領域,DeepSeek-V2.5保留了DeepSeek-Coder-V2-0724的強大能力,並在HumanEval Python和LiveCodeBench(2024年1月至9月)上取得顯著進步。FIM補全任務在內部評估中提升了5.1%,增強了插件補全體驗。儘管在HumanEval多語言和Aider測試中略遜於Coder-V2-0724,但整體代碼能力仍處於領先水平。
目前,DeepSeek-V2.5已作為開源模型在HuggingFace上發佈,研究人員和開發者可以自由訪問和使用。此版本標誌着DeepSeek在構建統一高效AI模型方面邁出了重要一步。