DeepSeek-V2.5:融合通用与编程能力的新开源模型
DeepSeek正式发布DeepSeek-V2.5,该模型融合了DeepSeek-V2-0628的通用对话能力和DeepSeek-Coder-V2-0724的强大代码处理能力,在写作、指令跟随等任务上显著提升,并增强了安全性和人类偏好对齐。模型现已开源并在网页和API上可用。
文章情报
要点
- DeepSeek-V2.5合并了通用聊天模型和代码模型,提供一体化体验。
- 在多项基准测试中表现优于前代版本,尤其在中文内容创作和问答方面。
- 安全性大幅提升,抵抗越狱攻击能力增强,同时减少对正常查询的误伤。
- 代码能力保留并优化,FIM补全任务提升5.1%,在HumanEval和LiveCodeBench上表现更好。
为什么重要
这条新闻值得关注,因为DeepSeek-V2.5合并了通用聊天模型和代码模型,提供一体化体验。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
DeepSeek于2024年9月5日正式发布了DeepSeek-V2.5,这是一个将通用对话与编程能力深度融合的新一代开源模型。该模型由DeepSeek-V2-0628和DeepSeek-Coder-V2-0724合并而成,不仅保留了前者的通用对话能力,还继承了后者的强大代码处理能力,并在对齐人类偏好方面进行了优化。此外,DeepSeek-V2.5在写作和指令跟随等任务上取得了显著进步,现已通过网页和API向用户开放,且API端点向后兼容,用户可通过deepseek-coder或deepseek-chat调用。
在通用能力方面,DeepSeek-V2.5在大多数行业标准测试集上超越了前代版本。内部中文评估显示,与DeepSeek-V2-0628相比,该模型对GPT-4o mini和ChatGPT-4o-latest的胜率显著提高,尤其是在内容创作和问答任务中,整体用户体验得到提升。
安全性是本次迭代的重点之一。DeepSeek-V2.5更清晰地定义了模型安全边界,在增强抵御越狱攻击能力的同时,减少了安全策略对正常查询的过度泛化。内部测试显示,整体安全得分从DeepSeek-V2-0628的74.4%提升至82.6%,安全溢出率从11.3%降至4.6%。
在代码领域,DeepSeek-V2.5保留了DeepSeek-Coder-V2-0724的强大能力,并在HumanEval Python和LiveCodeBench(2024年1月至9月)上取得显著进步。FIM补全任务在内部评估中提升了5.1%,增强了插件补全体验。尽管在HumanEval多语言和Aider测试中略逊于Coder-V2-0724,但整体代码能力仍处于领先水平。
目前,DeepSeek-V2.5已作为开源模型在HuggingFace上发布,研究人员和开发者可以自由访问和使用。此版本标志着DeepSeek在构建统一高效AI模型方面迈出了重要一步。