2026-05-06 07:40 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

Kimi K2.5 技术博客：视觉代理智能

Kimi K2.5 是一个开源多模态模型，在编码和视觉任务上表现卓越。它引入自我导向的代理群体，可协调多达100个子代理并行执行，将任务完成时间缩短高达4.5倍。该模型在办公生产力方面同样出色，能处理复杂的文档、电子表格和演示文稿。Kimi K2.5 已通过Kimi.com、应用、API和Kimi Code等多个平台提供，标志着开源社区向通用人工智能迈出了重要一步。

来源Kimi Blog

Kimi K2.5 是 Moonshot AI 最新发布的开源多模态模型，基于 Kimi K2 通过约15万亿视觉和文本令牌的持续预训练构建。作为原生多模态模型，K2.5 在编码和视觉能力上达到业界领先水平，并引入了自我导向的代理群体范式。

在编码方面，K2.5 是当前最强的开源编码模型，尤其在前后端开发中表现出色。它能将简单的对话转化为完整的前端界面，实现交互式布局和丰富的动画效果。更重要的是，K2.5 支持视觉编码，能够通过图像和视频进行推理，提升图像/视频到代码的生成和视觉调试能力。例如，K2.5 可以仅通过观看网站视频就重建出该网站，或者通过分析迷宫图片并使用 BFS 算法找到最短路径。

代理群体是 K2.5 的另一大亮点。通过并行代理强化学习（PARL）训练，K2.5 学会了自我指导一个包含多达100个子代理的群体，在多达1500个工具调用中并行执行工作流，与单代理设置相比，执行时间减少高达4.5倍。PARL 采用阶段奖励塑形，早期鼓励并行，后期聚焦任务成功，并引入关键步骤（Critical Steps）这一延迟导向指标来推动并行策略。例如，在识别100个垂直领域中的顶尖 YouTube 创作者任务中，K2.5 代理群体自动创建100个子代理并行搜索，最终将结果汇总到电子表格中。

在办公生产力方面，K2.5 能够端到端处理高密度、大规模的工作任务，包括文档、电子表格、PDF 和幻灯片。在内部 AI Office 基准测试中，K2.5 相比 K2 Thinking 提升 59.3%，在通用代理基准测试中提升 24.3%。K2.5 支持在 Word 中添加注释、构建带数据透视表的财务模型、在 PDF 中编写 LaTeX 公式，并能输出长达一万字的论文或百页文档。

K2.5 已通过 Kimi.com、Kimi 应用、API 和 Kimi Code 提供。Kimi.com 和 Kimi 应用现支持四种模式：K2.5 即时、K2.5 思考、K2.5 代理和 K2.5 代理群体（测试版）。对于软件工程场景，推荐搭配 Kimi Code 使用，后者是开源产品，支持图像和视频输入，并能自动发现和迁移现有技能。

总之，Kimi K2.5 代表了开源社区向通用人工智能迈出的重要一步，在真实世界任务中展现了强大能力。未来，Moonshot AI 将继续推进代理智能的边界，重新定义 AI 在知识工作中的角色。

附注：基准测试显示 K2.5 在多项评估中表现突出，包括 HLE、BrowseComp、SWE-Bench Verified 等。详细表格见附录，涵盖推理、视觉、编码、长上下文和代理搜索等领域。K2.5 在保持成本效益的同时，提供了与顶级闭源模型竞争的性能。