AI News HubLIVE
站内改写2 分钟阅读

Kimi K2.5 技术博客:视觉代理智能

Kimi K2.5 是一个开源多模态模型,在编码和视觉任务上表现卓越。它引入自我导向的代理群体,可协调多达100个子代理并行执行,将任务完成时间缩短高达4.5倍。该模型在办公生产力方面同样出色,能处理复杂的文档、电子表格和演示文稿。Kimi K2.5 已通过Kimi.com、应用、API和Kimi Code等多个平台提供,标志着开源社区向通用人工智能迈出了重要一步。

来源Kimi Blog

Kimi K2.5 是 Moonshot AI 最新发布的开源多模态模型,基于 Kimi K2 通过约15万亿视觉和文本令牌的持续预训练构建。作为原生多模态模型,K2.5 在编码和视觉能力上达到业界领先水平,并引入了自我导向的代理群体范式。

在编码方面,K2.5 是当前最强的开源编码模型,尤其在前后端开发中表现出色。它能将简单的对话转化为完整的前端界面,实现交互式布局和丰富的动画效果。更重要的是,K2.5 支持视觉编码,能够通过图像和视频进行推理,提升图像/视频到代码的生成和视觉调试能力。例如,K2.5 可以仅通过观看网站视频就重建出该网站,或者通过分析迷宫图片并使用 BFS 算法找到最短路径。

代理群体是 K2.5 的另一大亮点。通过并行代理强化学习(PARL)训练,K2.5 学会了自我指导一个包含多达100个子代理的群体,在多达1500个工具调用中并行执行工作流,与单代理设置相比,执行时间减少高达4.5倍。PARL 采用阶段奖励塑形,早期鼓励并行,后期聚焦任务成功,并引入关键步骤(Critical Steps)这一延迟导向指标来推动并行策略。例如,在识别100个垂直领域中的顶尖 YouTube 创作者任务中,K2.5 代理群体自动创建100个子代理并行搜索,最终将结果汇总到电子表格中。

在办公生产力方面,K2.5 能够端到端处理高密度、大规模的工作任务,包括文档、电子表格、PDF 和幻灯片。在内部 AI Office 基准测试中,K2.5 相比 K2 Thinking 提升 59.3%,在通用代理基准测试中提升 24.3%。K2.5 支持在 Word 中添加注释、构建带数据透视表的财务模型、在 PDF 中编写 LaTeX 公式,并能输出长达一万字的论文或百页文档。

K2.5 已通过 Kimi.com、Kimi 应用、API 和 Kimi Code 提供。Kimi.com 和 Kimi 应用现支持四种模式:K2.5 即时、K2.5 思考、K2.5 代理和 K2.5 代理群体(测试版)。对于软件工程场景,推荐搭配 Kimi Code 使用,后者是开源产品,支持图像和视频输入,并能自动发现和迁移现有技能。

总之,Kimi K2.5 代表了开源社区向通用人工智能迈出的重要一步,在真实世界任务中展现了强大能力。未来,Moonshot AI 将继续推进代理智能的边界,重新定义 AI 在知识工作中的角色。

附注:基准测试显示 K2.5 在多项评估中表现突出,包括 HLE、BrowseComp、SWE-Bench Verified 等。详细表格见附录,涵盖推理、视觉、编码、长上下文和代理搜索等领域。K2.5 在保持成本效益的同时,提供了与顶级闭源模型竞争的性能。