Kimi K2.5 技術博客:視覺代理智能
Kimi K2.5 是一個開源多模態模型,在編碼和視覺任務上表現卓越。它引入自我導向的代理羣體,可協調多達100個子代理並行執行,將任務完成時間縮短高達4.5倍。該模型在辦公生產力方面同樣出色,能處理複雜的文檔、電子表格和演示文稿。Kimi K2.5 已通過Kimi.com、應用、API和Kimi Code等多個平台提供,標誌着開源社區向通用人工智能邁出了重要一步。
Kimi K2.5 是 Moonshot AI 最新發布的開源多模態模型,基於 Kimi K2 通過約15萬億視覺和文本令牌的持續預訓練構建。作為原生多模態模型,K2.5 在編碼和視覺能力上達到業界領先水平,並引入了自我導向的代理羣體範式。
在編碼方面,K2.5 是當前最強的開源編碼模型,尤其在前後端開發中表現出色。它能將簡單的對話轉化為完整的前端界面,實現交互式佈局和豐富的動畫效果。更重要的是,K2.5 支持視覺編碼,能夠通過圖像和視頻進行推理,提升圖像/視頻到代碼的生成和視覺調試能力。例如,K2.5 可以僅通過觀看網站視頻就重建出該網站,或者通過分析迷宮圖片並使用 BFS 算法找到最短路徑。
代理羣體是 K2.5 的另一大亮點。通過並行代理強化學習(PARL)訓練,K2.5 學會了自我指導一個包含多達100個子代理的羣體,在多達1500個工具調用中並行執行工作流,與單代理設置相比,執行時間減少高達4.5倍。PARL 採用階段獎勵塑形,早期鼓勵並行,後期聚焦任務成功,並引入關鍵步驟(Critical Steps)這一延遲導向指標來推動並行策略。例如,在識別100個垂直領域中的頂尖 YouTube 創作者任務中,K2.5 代理羣體自動創建100個子代理並行搜索,最終將結果彙總到電子表格中。
在辦公生產力方面,K2.5 能夠端到端處理高密度、大規模的工作任務,包括文檔、電子表格、PDF 和幻燈片。在內部 AI Office 基準測試中,K2.5 相比 K2 Thinking 提升 59.3%,在通用代理基準測試中提升 24.3%。K2.5 支持在 Word 中添加註釋、構建帶數據透視表的財務模型、在 PDF 中編寫 LaTeX 公式,並能輸出長達一萬字的論文或百頁文檔。
K2.5 已通過 Kimi.com、Kimi 應用、API 和 Kimi Code 提供。Kimi.com 和 Kimi 應用現支持四種模式:K2.5 即時、K2.5 思考、K2.5 代理和 K2.5 代理羣體(測試版)。對於軟件工程場景,推薦搭配 Kimi Code 使用,後者是開源產品,支持圖像和視頻輸入,並能自動發現和遷移現有技能。
總之,Kimi K2.5 代表了開源社區向通用人工智能邁出的重要一步,在真實世界任務中展現了強大能力。未來,Moonshot AI 將繼續推進代理智能的邊界,重新定義 AI 在知識工作中的角色。
附註:基準測試顯示 K2.5 在多項評估中表現突出,包括 HLE、BrowseComp、SWE-Bench Verified 等。詳細表格見附錄,涵蓋推理、視覺、編碼、長上下文和代理搜索等領域。K2.5 在保持成本效益的同時,提供了與頂級閉源模型競爭的性能。