AI News HubLIVE
公開文章 7採集文章 7可信度 88刷新頻率 120 分鐘
健康狀態 健康來源類型 官方原文權限 官方原文最近入庫 2026-05-05ID kimi-blog運行狀態 已啟用

Official Kimi/Moonshot blog listing; verify terms before displaying full body.

最新公開文章

Kimi K2:開放智能體智能平台

Kimi K2 是一個開放智能體智能平台,提供多種工具和研究成果,包括電子表格公式、文檔處理、AI代理部署、代碼代理、瀏覽器擴展等,以及Kimi K2.6、Agent Swarm等前沿研究。

  • 支持Excel公式、數據透視表和圖表生成
  • 一鍵部署24/7運行的AI代理(Kimi Claw)
站內正文

Kimi K2 思考模型

Kimi K2 是一個開源思考模型,提供多種AI工具,包括Excel公式生成、文檔處理、代碼代理、瀏覽器擴展等,支持Agent Swarm和深度研究功能。

  • 開源思考模型,適用於多種AI任務
  • 集成Sheets、Docs、Code等工具
站內正文

Kimi 供應商驗證器

Kimi 開源了供應商驗證器(KVV),旨在幫助用户驗證開源模型推理實現的準確性。項目包含六項關鍵基準測試,用於檢測部署中的常見問題,並推動基礎設施提供商修復根本原因。

  • KVV 包含預驗證、OCRBench、MMMU Pro、AIME2025、工具調用測試和 SWE-Bench 六項基準測試。
  • 項目通過持續基準測試公開排行榜,增強透明度。
站內正文

Kimi K2.5 技術博客:視覺代理智能

Kimi K2.5 是一個開源多模態模型,在編碼和視覺任務上表現卓越。它引入自我導向的代理羣體,可協調多達100個子代理並行執行,將任務完成時間縮短高達4.5倍。該模型在辦公生產力方面同樣出色,能處理複雜的文檔、電子表格和演示文稿。Kimi K2.5 已通過Kimi.com、應用、API和Kimi Code等多個平台提供,標誌着開源社區向通用人工智能邁出了重要一步。

  • 具備視覺能力的開源編碼模型,達到最先進水平。
  • 自我導向代理羣體,可並行調用多達100個子代理。
站內正文

WorldVQA:衡量多模態大語言模型中的原子世界知識

WorldVQA是一個新基準,用於評估多模態大語言模型在視覺世界知識上的事實準確性。它包含3500個高質量的圖像-問題對,涵蓋9個類別,重點關注頭部與尾部知識分佈。前沿模型準確率低於50%,暴露出過度自信和視覺知識差距。

  • WorldVQA基準測試多模態大語言模型的原子視覺世界知識,使用3500個高質量的圖像-問題對。
  • 模型表現顯著掙扎,頂級模型準確率低於50%,尤其在長尾知識上表現更差。
站內正文

Kimi Agent Swarm:大規模並行100個子代理

Kimi推出Agent Swarm,支持最多100個子代理並行工作,實現水平擴展而非垂直擴展。該架構讓AI自我組織,如同一個公司或實驗室,可自動分解任務、分配代理、合成結果,在廣泛研究、批量處理、多角度分析等場景顯著提升效率。目前面向頂級訂閲用户開放研究預覽。

  • Agent Swarm實現水平擴展,支持多達100個並行子代理和1500次工具調用,速度比串行快4.5倍。
  • 系統自動組織代理團隊,包括CEO、研究員、分析師等角色,無需人類微管理。
站內正文

Kimi K2.6 技術博客:推進開源編碼

Kimi K2.6 是一款全新的開源模型,具備最先進的編碼、長週期執行和智能體羣體能力。本文詳細介紹了其核心技術、性能提升、應用場景以及社區反饋。

  • Kimi K2.6 在編碼任務上達到領先水平,支持長週期自主執行
  • 模型在SWE-Bench、Terminal-Bench等基準測試中表現出色
站內正文

全部來源