AI News HubLIVE
サイト内リライト2 分で読了

Kimi K2.5 テクノロジーブログ:ビジュアルエージェントインテリジェンス

Kimi K2.5は、コーディングとビジョンタスクにおいて最先端の性能を発揮するオープンソースのマルチモーダルモデルです。最大100のサブエージェントを調整して並列実行する自己指示型エージェント群を備え、タスク完了時間を最大4.5倍短縮します。また、複雑なドキュメント、スプレッドシート、プレゼンテーションを処理するオフィス生産性にも優れています。Kimi.com、アプリ、API、Kimi Codeを通じて利用可能で、オープンソースコミュニティにとってAGIへの重要な一歩となります。

ソースKimi Blog

Kimi K2.5は、Moonshot AIが最新リリースしたオープンソースのマルチモーダルモデルであり、Kimi K2をベースに約15兆の視覚・テキストトークンで継続事前学習されています。ネイティブマルチモーダルモデルとして、K2.5はコーディングとビジョン能力において業界トップレベルを達成し、自己指示型エージェント群パラダイムを導入しています。

コーディングにおいて、K2.5は現時点で最も強力なオープンソースモデルであり、特にフロントエンド開発で優れた性能を発揮します。簡単な会話から完全なフロントエンドインターフェースを生成し、インタラクティブなレイアウトやリッチなアニメーションを実現します。さらに、K2.5はビジョンを用いたコーディングをサポートし、画像や動画を推論してコード生成やビジュアルデバッグを向上させます。例えば、ウェブサイトの動画を見ただけでそのサイトを再構築したり、迷路画像を分析してBFSアルゴリズムで最短経路を見つけることができます。

エージェント群はK2.5の大きな特徴です。並列エージェント強化学習(PARL)により、K2.5は最大100のサブエージェントからなる群れを自己指示し、最大1500のツールコールを並列実行します。これにより、単一エージェントと比較して実行時間を最大4.5倍短縮します。PARLは段階的な報酬形成を採用し、初期は並列性を促進、後期はタスク成功に焦点を当て、クリティカルステップというレイテンシ指標で並列戦略を推進します。例えば、100のニッチ分野でトップYouTubeクリエイターを特定するタスクでは、K2.5エージェント群が自動的に100のサブエージェントを作成し並列検索を実行、結果をスプレッドシートに集約します。

オフィス生産性において、K2.5は高密度・大規模な業務をエンドツーエンドで処理できます。ドキュメント、スプレッドシート、PDF、スライドなどに対応し、内部AI OfficeベンチマークではK2 Thinking比59.3%向上、汎用エージェントベンチマークでは24.3%向上しました。K2.5はWordへの注釈追加、ピボットテーブルを用いた財務モデル構築、PDF内でのLaTeX数式作成などをサポートし、1万字の論文や100ページのドキュメントを出力できます。

K2.5はKimi.com、Kimiアプリ、API、Kimi Codeを通じて利用可能です。Kimi.comとKimiアプリは現在、K2.5 Instant、K2.5 Thinking、K2.5 Agent、K2.5 Agent Swarm(ベータ)の4モードをサポートしています。ソフトウェアエンジニアリングのユースケースには、画像や動画入力をサポートするオープンソース製品のKimi Codeの併用が推奨されます。

結論として、Kimi K2.5はオープンソースコミュニティにとってAGIへの重要な一歩であり、現実世界のタスクで強力な能力を示しています。Moonshot AIは今後もエージェントインテリジェンスの最前線を押し進め、知識作業におけるAIの役割を再定義します。

付録:ベンチマーク表では、K2.5がHLE、BrowseComp、SWE-Bench Verified、MMMU Pro、VideoMMMUなど多くの評価で競争力のあるスコアを達成しており、特にエージェント検索、コーディング、ビジョンタスクで際立っています。詳細な設定や注意事項は公式ブログを参照してください。