AI News HubLIVE
サイト内リライト2 分で読了

Kimi ベンダーベリファイア

Kimiは、オープンソースモデルの推論実装の正確性を検証するためのベンダーベリファイア(KVV)をオープンソース化しました。このプロジェクトには、デプロイメントの一般的な問題を検出するための6つの重要なベンチマークが含まれており、インフラプロバイダーが根本的な原因を修正することを促進します。

ソースKimi Blog

Kimiは、Kimi K2.6モデルのリリースに伴い、オープンソースモデルの推論実装の正確性を検証するためのベンダーベリファイア(KVV)プロジェクトをオープンソース化しました。このプロジェクトは、モデルの重みを公開するだけでは不十分であり、それが他の環境でも正しく動作することを確認する必要があるという認識から生まれました。

K2 Thinkingモデルのリリース以来、コミュニティからベンチマークスコアの異常に関するフィードバックが頻繁に寄せられていました。調査の結果、これらのケースの多くはデコードパラメータの誤用に起因することが判明しました。KimiはまずAPIレベルで対策を講じ、ThinkingモードでTemperature=1.0、TopP=0.95を強制し、思考コンテンツが正しく渡されることを検証しました。しかし、より微妙な異常が引き続き発生し、サードパーティAPIと公式APIの結果に顕著な差が見られました。

これらの問題に対処するため、KimiはKVVを設計し、6つの重要なベンチマークを組み込みました:事前検証(APIパラメータ制約の検証)、OCRBench(マルチモーダルパイプラインの迅速なテスト)、MMMU Pro(視覚入力前処理の検証)、AIME2025(長出力のストレステスト)、K2VVツール呼び出し(トリガー一貫性とJSONスキーマ精度の測定)、SWE-Bench(エージェントコーディングテスト、サンドボックス依存のため未公開)。これらのテストは、KVキャッシュのバグや量子化の劣化など、短いベンチマークでは隠れてしまう問題を捉えます。

KVVは問題を検出するだけでなく、根本原因の修正を推進します。チームはvLLM、SGLang、KTransformersコミュニティと連携し、問題の根本解決に取り組んでいます。また、インフラプロバイダーがユーザーに影響が出る前にスタックを検証できる早期アクセスを提供し、ベンダー結果の公開リーダーボードを維持する予定です。

テストコストに関しては、2台のNVIDIA H20 8-GPUサーバーで完全な評価ワークフローを検証し、順次実行で約15時間かかりました。スクリプトは、ストリーミング推論、自動リトライ、チェックポイント再開メカニズムを含む長時間実行シナリオ向けに最適化されています。

Kimiは、重みは開かれているが、正しく実行するための知識も開かれなければならないと述べ、ベンダーカバレッジの拡大とより軽量なエージェントテストの模索を続けています。連絡先は [email protected] です。