2026-05-17 01:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

最新開放製品（#21）：開放模型盛宴！Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1等。關於CAISI對V4的評估。

本月開放前沿實驗室紛紛釋出新模型，包括DeepSeek V4、Gemma 4、Kimi K2.6等。CAISI評估指出開放模型落後於美國前沿，且差距在擴大，但評估方法受到質疑，實際能力差距可能被高估。文章還介紹了多個亮點模型。

來源Interconnects (Nathan Lambert)作者: Florian Brand

本月對開放模型領域而言是異常忙碌的一個月，幾乎每個開放前沿實驗室都發布了新模型，包括DeepSeek、Google、Moonshot AI、小米和智譜等。這些釋出引發了廣泛關注，同時也伴隨著對開放模型能力的重新評估。

美國人工智慧標準與創新中心（CAISI）對DeepSeek V4進行了評估，結果顯示開放模型落後於美國前沿模型，且差距隨時間推移不斷擴大。CAISI使用基於專案反應理論（IRT）的Elo評分，結合九個不同基準測試。DeepSeek V4在CTF-Archive-Diamond、PortBench和ARC-AGI-2等基準上得分較低，導致整體Elo差距較大。然而，這種評估方法受到批評，因為它使用了標準化的簡單設定，而非實際工作流程（如Claude Code或OpenCode）進行評測。實際上，模型在訓練時使用的是這些更強大的工具，因此基準測試可能無法完全反映真實能力。

作者內部也存在分歧。Florian認為開放模型在真實效能上更接近封閉模型，而Nathan則認為封閉模型領先更多。這種辯論將在未來內容中繼續深入。

本月亮點模型包括：

MiMo-V2.5-Pro（小米）：自一年前首次釋出以來，小米的開放模型進步顯著。V2.5 Pro採用Apache 2.0許可，在基準測試和實際使用中與Kimi K2.6和GLM-5.1等旗艦模型不相上下。
Gemma-4（Google）：Google釋出多個尺寸的Gemma系列更新，包括4B、9B、31B密集模型和26B-A4B MoE。關鍵變化是改用Apache 2.0許可，消除了自定義許可帶來的法律不確定性。
Kimi-K2.6（Moonshot AI）：Kimi系列更新，全面提升效能，並專注於長週期任務，顯示開放模型能夠持續執行數小時完成複雜任務。
Laguna-XS.2（Poolside）：首個公開的編碼專用開放權重模型，33B-A3B尺寸適合本地部署，效能與同類模型相當。其部落格深入探討了編碼評估中的獎勵駭客問題。
DeepSeek-V4-Flash（DeepSeek）：V3系列的繼任者，提供Pro（1.6T-A49B MoE）和Flash（284B-13B）兩個版本。Flash版本表現強勁，而Pro版相對其規模可能未達預期。技術報告詳細介紹了架構改進。

此外，還有Qwen3.6-35B-A3B、LFM2.5-350M（可能是過度訓練的典範）、Trinity-Large-Thinking（推理模型）和GLM-5.1（專注於長週期任務）等模型釋出。