AI News HubLIVE
站内改写

最新開放製品(#21):開放模型盛宴!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1等。關於CAISI對V4的評估。

本月開放前沿實驗室紛紛釋出新模型,包括DeepSeek V4、Gemma 4、Kimi K2.6等。CAISI評估指出開放模型落後於美國前沿,且差距在擴大,但評估方法受到質疑,實際能力差距可能被高估。文章還介紹了多個亮點模型。

文章情報

工程師入門

要點

  • DeepSeek、Google、Moonshot AI等釋出多個開放模型。
  • CAISI評估顯示開放模型與封閉模型的Elo差距巨大,但基準測試方法存在爭議。
  • 專家對實際效能差距看法不一:Florian認為開放模型更接近,Nathan則認為封閉模型領先更多。
  • 亮點模型包括MiMo-V2.5-Pro、Gemma-4、Kimi-K2.6、Laguna-XS.2和DeepSeek-V4-Flash。

為什麼重要

這條新聞值得關注,因為DeepSeek、Google、Moonshot AI等釋出多個開放模型。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本月對開放模型領域而言是異常忙碌的一個月,幾乎每個開放前沿實驗室都發布了新模型,包括DeepSeek、Google、Moonshot AI、小米和智譜等。這些釋出引發了廣泛關注,同時也伴隨著對開放模型能力的重新評估。

美國人工智慧標準與創新中心(CAISI)對DeepSeek V4進行了評估,結果顯示開放模型落後於美國前沿模型,且差距隨時間推移不斷擴大。CAISI使用基於專案反應理論(IRT)的Elo評分,結合九個不同基準測試。DeepSeek V4在CTF-Archive-Diamond、PortBench和ARC-AGI-2等基準上得分較低,導致整體Elo差距較大。然而,這種評估方法受到批評,因為它使用了標準化的簡單設定,而非實際工作流程(如Claude Code或OpenCode)進行評測。實際上,模型在訓練時使用的是這些更強大的工具,因此基準測試可能無法完全反映真實能力。

作者內部也存在分歧。Florian認為開放模型在真實效能上更接近封閉模型,而Nathan則認為封閉模型領先更多。這種辯論將在未來內容中繼續深入。

本月亮點模型包括:

  • **MiMo-V2.5-Pro(小米)**:自一年前首次釋出以來,小米的開放模型進步顯著。V2.5 Pro採用Apache 2.0許可,在基準測試和實際使用中與Kimi K2.6和GLM-5.1等旗艦模型不相上下。
  • **Gemma-4(Google)**:Google釋出多個尺寸的Gemma系列更新,包括4B、9B、31B密集模型和26B-A4B MoE。關鍵變化是改用Apache 2.0許可,消除了自定義許可帶來的法律不確定性。
  • **Kimi-K2.6(Moonshot AI)**:Kimi系列更新,全面提升效能,並專注於長週期任務,顯示開放模型能夠持續執行數小時完成複雜任務。
  • **Laguna-XS.2(Poolside)**:首個公開的編碼專用開放權重模型,33B-A3B尺寸適合本地部署,效能與同類模型相當。其部落格深入探討了編碼評估中的獎勵駭客問題。
  • **DeepSeek-V4-Flash(DeepSeek)**:V3系列的繼任者,提供Pro(1.6T-A49B MoE)和Flash(284B-13B)兩個版本。Flash版本表現強勁,而Pro版相對其規模可能未達預期。技術報告詳細介紹了架構改進。

此外,還有Qwen3.6-35B-A3B、LFM2.5-350M(可能是過度訓練的典範)、Trinity-Large-Thinking(推理模型)和GLM-5.1(專注於長週期任務)等模型釋出。