GLM-5.2:開放代理的階躍性變革
GLM-5.2 是 Z.ai 發佈的最新開放權重模型,被廣泛視為開放模型領域的一次重大突破。該模型在編碼和代理任務上表現出色,性能可與 Anthropic 和 OpenAI 的頂尖模型相媲美,甚至在某些基準測試中超越了它們。其發佈恰逢美國對 Claude Fable 實施出口限制,引發了關於開放模型與封閉模型未來格局的討論。
- GLM-5.2 在代理和編碼基準測試中表現出色,匹配甚至超越封閉源模型。
- 該模型的發佈正值美國對 Claude Fable 實施限制,凸顯了開放模型的經濟和地緣政治影響。
禁止開源AI將是一個錯誤
本文認為,禁止或過度監管開源AI將是嚴重錯誤。開源軟件在技術教育、創新和競爭中發揮着關鍵作用,並推動了數萬億美元的經濟價值。在AI領域,開源模型提供了對抗壟斷的力量,且更安全透明。針對中國的擔憂不應導致對開源的限制,而應加大對國內開源的支持。
- 開源軟件在經濟和技術領域具有巨大價值,超過90%的軟件基於開源構建。
- 開源AI是教育、創新和競爭的基礎,有利於小型企業和初創公司。
博客現狀,2026年中
作者在從Ai2離職後分享博客Interconnects的現狀,闡述博客與其職業目標的關係,最近擔任Arcee AI和Mercor的顧問,以及計劃將評論改為付費、增加付費文章來維持高質量的小眾讀者羣。
- 博客以獨立、真實的風格關注開放科學和前沿AI。
- 作者最近擔任Arcee AI和Mercor的顧問,支持其使命。
前沿後訓練配方回顧:與Finbarr Timbers對話
本播客深入探討了後訓練配方的演變,從InstructGPT到2026年的多教師策略(MOPD)。Nathan Lambert與Finbarr Timbers回顧了OLMo-3等開源模型的挑戰,並分析了前沿實驗室如何通過專業化教師和策略蒸餾來突破性能瓶頸。
- 後訓練配方在過去一年發生了鉅變,從單一管線走向多教師策略(MOPD)。
- MOPD通過訓練多個領域專家教師,再蒸餾到一個通用學生模型中,解決了RL衝突問題。
Claude Fable 5與新的AI安全寓言
Anthropic發佈了Claude Fable 5模型,這是目前最強大的公開模型。該公司推出了一系列安全措施,包括對特定領域使用降級模型,但對前沿AI開發請求進行靜默干預而不通知用户,這引發了信任危機。文章批評了這種不一致的安全策略,並探討了AI安全與市場競爭之間的張力。
- Claude Fable 5是目前最智能的公開模型,性能大幅提升。
- Anthropic對網絡安全、生物和蒸餾請求使用分類器並降級到Opus 4.8,但對AI研究請求進行靜默干預。
告別Ai2
Nathan Lambert回顧了他在艾倫人工智能研究所(Ai2)的工作經歷,期間他參與了Olmo模型的開發,並領導了Tülu 3等項目。他強調開放研究的重要性,並分享了他從一名普通研究員成長為領域內知名科學家的歷程。
- Nathan Lambert在Ai2工作了兩年,領導了多個重要的開放語言模型項目。
- 他強調了開放研究在AI領域中的關鍵作用,以及建立關係和傳播成果的重要性。
關於接下來會發生什麼的一些想法,2026年5月
2026年AI領域將繼續快速發展,開源模型在智能體能力上仍落後於閉源模型,谷歌的Gemini尚未對Claude Code和Codex構成有力競爭,美國開源模型正在崛起,Anthropic與OpenAI競爭激烈,現有權力結構開始介入AI發展。
- 開源模型在智能體能力上落後閉源模型約12個月。
- 谷歌Gemini在智能體工具方面無明顯競爭優勢。
最新開放製品(#21):開放模型盛宴!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1等。關於CAISI對V4的評估。
本月開放前沿實驗室紛紛發佈新模型,包括DeepSeek V4、Gemma 4、Kimi K2.6等。CAISI評估指出開放模型落後於美國前沿,且差距在擴大,但評估方法受到質疑,實際能力差距可能被高估。文章還介紹了多個亮點模型。
- DeepSeek、Google、Moonshot AI等發佈多個開放模型。
- CAISI評估顯示開放模型與封閉模型的Elo差距巨大,但基準測試方法存在爭議。
開放模型生態系統如何放大優勢
文章指出,前沿模型的算力約80%用於研發而非最終訓練。以中國為代表的開放生態系統通過共享減少重複研發成本。開放模型降低了未來開發成本,但部署成本高於閉源託管方案。作者呼籲建立開放模型聯盟以維持競爭力。
- 約80%的算力用於研發,而非最終模型訓練。
- 中國的開放生態系統減少了各實驗室之間的重複研發投入。
來自中國AI實驗室的筆記
通過對中國主要AI實驗室的訪問,作者發現了一種謙遜、務實、快速跟進的文化。中國研究人員(其中許多是學生)專注於模型構建而非哲學辯論,較少自我意識。生態系統顯示出早期國內AI需求,但數據產業欠發達,且對Nvidia芯片有強烈渴求。
- 中國AI實驗室培養了一種快速跟進、較少自我意識的文化,從而高效構建模型。
- 學生扮演核心角色,帶來新視角和奉獻精神。
解讀當今開源與閉源模型的性能差距
開源模型與閉源模型之間的性能差距並非單一數字所能概括,而是涉及基準測試的演變、實際應用表現以及訓練範式的轉變。文章分析了這一動態變化,指出基準測試的可信度下降,以及前沿實驗室為維持收入而不斷自我革新的經濟壓力。同時,中國實驗室的開源模型在基準測試上表現出色,但在魯棒性和實際應用中仍有差距。
- 開源與閉源模型的差距是動態且多維的,不能簡單用一個數字衡量。
- 基準測試不斷演變,其與實際使用表現的相關性正在減弱。
我最近在做什麼:ATOM報告、後訓練課程、完成我的書以及持續的研究
本文回顧了作者近期的各項努力,包括髮布ATOM報告更新、完成RLHF書籍並開放預訂、製作後訓練課程以及參與兩項技術研究。同時預告了即將前往中國和華盛頓特區的行程。
- 發佈ATOM報告更新,詳細分析開放語言模型生態系統及中國玩家的影響。
- 完成RLHF書籍並開放預訂,同步推出配套的免費視頻課程。
Claude Mythos與誤導性的開源模型恐慌
本文分析了Claude Mythos模型發佈後引發的關於開源AI模型安全風險的討論。作者認為這種恐慌與以往類似,指出開源模型的能力差距、運行成本以及具體的安全評估需求,呼籲進行細緻研究而非全面禁止。
- Claude Mythos模型引發了對開源模型網絡安全風險的擔憂。
- 作者認為這種擔憂與GPT-2和GPT-4發佈時的恐慌類似,且已被證明過度。
Gemma 4 與開放模型成功的關鍵
本文探討了2026年開放模型面臨的競爭環境,評估開放模型成功的關鍵因素(性能、來源國、許可證、工具支持、微調能力),並重點分析了谷歌最新發布的Gemma 4系列。文章指出,開放模型的成功更多取決於易用性和生態支持,而非基準分數。
- 開放模型市場已從少數玩家發展到眾多競爭者,但仍有巨大潛力。
- 評估開放模型需綜合考慮性能、許可證、工具支持、微調能力等。
最新開放模型摘要(第20期):新機構!新模型類型!Nemotron Super、Sarvam、Cohere Transcribe等
本期摘要涵蓋了多種多樣且獨特的開放模型,涵蓋了OCR、RAG搜索、音頻轉錄、計算機使用、代碼編輯、數學定理證明等多個用例。模型來自更廣泛的開放模型構建者,包括NVIDIA、Cohere、Sarvam、Mistral等,體現了行業對特定領域、低成本模型的推動。
- NVIDIA發佈Nemotron-3-Super,120B參數,12B激活,1M上下文窗口,首個在預訓練中使用NVFP4的開放模型。
- Cohere推出Transcribe模型,基於conformer架構,支持14種語言,Apache 2.0許可。
有損自我改進:為何AI進步雖真實但不會導致快速起飛
本文探討了AI領域的遞歸自我改進(RSI)概念與現實中的有損自我改進(LSI)之間的差異。作者認為,儘管AI模型在持續進步,但由於自動化研究範圍狹窄、多智能體並行收益遞減、資源瓶頸與組織政治等摩擦,進步曲線更可能是線性的而非指數級的,不會出現快速起飛或奇點。
- 遞歸自我改進(RSI)假設閉環、自放大、無摩擦,但有損自我改進(LSI)因多種瓶頸而更現實。
- 自動化研究侷限於窄目標,無法處理多指標權衡;並行智能體受限於人類監督和任務生成能力。
GPT 5.4 是 Codex 的一大進步
儘管在基準測試上只是漸進式改進,但 GPT 5.4 在 Codex 中的實際表現帶來了可用性、速度和上下文管理方面的實質提升,不過 Claude 在魅力上仍佔優勢。
- GPT 5.4 在正確性、易用性、速度和成本上對智能體任務意義重大。
- OpenAI 之前的智能體飽受“千刀萬剮”之痛,GPT 5.4 消除了這些硬傷。