2026年上半年:AI的喧囂與轉向
2026年1月至6月,AI領域發生了大量事件,從新模型釋出到行業呼籲暫停。本文回顧了重要事件,並分析了從聊天機器人到智慧體的轉變,以及由此帶來的成本問題。
回顧2026年1月至6月的AI新聞,我感受到的是各方面都在飛速發展,創新不斷,但控制力不足。幾乎每週都有新模型號稱“改變一切”:GPT、Claude、某些中國模型在未知基準上擊敗所有人,影片生成達到前所未有的水平。
然而,本週發生了一件大家早有預料卻不願聽到的事:在這場AI競賽中領先的兩家公司開始談論放緩甚至暫停。
現在值得停下來看看實際發生了什麼。
2026年1月至6月的實際事件
排除噪音,以下是一些重要事件的順序:
- 一月下旬:Moonshot釋出Kimi K2.5,這是一個開源多模態模型,具備“Agent Swarm”功能,可協調多達100個子代理。同時,2025年12月釋出的GPT-5.2仍是衡量新模型的基準之一。
- 2月5日:Anthropic釋出Claude Opus 4.6,幾天後釋出Claude Sonnet 4.6。
- 二月中旬:Google推出Gemini 3.1 Pro,進一步推動模型在推理、程式設計和長任務方面的能力。
- 二月下旬:Perplexity推出Computer系統,這是一個將任務分配給多個專門模型並連線外部應用的代理系統。
- 2月27日:根據路透社報道,唐納德·特朗普下令逐步淘汰美國聯邦機構中的Anthropic技術,原因是軍事用途爭端。五角大樓甚至將Anthropic標記為“供應鏈風險”。恐慌蔓延,但Anthropic堅持立場,贏得了不少讚賞。在商業領域,有人會填補空缺,OpenAI隨即宣佈與五角大樓達成協議。
- 3月5日:OpenAI釋出GPT-5.4,具備原生電腦控制能力,API上下文視窗高達100萬token(標準視窗為272,000 token),並將Codex功能整合到單一模型中。真正重要的不是上下文視窗大小,而是模型能自主驅動瀏覽器和桌面環境。這標誌著從“回答問題的聊天機器人”向“實際執行任務的智慧體”的轉變。OpenAI還報告幻覺率比GPT-5.2降低33%。
- 4月2日:Google釋出Gemma 4,這是Apache 2.0許可下的新開源模型系列,專為高階推理、代理和本地硬體執行而設計。
- 4月16日:Anthropic釋出Claude Opus 4.7,採用新的分詞器,相同文本可產生最多35%的token(根據內容在1.0到1.35倍之間)。
- 4月20日:Moonshot釋出Kimi K2.6,上下文視窗256,000 token,Agent Swarm可協調多達300個子代理。
- 4月23日至24日:OpenAI推出GPT-5.5,幾乎同時DeepSeek推出DeepSeek V4:專業版1.6萬億引數,開源Flash版,100萬token上下文視窗。
- 5月19日:在Google I/O上,Google釋出Gemini 3.5 Flash、Gemini Spark、Gemini Omni和Antigravity 2.0。方向明確:更少的聊天機器人,更多的智慧體。Antigravity介面體現了Google的願景和發展方向。
- 5月28日:Anthropic釋出Claude Opus 4.8,這是Opus系列中一次異常快速的更新。它帶來了動態工作流等功能。Anthropic稱該模型比4.7更智慧、更誠實,尤其在程式碼方面。還引入了Effort Control和Fast Mode選項。
- 6月1日:MiniMax釋出MiniMax M3,這是一個開源多模態模型,上下文視窗達100萬token,重點聚焦程式設計、代理和長任務。它試圖定位為Claude和GPT的更便宜替代品。
- 6月1日:GitHub Copilot改變了計費模式。該服務取消了高階請求,轉而透過GitHub AI Credits根據消耗的token數和使用的模型收費。基本功能仍然包含,每個計劃有月度配額,但最強大的模型和智慧體消耗積分很快。部分社群使用者對價格感到震驚:一些人在幾小時或幾天內用完積分,估計維持相同使用速度需要數百美元。
即將到來:2026年8月2日,歐盟AI法案的大部分條款將生效,儘管存在一些例外和調整的時間表(尤其是高風險系統)。
如果只看這份列表,它看起來像一場競賽。確實如此,但營銷背後,真正的轉變正在發生:我們討論的不再只是聊天機器人,而是越來越多的智慧體。這不是口號,而是快速成為現實。我們現在有:使用電腦的模型、協調不同工具的模型、能長時間工作而無需逐步指導的模型、能在整個程式碼庫中移動而非只回答一次性問題的模型。GPT-5.4的電腦使用、Perplexity的Computer、Kimi的群組、Google的Antigravity、Claude日益偏向程式設計和長時間工作。
在現實中呢?有時結果確實令人印象深刻,即使是簡單的演示也能讓人震驚。但將這些工具應用於真實專案時,情況就不同了:技術債務、不完整的上下文、未經驗證的決策,最終是沒人願意觸碰的程式碼。因為智慧體也會累積技術債務,基於部分上下文做出呼叫,或交付未經審查的解決方案。也許我們需要更深入地思考、更好地構建請求、編寫更清晰的指令,並更明確地定義每個智慧體的角色和界限。但有一點是明確的:得益於智慧體、MCP和自動化,AI能讓你更快構建、更深入探索某些主題,並浮現網際網路上已存在的想法,從而推動進步。但人類的貢獻仍然是獨特、真實且更有價值的。
方向明確:我們不再僅走向“回答問題的助手”或角落裡為所欲為的智慧體,而是走向與我們互動、記住任務和錯誤以改進工作的系統。但代價是什麼?GitHub Copilot的商業模式變化顯示了AI競賽的另一面:模型和智慧體消耗大量資源,因此成本高昂。換言之,某些服務的無限量套餐開始消失。AI系統並非只發出一個請求並返回答案,它讀取檔案、傳遞上下文、呼叫工具、生成程式碼、執行測試、分析錯誤,然後重試。每一步都消耗token。只要這些都包含在月訂閱中,使用者就容易當作無限使用。但當計費直接取決於使用時,你的看法就會改變:在開始任務前你會三思。問題不再只是哪個模型最聰明或編碼最好,你還需考慮成本、完成任務消耗的token數,以及該成本在專案上是否實際值得。GitHub Copilot或許向我們展示了高階AI使用無限計劃的終結。
2026年中期的轉折點:有人呼籲冷靜
接下來變得有趣。Anthropic現在呼籲協調暫停,不是單方面的暫停,而是整個行業的協調。其論點是模型可能很快接近遞迴自我改進的階段:系統能夠以越來越少的人類參與來幫助改進其他系統。在達到這一步之前,最好有真正的控制、安全和驗證機制。這聽起來與Anthropic一貫的立場一致,但說實話,必須講述完整故事。一些人也將此請求視為自私的舉動。Anthropic仍在競賽中,仍在釋出新模型,估值仍在攀升。根據路透社報道,該公司今年還因放棄更明確的內部承諾而受到批評,該承諾原本會在達到特別危險的能力水平時停止某些訓練執行。換言之,Anthropic在為自己爭取更大空間後立即要求所有人放緩。請自行得出結論。
在OpenAI方面,Sam Altman也明顯軟化了語氣。一年前他警告AI會消滅大量初級辦公室工作。現在他承認自己“相當錯誤”:影響遠小於他的預測。他並不孤單。Dario Amodei之前甚至談到消除一半的辦公室工作,現在表示自動化實際上可能擴充套件人們的能力。所以,流行觀點不再是“AI會取代你的工作”,而是更令人不安但可能更現實的“AI會改變你工作中哪些部分具有價值”。這並非同一回事。
我從這六個月中學到的東西
在瘋狂釋出模型與同一批人現在談論放緩之間的反差,說明了我們的處境。一方面,沒人想落後;另一方面,越來越清楚我們不再只是談論更快寫郵件的新工具。我們談論的是開始建立、修改和審計軟體的模型,以及介入系統、決策、工作流、會計、公司運營甚至監管的模型。在這種背景下,僅憑當下的基準是不夠的。並非所有釋出都是新聞。並非所有“在基準Y上擊敗X”都能經受真實專案的考驗。並非所有看起來革命性的演示都能改變開發者的日常。因此,我將繼續關注這一切,但會帶有過濾器。我會發布我認為真正重要的大模型和新玩家,在可能的情況下進行測試,不販賣炒作。如果2026年上半年如此瘋狂,下半年承諾同樣如此,尤其是在能源消耗、token定價以及無限計劃可能終結方面。我們需要密切關注。