2026-06-18站内改写4 分鐘閱讀更新: 2026-06-18

2026年上半年：AI的喧囂與轉向

2026年1月至6月，AI領域發生了大量事件，從新模型釋出到行業呼籲暫停。本文回顧了重要事件，並分析了從聊天機器人到智慧體的轉變，以及由此帶來的成本問題。

來源Hacker News AI作者: jtnl

回顧2026年1月至6月的AI新聞，我感受到的是各方面都在飛速發展，創新不斷，但控制力不足。幾乎每週都有新模型號稱“改變一切”：GPT、Claude、某些中國模型在未知基準上擊敗所有人，影片生成達到前所未有的水平。

然而，本週發生了一件大家早有預料卻不願聽到的事：在這場AI競賽中領先的兩家公司開始談論放緩甚至暫停。

現在值得停下來看看實際發生了什麼。

2026年1月至6月的實際事件

排除噪音，以下是一些重要事件的順序：

一月下旬：Moonshot釋出Kimi K2.5，這是一個開源多模態模型，具備“Agent Swarm”功能，可協調多達100個子代理。同時，2025年12月釋出的GPT-5.2仍是衡量新模型的基準之一。
2月5日：Anthropic釋出Claude Opus 4.6，幾天後釋出Claude Sonnet 4.6。
二月中旬：Google推出Gemini 3.1 Pro，進一步推動模型在推理、程式設計和長任務方面的能力。
二月下旬：Perplexity推出Computer系統，這是一個將任務分配給多個專門模型並連線外部應用的代理系統。
2月27日：根據路透社報道，唐納德·特朗普下令逐步淘汰美國聯邦機構中的Anthropic技術，原因是軍事用途爭端。五角大樓甚至將Anthropic標記為“供應鏈風險”。恐慌蔓延，但Anthropic堅持立場，贏得了不少讚賞。在商業領域，有人會填補空缺，OpenAI隨即宣佈與五角大樓達成協議。
3月5日：OpenAI釋出GPT-5.4，具備原生電腦控制能力，API上下文視窗高達100萬token（標準視窗為272,000 token），並將Codex功能整合到單一模型中。真正重要的不是上下文視窗大小，而是模型能自主驅動瀏覽器和桌面環境。這標誌著從“回答問題的聊天機器人”向“實際執行任務的智慧體”的轉變。OpenAI還報告幻覺率比GPT-5.2降低33%。
4月2日：Google釋出Gemma 4，這是Apache 2.0許可下的新開源模型系列，專為高階推理、代理和本地硬體執行而設計。
4月16日：Anthropic釋出Claude Opus 4.7，採用新的分詞器，相同文本可產生最多35%的token（根據內容在1.0到1.35倍之間）。
4月20日：Moonshot釋出Kimi K2.6，上下文視窗256,000 token，Agent Swarm可協調多達300個子代理。
4月23日至24日：OpenAI推出GPT-5.5，幾乎同時DeepSeek推出DeepSeek V4：專業版1.6萬億引數，開源Flash版，100萬token上下文視窗。
5月19日：在Google I/O上，Google釋出Gemini 3.5 Flash、Gemini Spark、Gemini Omni和Antigravity 2.0。方向明確：更少的聊天機器人，更多的智慧體。Antigravity介面體現了Google的願景和發展方向。
5月28日：Anthropic釋出Claude Opus 4.8，這是Opus系列中一次異常快速的更新。它帶來了動態工作流等功能。Anthropic稱該模型比4.7更智慧、更誠實，尤其在程式碼方面。還引入了Effort Control和Fast Mode選項。
6月1日：MiniMax釋出MiniMax M3，這是一個開源多模態模型，上下文視窗達100萬token，重點聚焦程式設計、代理和長任務。它試圖定位為Claude和GPT的更便宜替代品。
6月1日：GitHub Copilot改變了計費模式。該服務取消了高階請求，轉而透過GitHub AI Credits根據消耗的token數和使用的模型收費。基本功能仍然包含，每個計劃有月度配額，但最強大的模型和智慧體消耗積分很快。部分社群使用者對價格感到震驚：一些人在幾小時或幾天內用完積分，估計維持相同使用速度需要數百美元。

即將到來：2026年8月2日，歐盟AI法案的大部分條款將生效，儘管存在一些例外和調整的時間表（尤其是高風險系統）。

如果只看這份列表，它看起來像一場競賽。確實如此，但營銷背後，真正的轉變正在發生：我們討論的不再只是聊天機器人，而是越來越多的智慧體。這不是口號，而是快速成為現實。我們現在有：使用電腦的模型、協調不同工具的模型、能長時間工作而無需逐步指導的模型、能在整個程式碼庫中移動而非只回答一次性問題的模型。GPT-5.4的電腦使用、Perplexity的Computer、Kimi的群組、Google的Antigravity、Claude日益偏向程式設計和長時間工作。

在現實中呢？有時結果確實令人印象深刻，即使是簡單的演示也能讓人震驚。但將這些工具應用於真實專案時，情況就不同了：技術債務、不完整的上下文、未經驗證的決策，最終是沒人願意觸碰的程式碼。因為智慧體也會累積技術債務，基於部分上下文做出呼叫，或交付未經審查的解決方案。也許我們需要更深入地思考、更好地構建請求、編寫更清晰的指令，並更明確地定義每個智慧體的角色和界限。但有一點是明確的：得益於智慧體、MCP和自動化，AI能讓你更快構建、更深入探索某些主題，並浮現網際網路上已存在的想法，從而推動進步。但人類的貢獻仍然是獨特、真實且更有價值的。

方向明確：我們不再僅走向“回答問題的助手”或角落裡為所欲為的智慧體，而是走向與我們互動、記住任務和錯誤以改進工作的系統。但代價是什麼？GitHub Copilot的商業模式變化顯示了AI競賽的另一面：模型和智慧體消耗大量資源，因此成本高昂。換言之，某些服務的無限量套餐開始消失。AI系統並非只發出一個請求並返回答案，它讀取檔案、傳遞上下文、呼叫工具、生成程式碼、執行測試、分析錯誤，然後重試。每一步都消耗token。只要這些都包含在月訂閱中，使用者就容易當作無限使用。但當計費直接取決於使用時，你的看法就會改變：在開始任務前你會三思。問題不再只是哪個模型最聰明或編碼最好，你還需考慮成本、完成任務消耗的token數，以及該成本在專案上是否實際值得。GitHub Copilot或許向我們展示了高階AI使用無限計劃的終結。

2026年中期的轉折點：有人呼籲冷靜

接下來變得有趣。Anthropic現在呼籲協調暫停，不是單方面的暫停，而是整個行業的協調。其論點是模型可能很快接近遞迴自我改進的階段：系統能夠以越來越少的人類參與來幫助改進其他系統。在達到這一步之前，最好有真正的控制、安全和驗證機制。這聽起來與Anthropic一貫的立場一致，但說實話，必須講述完整故事。一些人也將此請求視為自私的舉動。Anthropic仍在競賽中，仍在釋出新模型，估值仍在攀升。根據路透社報道，該公司今年還因放棄更明確的內部承諾而受到批評，該承諾原本會在達到特別危險的能力水平時停止某些訓練執行。換言之，Anthropic在為自己爭取更大空間後立即要求所有人放緩。請自行得出結論。

在OpenAI方面，Sam Altman也明顯軟化了語氣。一年前他警告AI會消滅大量初級辦公室工作。現在他承認自己“相當錯誤”：影響遠小於他的預測。他並不孤單。Dario Amodei之前甚至談到消除一半的辦公室工作，現在表示自動化實際上可能擴充套件人們的能力。所以，流行觀點不再是“AI會取代你的工作”，而是更令人不安但可能更現實的“AI會改變你工作中哪些部分具有價值”。這並非同一回事。

我從這六個月中學到的東西

在瘋狂釋出模型與同一批人現在談論放緩之間的反差，說明了我們的處境。一方面，沒人想落後；另一方面，越來越清楚我們不再只是談論更快寫郵件的新工具。我們談論的是開始建立、修改和審計軟體的模型，以及介入系統、決策、工作流、會計、公司運營甚至監管的模型。在這種背景下，僅憑當下的基準是不夠的。並非所有釋出都是新聞。並非所有“在基準Y上擊敗X”都能經受真實專案的考驗。並非所有看起來革命性的演示都能改變開發者的日常。因此，我將繼續關注這一切，但會帶有過濾器。我會發布我認為真正重要的大模型和新玩家，在可能的情況下進行測試，不販賣炒作。如果2026年上半年如此瘋狂，下半年承諾同樣如此，尤其是在能源消耗、token定價以及無限計劃可能終結方面。我們需要密切關注。