序列雷達 #857:上週AI速覽:機器內部,文本框之外
本週AI領域呈現科學化、產品化和投機化並存的趨勢。Anthropic發佈了自然語言自編碼器,實現模型內部狀態的語言化解釋;OpenAI推出新語音模型,推動AI向原生界面演進;SubQ聲稱擁有1200萬token上下文窗口,挑戰現有RAG架構;中國AI實驗室DeepSeek和Moonshot估值飆升,市場將AI公司視為戰略資產。整體而言,AI正從模型競賽轉向基礎設施競賽。
文章情報
要點
- Anthropic的自然語言自編碼器將模型激活壓縮為自然語言,開創了可解釋性的新範式
- OpenAI語音模型使AI從文本界面轉向實時語音代理,用户體驗發生質變
- SubQ的1200萬token上下文窗口若屬實,將顛覆檢索增強生成等現有架構
- DeepSeek、Moonshot等中國AI實驗室估值猛漲,反映市場對AI基礎設施化的重估
為甚麼重要
這條新聞值得關注,因為Anthropic的自然語言自編碼器將模型激活壓縮為自然語言,開創了可解釋性的新範式。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
本週AI領域出現了幾則看似不相關的新聞,但背後都指向同一個趨勢:人工智能正從模型競賽轉向基礎設施競賽。
Anthropic發表了自然語言自編碼器(Natural Language Autoencoders, NLA)的論文,這是本週最引人深思的研究。其核心理念是將神經網絡中的隱藏激活值壓縮成自然語言,然後嘗試從這些解釋中重建激活值。換句話説,語言成為了觀測模型內部狀態的顯微鏡。當然,這並非可解釋性的魔法解決方案——這些解釋可能不完整、有噪聲甚至具有誤導性——但概念上的轉變意義重大。我們不再僅僅使用分類器和激活映射來探測模型,而是試圖在潛在空間上構建語言接口。模型開始用人類最擅長的方式——語言——來解釋自身。
在AI堆棧的另一端,OpenAI發佈了新的語音模型,推動AI成為原生界面而非帶有更好用户界面的文本框。語音從外部看似乎簡單,但實時語音代理需要結合感知、推理、延遲管理、中斷處理、情緒校準、工具使用和記憶等要素。當這一切運作良好時,軟件的形狀將發生改變:我們不再是“使用應用”,而是與一個操作員交互。這個差異微妙但深遠。基於文本的AI感覺像在查詢智能,而基於語音的AI則感覺像有智能相伴。
接着是SubQ備受爭議的1200萬token上下文窗口聲明,這是本週最具挑釁性的技術主張。長上下文已成為行業最愛的炫耀資本,但原生的1200萬token窗口將代表比增量進步更重大的突破。它將挑戰當前檢索增強生成、記憶系統、分塊策略和Agent編排的架構。如果模型能直接吸收如此規模的語料庫,那麼圍繞AI應用的部分腳手架將顯得暫時。當然,這種聲明需要質疑。巨大的上下文窗口不等於對該上下文的可靠推理,但即使這種雄心也具有揭示性:記憶正成為一個前沿基元。
估值新聞則講述了同一故事的地緣政治和商業版本。DeepSeek和Moonshot現在的估值討論使它們看起來更像國家AI基礎設施而非初創公司。前沿模型實驗室的定價越來越像戰略資產:部分軟件公司,部分雲平台,部分半導體槓桿,部分地緣政治選擇。市場不僅僅在估值收入,而是在估值未來計算秩序中的位置。
Sierra的新估值補充了企業的反例。當模型實驗室追逐前沿智能時,Sierra展示了應用Agent如何通過嵌入客户運營成為巨大業務。第一個萬億美元AI工作流可能不會像科幻小説,而可能像呼叫中心、保險理賠、銀行支持、零售服務和業務流程緩慢圍繞Agent重寫。
因此,本週的教訓很明確:AI正變得更可檢查、更會話化、記憶更豐富、更有制度價值。競賽不再只是構建更聰明的模型,而是構建將智能轉化為基礎設施的接口、記憶系統、部署層和公司。
**AI研究**
- **自然語言自編碼器:將Claude的思考轉化為文本** — Anthropic。該研究引入自然語言自編碼器(NLA),將複雜語言模型激活轉化為可讀文本,揭示模型內部未口頭化的推理。通過安全測試和模型審計中應用NLA,研究人員能成功檢測模型何時秘密知道自己在被評估,並發現隱藏的錯位動機。
- **SkillOS:學習技能策展以實現自進化Agent** — UIUC、谷歌等。介紹SkillOS,一種基於強化學習的框架,使自進化LLM智能體學習複雜的長期技能策展策略。通過凍結的Agent執行器與可訓練的技能策展器(更新外部技能庫)配對,使智能體有效從稀疏、延遲的反饋中學習,實現更精準的技能使用和跨多種推理及多輪Agent任務的性能提升。
- **D-OPSD:用於持續調整步驟蒸餾擴散模型的在線自蒸餾** — 香港科技大學、阿里巴巴、加州大學聖地亞哥分校、香港中文大學。提出D-OPSD,一種用於微調步驟蒸餾擴散模型的在線學習範式,利用其LLM/VLM編碼器繼承的上下文能力。通過為模型分配教師和學生雙角色(帶有不同多模態上下文),D-OPSD能學習新概念和風格而不犧牲模型原有的高效少步生成能力。
- **Agentic AI系統應設計為邊際token分配器** — 伊利諾伊大學厄巴納-香檳分校。觀點論文,認為Agentic AI系統應構建為基於質量、成本、延遲和風險組合分配邊際token的經濟體,而非僅作為按單位定價的文本生成器。採用邊際token分配視角有助於解釋和解決反覆出現的系統故障(如過度路由、過度委託、緩存誤用),這些故障源於AI堆棧不同層孤立優化。
- **計數作為語言模型可靠性的最小探針** — 斯坦福大學。引入穩定計數容量,一種純機械的分析方法,通過讓語言模型重複計數符號直至失敗來測試其程序可靠性,有效排除語義和知識干擾。評估揭示當前語言模型依賴有限的類計數內部狀態而非開放式邏輯,導致程序性遵循規則在資源耗盡時崩潰為猜測。
- **幻覺破壞信任;元認知是前進之路** — 谷歌研究、特拉維夫大學。將AI幻覺重新定義為自信的錯誤,並論證模型無法完美區分真理與錯誤造成了效用與嚴格事實性之間的不可避免權衡。為克服此僵局,作者提出開發能夠“忠實不確定性”的元認知模型,即將模型的語言不確定性與內在不確定性對齊,以保留有用信息同時向用户準確傳達懷疑。
**AI技術發佈**
- **GPT-Realtime** — OpenAI推出三款新音頻模型,用於構建語音應用。
- **Gemma MTP** — 谷歌發佈Gemma多Token預測(MTP),一種新的推測解碼架構,可同時預測多個token。
**10條重要AI新聞**
- **DeepSeek估值目標450億美元,首次融資輪** — DeepSeek正在進行首輪外部融資,估值已從200億美元飆升至450億美元,由國家支持的中國集成電路產業投資基金(大基金)領投,騰訊和阿里巴巴據稱在洽談參與。創始人梁文峯(持股約90%)開放股權主要為了發行員工股權和防止研究員被挖角。
- **SpaceX“Terafab”芯片工廠** — SpaceX考慮在德州建造一個多階段垂直整合的半導體和先進計算工廠,初始投入550億美元,總計可達1190億美元,涉及特斯拉和英特爾,為AI服務器、衞星、太空數據中心和自動駕駛特斯拉車輛/機器人供應芯片。
- **Ethos 2275萬美元A輪** — 倫敦Ethos獲得由a16z領投的2275萬美元A輪,用於擴展其語音Agent驅動的專家網絡,每週約聘請3.5萬名專家,服務對沖基金、PE公司、AI實驗室和諮詢公司。
- **QuTwo 3.8億美元估值** — 赫爾辛基QuTwo獲得2500萬歐元(約2900萬美元)天使輪融資,估值3.25億歐元(約3.8億美元),由獨角獸創始人和Midas榜單投資者投資,用於擴展企業AI工作流編排層QuTwo OS。
- **SAP收購Prior Labs並屏蔽競爭Agent** — SAP宣佈收購弗萊堡表格基礎模型初創公司Prior Labs(幾乎全現金交易),並在四年內投資10億歐元將其打造為面向結構化企業數據的歐洲前沿AI實驗室,同時更新API政策以屏蔽除SAP認可的(如Joule和Nvidia的NemoClaw)之外的第三方AI Agent。
- **CopilotKit 2700萬美元A輪** — 西雅圖CopilotKit獲得2700萬美元(含A輪和此前未公佈的種子輪),由Glilot Capital、NFX和SignalFire領投,用於擴展其開源AG-UI協議並推出CopilotKit Enterprise Intelligence,供Cisco、Docusign和Deutsche Telekom等客户使用。
- **Sierra 9.5億美元融資** — Bret Taylor的Sierra獲得由Tiger Global和GV領投的9.5億美元,估值超過150億美元,用於擴展其企業客户體驗AI Agent平台,目前該平台服務超過40%的財富50強公司,ARR達1.5億美元。
- **Moonshot AI / Kimi 200億美元估值** — 北京Moonshot AI即將完成約20億美元新融資,由美團龍珠領投,中國移動和中信PE參與,估值超過200億美元。其產品Kimi年化經常性收入在4月突破2億美元。
- **Snap與Perplexity價值4億美元交易終止** — Snap在Q1 2026投資者信函中披露,與Perplexity的4億美元現金加股權合作伙伴關係(去年11月宣佈)已在Q1“友好結束”,雙方未能就更大範圍推廣達成一致。Snap 2026年銷售指引假設該交易貢獻為零。
- **Subquadratic / SubQ啓動** — 邁阿密初創公司Subquadratic於5月5日走出隱身模式,獲得Justin Mateen等領投的2900萬美元種子輪(估值據稱5億美元),聲稱其首個模型SubQ 1M-Preview是首個完全基於次二次注意力架構的LLM,具有1200萬token上下文窗口和約1000倍的注意力計算減少。