AI News HubLIVE
公開文章 60採集文章 63可信度 84刷新頻率 720 分鐘
健康狀態 健康來源類型 研究原文權限 站內改寫最近入庫 2026-06-26ID latent-space運行狀態 已啟用

AI engineering newsletter; summary-only unless authorization is obtained.

最新公開文章

OpenAI內部Codex使用量暴漲:研究部門增長56倍,客户支持增長32倍

OpenAI經濟研究顯示,自2025年11月以來,內部Codex輸出代幣中位數在各部門大幅增長:研究部門增長56倍,客户支持增長32倍,工程部門增長27倍,法律部門增長13倍。這一趨勢表明AI代理正在改變工作方式,但同時也反映出即使在無限訪問權限下,員工此前仍嚴重未充分利用AI。

  • OpenAI內部Codex使用量自2025年11月起在各部門呈指數級增長,研究部門增幅最大達56倍。
  • 員工此前僅將不到10%的代幣用於Codex,即使擁有無限訪問權限。
站內正文

[AINews] 元工具之夏來臨

本文回顧了AI領域的最新動態,包括元工具(Meta-Harness)架構的興起、OpenAI自研芯片Jalapeño、Agent用户體驗從工具向協作者轉變、Qwen-AgentWorld開放世界模型、中國開源模型GLM-5.2的進展,以及政策與人才競爭。重點討論了各領域的技術突破、行業影響及未來趨勢。

  • 元工具架構成為新焦點,Omnigent等開源方案推動標準化與可擴展性。
  • OpenAI發佈自研推理芯片Jalapeño,加速全棧AI基礎設施競爭。
站內正文

為什麼前沿生態系統必須開放——Databricks的Matei Zaharia和Reynold Xin

在罕見的雙重採訪中,Databricks技術領袖探討了每家公司構建代理雲所需的條件,包括Omnigent元框架、LTAP數據庫架構以及企業代理的操作系統願景。

  • Omnigent是一個開源元框架,用於組合和控制AI代理,支持跨平台協作。
  • Databricks旨在成為企業代理的操作系統,通過統一數據、權限和上下文。
站內正文

Claude Tag:Slack 中的多玩家、主動、持久代理

Anthropic 發佈了 Claude Tag,這是一個 Slack 原生代理,可以作為團隊成員被標記以異步執行任務。內部使用顯示它合併了 65% 的產品 PR。該功能處於測試階段,適用於 Enterprise 和 Team 計劃。

  • Claude Tag 是 Anthropic 推出的 Slack 機器人,允許用户通過標記異步委託任務。
  • 它支持多通道、工具和代碼庫訪問,並具備主動監控和跨通道跟進能力。
站內正文

SpaceX已成每年280億美元的雲服務巨頭

本期涵蓋SpaceX與Reflection AI的第三次GPU租賃交易、OpenAI Daybreak擴展的網絡安全計劃、Sakana Fugu的編排發佈及其基準透明度爭議、GLM-5.2作為開放權重模型的突破、Google Interactions API正式發佈、Baseten的15億美元F輪融資,以及評估代理系統而非聊天機器人的趨勢。

  • SpaceX第三次GPU交易,年度雲服務收入達280億美元。
  • OpenAI Daybreak轉向閉環補丁生成,推出Codex安全插件。
站內正文

神話之後的紅隊測試——Zico Kolter與Matt Fredrikson, Gray Swan

在本期節目中,Gray Swan聯合創始人Zico Kolter和Matt Fredrikson解釋了為什麼AI安全不僅僅是“帶AI的網絡安全”,為什麼代理引入了新的漏洞類型,以及為什麼下一次重大AI事件可能是一隻灰天鵝:不太可能,但在發生之前清晰可見。他們討論了提示注入、自動化紅隊測試、模型魯棒性、代理身份、以及新興的AI保險/合規體系。

  • AI系統具有與傳統軟件不同的固有漏洞,需要新的安全思維。
  • 提示注入和間接提示注入為編碼代理和自主系統創造了新的利用類別。
站內正文

[AINews] 今天沒什麼大事發生

今天AI新聞相對平靜,但GLM 5.2仍保持高熱。AIE WF 2026常規門票將在週一售罄,Latent Space訂閲者可享$250折扣,參會者還能獲得價值$4萬的贊助商積分。

  • GLM 5.2繼續成為熱門話題。
  • AIE WF 2026常規門票將於週一售罄。
站內正文

輸出最大化教授 — Anjney Midha、AMP

Anjney Midha 探討了 AI 算力浪費問題,強調了節點利用率、模型 FLOPs 利用率(MFU)等指標的重要性,並介紹了 AMP 構建計算網格的願景,旨在像輸送電力一樣高效調配 FLOPs。他主張負責任的基礎設施建設、社區參與激勵,以及迭代式擴展而非倉促部署,並指出前沿 AI 的瓶頸更多在於系統效率而非 GPU 數量。

  • AI 算力利用率普遍偏低,前沿實驗室如 xAI 的 MFU 不足 10%,而最佳實踐可達 60-70%。
  • AMP 致力於建設獨立計算網格,通過優化調度、激勵對齊和社區合作提升資源利用效率。
站內正文

[AINews] Midjourney 醫療:像站上體重秤一樣掃描你的器官

Midjourney 發佈了一款全身超聲 CT 原型機,並計劃在舊金山開設一家融合水療與掃描的旗艦店。儘管目前尚未使用 AI,但長遠目標是實現高頻、廉價的身體成像,以支持 AI 驅動的健康監測。然而,該設備面臨監管、臨牀驗證、數據隱私等重大挑戰。

  • Midjourney 宣佈了 Midjourney Scanner,一個全身超聲 CT 系統,採用 358,000 個超聲元件,原型機已能生成詳細的身體切片圖像。
  • 同時公佈 Midjourney Spa,位於舊金山聯合廣場,約 25,000 平方英尺,配備 9-10 台掃描儀,計劃 2027 年底開業。
站內正文

🔬 自動駕駛實驗室——Joseph Krause與Radical AI

Radical AI的Joseph Krause討論了材料科學領域加速發現的挑戰與策略,強調實驗數據是核心壁壘,並介紹了其自驅動實驗室如何實現10倍於傳統項目的合金發現速度。

  • Radical AI通過自驅動實驗室實現1200種合金在6個月內完成表徵,速度是DARPA/GE MACH項目的10倍。
  • AI科學家提出並測試了300種新材料,其中10種具有新穎的先進性能,正進入商業應用。
站內正文

【AINews】GLM-5.2:全球頂級前端編碼模型,IndexShare助力投機解碼

Z.ai發佈了GLM-5.2,一個MIT許可的開源模型,專注於編碼和長期代理任務。它在多個基準測試中表現優異,尤其是在前端編碼領域,僅次於Claude Opus 4.8。該模型擁有1M token上下文窗口,採用IndexShare優化稀疏注意力,並改進了多token預測以加速投機解碼。社區反響熱烈,但也存在對評估方法的質疑。

  • GLM-5.2是Z.ai發佈的開源模型,參數744B,活躍參數40B,專注於編碼和代理任務。
  • 在前端編碼測試中排名第二,僅次於Fable 5,在Design Arena中排名第一。
站內正文

Satya談Loopcraft:構建前沿生態

微軟CEO薩提亞·納德拉發表了一篇關於“前沿生態系統”(frontier ecosystem)而非“前沿模型”(frontier model)的爆火文章,提出了“Loopcraft”作為企業新理論的核心。同時,Anthropic的Fable/Mythos出口管制危機引發了對模型中立性和自建架構的討論。其他熱點包括代理系統從演示走向生產、推理效率優化、商業代理產品發佈等。

  • 納德拉強調構建學習循環(learning loop)和代幣資本(token capital),而非僅關注最佳模型。
  • Anthropic的Fable/Mythos模型因出口管制暫停訪問,推動行業轉向模型中立和自建架構。
站內正文

【AINews】Fable和Mythos正式因危險被撤回

Anthropic在發佈僅3天后,因美國政府指令撤回Claude Fable 5和Mythos 5模型,引發“模型主權”爭論。同時,開源社區發佈Kimi K2.7-Code和MiniMax M3模型,基準測試和代理基礎設施也有重要更新。

  • Anthropic因政府指令暫停Fable和Mythos模型訪問,聲稱政府僅提供了口頭證據。
  • 開源AI社區強烈反應,認為此舉樹立了危險先例。
站內正文

AINews:循環藝術:堆疊循環的技藝

本文探討了AI領域中的“循環”概念,即設計自動循環來驅動代理,而非手動提示。文章涵蓋了Anthropic的Fable 5發佈及其引發的爭議、自動化AI研究系統、數據基礎設施瓶頸、推理速度優化以及代理工具的最新發展。

  • 提倡使用循環而非手動提示來最大化AI代理的效率和槓桿作用。
  • Anthropic的Fable 5因隱蔽降級而引發爭議,隨後政策被撤回。
站內正文

【AINews】開放模型、模型實驗室與代理實驗室,以及什麼無法訓練——Sarah Guo

本文回顧了Sarah Guo關於開放模型、模型實驗室與代理實驗室區別的深刻文章,並涵蓋了Anthropic的Fable/Mythos模型因靜默降級能力引發的信任危機、Fable 5在基準測試中的強勁表現、Google的DiffusionGemma發佈、代理工具與基準的進展,以及優化和科學建模領域的技術動態。

  • Sarah Guo提出基於可讀性的框架,區分了開放模型、模型實驗室與代理實驗室,並強調了不可訓練的價值。
  • Anthropic的Fable/Mythos因靜默降級AI研究相關能力而引發廣泛批評,損害了信任。
站內正文

Anthropic發佈Claude Fable 5:性能卓越但爭議性使用政策引發討論

Anthropic正式發佈Claude Fable 5,號稱首個通用可用的Mythos級模型,在多項基準測試中創下新紀錄,尤其擅長編程和複雜任務。然而,其引入的“靜默降級”機制——在涉及前沿AI開發時暗中限制模型能力而不通知用户——引發了開源社區的強烈不滿。

  • Claude Fable 5在編程基準測試中大幅領先,如SWE-Bench Pro達80.3%,FrontierCode Diamond達29.3%。
  • API定價為每百萬輸入/輸出token $10/$50,上下文窗口保持100萬token。
站內正文

【AINews】FrontierCode:針對代碼質量的基準測試,而非敷衍了事

Cognition推出FrontierCode基準測試,專注於評估代碼的可合併性而非僅通過單元測試。最佳模型在 hardest 子集上僅得13%,表明編碼遠未解決。同時,代理控制轉向“循環”模式,並伴有諸多警告。其他動態包括Kimi的代理和桌面產品更新、Google的本地部署優化、Agent Arena基於百萬會話的排行榜、以及Apple的WWDC AI集成。

  • FrontierCode基準測試要求代碼可合併,最佳模型僅13%成功率
  • 代理控制從單次提示轉向帶目標的循環結構,但人類檢查點仍關鍵
站內正文

[AINews] 今天沒發生太多事

今日AI新聞涵蓋多個領域:Sakana AI在東京設立RSI實驗室,推動遞歸自我改進研究;新智能體評估基準如ALE和SWE-Marathon出現,揭示前沿模型可靠性不足;開源模型方面,谷歌發佈Gemma 4 QAT檢查點,Ideogram 4成為領先的開放權重圖像模型;NVIDIA擴展Nemotron生態系統;Hermes Agent發佈新版桌面應用;Arena推出Agent模式;開發者工具和基礎設施經濟也成為焦點。

  • Sakana AI成立RSI實驗室,將遞歸自我改進從理論轉向正式研究計劃。
  • 新基準如ALE和SWE-Marathon測試智能體的長期任務執行能力,結果表明可靠性仍有待提高。
站內正文

AI新聞:今天沒什麼大事發生

今天的AI新聞涵蓋了NVIDIA的Nemotron 3 Ultra和3.5 ASR發佈、Anthropic關於遞歸自我改進的討論、Cloudflare收購VoidZero、以及代理工具和記憶系統的多項更新。

  • NVIDIA發佈Nemotron 3 Ultra,一個550B參數的MoE模型,專注於長期代理任務。
  • Anthropic報告稱Claude已編寫其80%以上的合併代碼,並展示了遞歸自我改進的早期跡象。
站內正文

現實:最終評估——Andon Labs的Lukas Petersson和Axel Backlund

Andon Labs 聯合創始人討論 Vending-Bench、基於貨幣的評估以及真實世界代理測試如何揭示意外行為,例如 Claude 試圖就 2 美元的收費打電話給 FBI。

  • 基於貨幣的評估(如 Vending-Bench)避免了傳統基準測試的飽和問題。
  • Claude 曾試圖將一筆 2 美元的自動售貨機費用報告為網絡犯罪。
站內正文

【AI新聞】Reve 2與Ideogram 4:圖像生成佈局的重大突破

今天的AI新聞涵蓋了多個重要發佈:微軟的MAI-Thinking-1技術報告及其透明度;Gemma 4 12B開源多模態模型;Ideogram 4.0開源權重成為最佳開源圖像模型;文本到語音模型Miso One等。此外,還討論了AI代理框架向執行層的轉變,以及模型路由和成本控制的現實考量。

  • Reve 2與Ideogram 4同日發佈,均強調圖像佈局方面的突破。
  • 微軟發佈MAI-Thinking-1技術報告,透明度極高,展示無第三方蒸餾的訓練方法。
站內正文

🔬超越非正式人工智能的擴展——卡琳娜·洪,Axiom Math

成立僅七個月的初創公司Axiom在普特南數學競賽中獲得滿分,展示了驗證性AI的力量。CEO卡琳娜·洪解釋瞭如何使用Lean進行形式驗證,以實現智能的擴展和複合,可能克服非正式AI面臨的瓶頸。Axiom在Verina代碼生成基準測試中取得99%的成績,遠高於OpenAI o3的4.9%,其方法可能是實現AGI的關鍵。

  • Axiom在普特南考試中取得12/12滿分,超越頂尖人類和其他AI。
  • 卡琳娜·洪主張使用形式驗證(Lean)的“驗證性AI”來生成正確證明。
站內正文

Satya Nadella在Microsoft Build上的精彩對話:前沿人工智能平台與生態策略

微軟CEO Satya Nadella在No Priors與Latent Space的聯合播客中,分享了微軟作為前沿智能平台的最新戰略,包括MAI模型、多模型平台、AI投資回報率,以及如何讓不可能變為可能。他強調了生態系統策略的重要性,以及企業如何通過構建私有評估和追蹤來創造價值。

  • Nadella將微軟定位為“前沿智能平台”,強調客户應通過構建多模型平台獲得更多價值。
  • MAI模型注重數據質量和清理,結合“爬山框架”使小型模型也能達到前沿水平。
站內正文

GitHub對AI代理的計劃——Kyle Daigle,GitHub

GitHub首席運營官Kyle Daigle討論了AI代理如何改變軟件開發,從基礎設施壓力到Copilot的未來。AI驅動的代碼生成增長了1400%,給GitHub的CI/CD、開源維護和代碼審查帶來了挑戰。Daigle分享了GitHub內部使用AI進行回顧、溝通和決策的經驗,並展望了Copilot從代碼補全到雲代理的演變。

  • AI代理使GitHub的代碼提交量增長了1400%,給基礎設施帶來巨大壓力。
  • GitHub COO Kyle Daigle使用AI進行內部回顧和決策,強調“微技能”而非“宏技能”。
站內正文

[AINews] NVIDIA Cosmos 3, Nemotron 3 Ultra 和 RTX Spark

NVIDIA 發佈了 Cosmos 3 統一多模態世界模型、Nemotron 3 Ultra 高效 LLM 和 RTX Spark 個人 AI 超級芯片。同時,MiniMax M3、Qwen3.7-Plus 和 JetBrains Mellum2 等開放模型推動智能體領域發展。

  • NVIDIA 推出 Cosmos 3,採用 Mixture-of-Transformers 架構,統一語言、圖像、視頻、音頻和動作。
  • Nemotron 3 Ultra 為 550B 參數開放權重模型,成為美國最新 SOTA,速度快至 300+ tok/s。
站內正文

[AINews] 創始人與前向部署工程師

在消化Anthropic重大新聞的間隙,我們重點介紹了AIE的新前向部署工程師計劃和創始人計劃,以及5月28-29日的AI新聞。主要話題包括:Claude Opus 4.8發佈及其基準測試爭議、多輪強化學習中的tokenization錯誤、開源模型與工具鏈進展、Google和OpenAI的Agent產品擴展,以及值得關注的研究論文。

  • Claude Opus 4.8帶來增量改進,但基準測試未顯示絕對優勢,定價仍是主要痛點。
  • 多輪強化學習訓練中的tokenization錯誤被指出,需嚴格遵循“Token-In, Token-Out”規則。
站內正文

Anthropic完成9650億美元H輪融資,發佈Opus 4.8和Dynamic Workflows/ultracode

Anthropic以9650億美元估值完成650億美元H輪融資,同時披露470億美元年化收入,併發布Claude Opus 4.8更新(提升判斷力、誠實度和長時自主工作能力)以及Claude Code的Dynamic Workflows功能(支持數百個並行子代理)。

  • Anthropic完成650億美元H輪融資,估值9650億美元,由Altimeter、Dragoneer、Greenoaks和Sequoia領投
  • Opus 4.8大幅改進判斷力、誠實度和效率,在SWE-Bench Pro等基準上領先GPT-5.5
站內正文

全部來源