AI News HubLIVE
站内改写

[AINews] 創始人與前向部署工程師

在消化Anthropic重大新聞的間隙,我們重點介紹了AIE的新前向部署工程師計劃和創始人計劃,以及5月28-29日的AI新聞。主要話題包括:Claude Opus 4.8發佈及其基準測試爭議、多輪強化學習中的tokenization錯誤、開源模型與工具鏈進展、Google和OpenAI的Agent產品擴展,以及值得關注的研究論文。

文章情報

工程師進階

要點

  • Claude Opus 4.8帶來增量改進,但基準測試未顯示絕對優勢,定價仍是主要痛點。
  • 多輪強化學習訓練中的tokenization錯誤被指出,需嚴格遵循“Token-In, Token-Out”規則。
  • 開源模型使用率上升,現在有1/3的AI團隊使用開源模型,落後前沿專有模型約四個月。
  • Google和OpenAI擴展Agent產品,包括Gemini Spark、Managed Agents和Codex的Windows支持。

為甚麼重要

這條新聞值得關注,因為Claude Opus 4.8帶來增量改進,但基準測試未顯示絕對優勢,定價仍是主要痛點。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

大多數人仍在消化昨日Anthropic的重大消息。我們藉此機會為AIE的新前向部署工程師(FDE)項目招募全球領先的AI FDE,這與OpenAI DeployCo和Anthropic DeployCo的類似舉措相呼應。此外,AIE的新創始人計劃正在舉行類似初創公司競賽的活動,由Y Combinator的Garry Tan和Howie Lu的1000萬美元Hyperagent競賽支持。如果您感興趣,請立即報名並預訂酒店。

以下為5月28日至29日的AI新聞。我們檢查了12個subreddit、544個Twitter賬户,沒有額外的Discord。AINews的網站支持搜索所有歷史內容。提醒一下,AINews現在是Latent Space的一部分。您可以隨時選擇接收或不接收電子郵件。

AI Twitter摘要

Claude Opus 4.8發佈,基準測試爭議與API易用性

Opus 4.8在嘈雜且混雜的評估環境中推出:多個獨立基準測試顯示“增量改進但非主導”。@arena推送了200多項前端/代碼測試,比較Opus 4.8與之前的Opus變體、Gemini和GLM;@theo報告CursorBench顯示其效率更高但在誤差範圍內略遜於4.7;@jerryjliu0和@llama_index發現表格/佈局有小幅提升,但文檔解析中的內容忠實度/圖表出現退步;@scaling01表示ALE-Bench無進展,並單獨指出LisanBench上的有趣失敗模式。積極方面,@jeremyphoward發現4.8在編碼時比4.7/GPT-5.5更少過度代理、更合作;@leo_linsky稱其是Anthropic先前版本的有形產品改進。

Anthropic還推出了實用的平台級變化:@ClaudeDevs宣佈會話中系統指令更新而不破壞提示緩存,以及權威的會話中系統角色更新,這對長時間運行的代理會話和成本控制很重要。但定價仍是主要抱怨:@jeremyphoward認為Anthropic在API affordability上做得很少,他更傾向於GPT-5.5部分原因是訂閲/API經濟學更容易合理化。總體而言:4.8對於實際使用來説是意義重大的質量改進,而不是基準測試的清潔重置。

Agent框架、多輪RL錯誤和自主性基礎設施

一個微妙但重要的強化學習失敗模式被指出:@ClementDelangue強調了Hugging Face的深度分析,説明為何許多使用工具的多輪RL訓練循環悄然失效。核心錯誤:解碼模型輸出、解析工具調用、然後重新標記更新後的對話可能會導致token化變化,從而將梯度應用於模型從未實際採樣的序列。建議的修復是嚴格的“Token-In, Token-Out”規則:永遠不要重新編碼採樣過的token;跨輪次保持單一token緩衝區。@johnschulman2進一步強調,渲染器是消息和token之間的基礎基礎設施,其失敗模式包括訓練/測試不匹配、緩存低效和提示注入風險。

框架設計正成為其自己的優化學科:@omarsar0揭示了關於有效反饋計算(EFC)的工作,聲稱原始token/工具計數難以解釋代理成功,而EFC的R²高達0.99,暗示框架質量比原始活動更重要。這與產品化的調優努力一致,例如@LangChain的Deep Agents v0.6將框架配置文件作為一等公民,以比前沿API低20倍以上的成本從Qwen/Kimi/DeepSeek獲得強性能,並且@hwchase17明確表示“不同模型需要不同提示/工具”。@vllm_project發佈了原生權重同步API和改進的暫停/恢復用於異步RL,隨後添加了fastokens,一個Rust BPE分詞器,以減少長上下文/代理工作負載中的CPU tokenization瓶頸。

爭論正在從“單代理vs多代理”轉向抽象在何處產生收益:@OfirPress認為當前多代理系統主要是加速,而非能力解鎖;@scaling01持相反觀點,期望羣集式訓練能產生更好的規劃和超級智能行為。無論哪種方式,實際趨勢是明確的:更多團隊圍繞代理可觀察性、追蹤和持續改進循環構建,例如@Vtrivedy10關於從生產追蹤中挖掘SFT/蒸餾和長範圍持續學習。

開源模型、本地AI和OSS工具鏈的收緊

本地優先和開放權重勢頭繼續上升:@LangChain表示,2026年4月有三分之一的AI團隊運行開放權重模型,高於九個月前的五分之一;@EpochAIResearch估計開放權重模型現在落後前沿專有模型約四個月。工具鏈方面,@ggerganov推出了llama.app,為llama.cpp提供了官方網站、統一安裝程序和單一入口點,旨在更輕鬆的本地部署和第三方代理集成。@ollama宣佈OpenJarvis作為本地優先的個人AI,通過Ollama實現,明確與斯坦福/Hazy的“每瓦特智力”框架相關聯。

開放基礎設施越來越企業化:@ClementDelangue指出,Hugging Face上約50%的模型和數據集現在是私有的,隨着HF的存儲/桶服務而上升;這是對HF僅為公共OSS基礎設施這一觀念的重要糾正。@abidlabs展示了Hugging Face Jobs取代GitHub runners用於CPU/無服務器GPU CI。@DSPyOSS、@dbreunig等人發佈了重新設計的DSPy文檔/首頁,為即將到來的4.0做準備,重點是引導用户進入可編程AI系統而非純粹提示。

許可和寬鬆性正成為戰略槓桿:@kimmonismus強調了NVIDIA將其四個開放模型系列移至Linux Foundation OpenMDW-1.1,減少了權重/代碼/文檔/數據之間的法律碎片化。新的寬鬆數據發佈也很重要:@keshigeyan介紹了GPIC,一個1億對寬鬆圖像語料庫加上100萬對基準用於視覺生成,明確用於研究和商業用途。

Google/OpenAI產品表面擴展:託管代理、Gemini Spark/Omni和Windows上的Codex

Google正在將“託管代理”堆棧從API擴展到消費品:@_philschmid展示了Gemini API中的託管代理:一個API調用即可提供沙盒Linux環境,包含代碼執行、網絡訪問和文件I/O。消費者方面,@GeminiApp向美國AI Ultra訂閲者推出了Gemini Spark,作為24/7個人代理,可在指導下跨用户數字生態系統操作。Google還繼續推送Gemini Omni多模態生成/編輯演示(示例、產品線程),並宣佈Google Flow Agent用於創意工作流,特別是在視頻/電影製作中(線程)。

OpenAI的Codex正朝着持久遠程開發操作員邁進:@OpenAI和@OpenAIDevs增加了Windows上的計算機使用,包括從ChatGPT移動應用遠程操控。後續用户體驗改進包括後台代理的穩定圖標和跨先前聊天內容的搜索(@OpenAIDevs);@reach_vb總結了Codex在Windows控制、移動遠程訪問和配置文件/任務統計方面的更廣泛更新。此外,OpenAI更新了gpt-5.5 instant,改進了諂媚性、事實性和多語言性能,據@michpokrass報道。

所有這些都指向更垂直集成的代理堆棧:模型+框架+沙盒+UI+遠程控制+定價/配額。Google正在平滑Gemini的配額(@joshwoodward);OpenAI正在擴展Codex的操作表面;Cursor添加了具有子代理批准路由的自動審查模式(推文)。共同模式更少是“聊天機器人”,更多是帶有策略和內存的託管執行環境。

值得關注的研究和系統論文

搜索、檢索和記憶:@TheTuringPost強調了哈佛/MIT的雙向進化搜索(BES),結合前向搜索與反向分解和進化算子;報告顯示Llama-3.2-3B-Instruct在MuSiQue上從4.0%提升到7.0%。檢索方面,@_reachsumit指出了Latent Terms,展示稀疏的BM25就緒特徵可以通過SAE從凍結的密集檢索器中提取。@topk_io開源了Iso-ModernColBERT,用於更高效的延遲交互推理。

持續學習和信念/狀態管理:@HuggingPapers總結了BeliefTrack,聲稱優化的信念狀態管理將長程推理失敗減少70%以上。@AndrewLampinen認為持續學習領域過度關注干擾而非正向轉移;@victor207755822展示了第二篇DeliAutoResearch SKILL論文,關注自我迭代和持續學習。

多模態/世界模型/機器人:NVIDIA附屬工作包括γ-World,一個以24 FPS流式傳輸的生成式多代理世界模型(推文),和minWM,一個實時交互視頻世界模型框架(推文)。機器人方面,@_akhaliq分享了Qwen-VLA,@inventorOli演示了Robostral的語言跟隨和操作改進。對於始終在線的主動代理,@dair_ai展示了用220MiB時間圖編碼器替換LLM喚醒決策的工作,獲得+16.7平均F1,同時運行速度快4-83倍。

熱門推文(按參與度)

  • OpenAI / 生物學:@OpenAI關於Rosalind Biodefense宣佈用於公共衞生和生物防禦的可信訪問生物學工具。
  • Google / 消費者代理:@GeminiApp關於Spark向美國AI Ultra用户推出始終在線的個人代理。
  • OpenAI / 開發者工具:@OpenAI關於Codex Windows支持和@OpenAIDevs將計算機使用擴展到Windows外加移動遠程操控。
  • llama.cpp UX里程碑:@ggerganov推出llama.app,帶有統一安裝程序和CLI入口點用於本地AI。
  • HF / RL正確性:@ClementDelangue放大了多輪RL與工具中“Token-In, Token-Out”警告。
  • 開源與閉源時間差距:@EpochAIResearch估計開放權重模型現在落後前沿約四個月。

AI Reddit摘要

/r/LocalLlama + /r/localLLM摘要

  1. 本地LLM性能:MoE發佈、量化、VRAM節省

StepFun 3.7 Flash(活動:637):StepFun發佈了Step 3.7 Flash,一個多模態MoE,總參數量196B,活躍參數11B,內置1.8B ViT,聲稱適用於高吞吐量代理工作流,可達400 TPS,並據報道可在本地運行,約需128GB RAM。報告基準測試將其定位為對於閃存級/本地模型異常強大:SWE-Bench Pro 56.26%,DeepSearchQA F1 92.82%,HLE w/tools 47.2,加上在Terminal-Bench、Toolathlon、ClawEval和其他代理/工具使用任務上相對於Step 3.5 Flash的大幅提升。直接模型工件可在Hugging Face上以BF16、FP8、NVFP4和GGUF格式獲取,並有當天llama.cpp支持PR和相關MTP工作。評論者稱該模型技術上奇怪:其隱藏/思考痕跡幾乎不連貫,但最終答案可能“完美”且與更大的>1TB模型競爭;一位用户表示先前的Step 3.5“無限思考”問題似乎已修復。對於本地部署,尤其是擁有4x3090級別硬件的用户,存在謹慎的熱情,並讚賞StepFun將llama.cpp支持上游化而不是僅維護一個分支。

StepFun在Hugging Face上發佈了多個Step-3.7-Flash檢查點:BF16(Step-3.7-Flash)、FP8(Step-3.7-Flash-FP8)、NVFP4(Step-3.7-Flash-NVFP4)和GGUF(Step-3.7-Flash-GGUF)。一位用户報告先前的Step 3.5 Flash“無限思考”問題似乎已修復,使3.7更可用,儘管仍然具有奇怪的中期推理風格。

有當天llama.cpp啓用,通過StepFun的上游PR:ggml-org/llama.cpp#23845,與Step 3.5基於分支的支持形成對比。一個獨立的社區PR用於MTP支持存在,但評論者指出需要為Step 3.7和當前主分支更新。

一個vLLM夜間測試在2x Pro 6k上使用NVFP4檢查點進行64個併發淺上下文請求,達到約2200 tok/s。報告配置使用了tensor-parallel-size 2、--enable-expert-parallel、--quantization modelopt、--kv-cache-dty……(因AI成本控制截斷)