2026-05-02站内改写

[AINews] AI工程師世界博覽會——自動研究、記憶、世界模型、Token最大化、代理商業以及垂直AI演講者徵集

本文宣佈AI工程師世界博覽會第二波演講者徵集活動，涵蓋自動研究、記憶、世界模型、Token最大化、代理商業以及法律、醫療、GTM和金融領域的垂直AI等新主題。此外，還總結了近期AI領域的重要動態，包括Grok 4.3釋出、DeepSeek V4 Pro進展、Codex vs Claude Code競爭、代理基礎設施研究以及本地LLM社群的熱門討論。

文章情報

工程師進階

要點

AI工程師世界博覽會第二波演講者徵集啟動，新增多個技術主題軌道。
Grok 4.3釋出，效能提升但可靠性存疑；DeepSeek V4 Pro成為最可信的開源編碼/代理模型之一。
Codex在產品速度和使用者體驗上領先，與Claude Code形成競爭；代理基礎設施聚焦檢索、記憶和持久執行。
本地LLM社群活躍，Qwen模型系列（如Qwen 3.6 27B）效能出色，PFlash技術實現10倍預填充加速。

為什麼重要

這條新聞值得關注，因為AI工程師世界博覽會第二波演講者徵集啟動，新增多個技術主題軌道。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本文綜合報道了AI領域的最新進展，重點包括AI工程師世界博覽會的演講者徵集、近期模型釋出、代理基礎設施研究以及本地LLM社群的討論。

AI工程師世界博覽會第二波演講者徵集

主辦方宣佈啟動AI工程師世界博覽會的第二波演講者徵集活動，該活動將於今年夏天在莫斯科內西舉行。新增主題軌道包括：自動研究（遞迴自我改進迴圈）、Token最大化（如何更高效地擴充套件AI採用）、記憶（使用者使用過程中模型如何改進）、世界模型（空間智慧和對抗推理）、代理商業（代理如何為資料、API和其他代理付費）、以及垂直AI（法律、醫療、GTM和金融）。此外，還有機器人展區、初創企業路演等活動。

Grok 4.3釋出

xAI釋出了Grok 4.3，在成本/效能上有顯著提升，但評估結果好壞參半。其智慧指數得分53，比上一代提升4分，定價降低約40-60%。最大亮點是在GDPval-AA上提升321 Elo至1500，表明實際代理任務效能更強。然而，非幻覺能力下降8個百分點，引發可靠性擔憂。社群反應分裂，有人認為是“有意義的迭代”，也有人認為“仍落後於頂級開源模型”。

DeepSeek V4 Pro進展

DeepSeek V4 Pro被認為是最可信的開源權重編碼/代理模型之一。在Pi編碼代理中測試，感覺與Codex或Claude Code相當。其系統細節包括1M上下文、混合CSA/HCA注意力設計、KV快取降至10%、長上下文推理FLOPs降低近4倍。開源模型在智慧指數上得分為52-54，與頂級閉源模型差距縮小，但仍集中在最困難的任務上。此外，DeepSeek推出了“Thinking-with-Visual-Primitives”框架，將空間標記直接嵌入推理過程，增強空間推理能力。

Codex vs Claude Code競爭

OpenAI的Codex在產品速度和使用者體驗上領先，新增了裝置工具欄、CI狀態等功能，並推出了“寵物”系統。評論認為GPT-5.5更“智慧”而Opus 4.7有更好的“品味”，但速度較慢。其他代理執行時如Devin、Hermes、Flue也在快速迭代，競爭焦點從模型智商轉向代理框架設計。

代理基礎設施研究

代理系統的主要瓶頸在於執行時設計。ReaLM-Retrieve表明推理模型需要在推理過程中而非之前進行檢索，OCR-Memory透過影像儲存長期軌跡。LangChain/LangGraph推進了多使用者和人在環中的生產原語。持久執行成為各堆疊的一級執行時特性。

研究亮點

遞迴多代理協同透過共享潛在遞迴計算實現8.3%平均準確率提升和1.2-2.4倍加速。Meta FAIR的“自我改進預訓練”在事實性上提升36.2%，安全性提升18.5%。微軟的合成長視野計算機使用世界提供了可擴充套件的體驗資料。

本地LLM社群動態

Qwen模型系列表現突出：Qwen 3.6 27B在本地遊戲開發競賽中與Gemma 4 31B各有千秋；Qwen-Scope釋出了稀疏自編碼器，為Qwen 3.5模型提供可解釋性工具。PFlash技術利用投機預填充在RTX 3090上實現10倍速度提升。硬體方面，16x Spark叢集和AMD Halo Box等設定受到關注。

其他討論

GPT-5.5在網路安全模擬中僅用11分鐘完成人類專家12小時的任務，成本1.73美元。OpenAI的研究者表示模型已能超越人類研究人員提出研究問題。本地LLM使用者分享了實際應用案例，如程式碼審查和資料過濾，顯著節省API成本。

總之，當前AI領域正處於快速發展期，模型能力、代理基礎設施和本地部署都在不斷進步。