2026-05-02站内改写

[AINews] AI工程师世界博览会——自动研究、记忆、世界模型、Token最大化、代理商业以及垂直AI演讲者征集

本文宣布AI工程师世界博览会第二波演讲者征集活动，涵盖自动研究、记忆、世界模型、Token最大化、代理商业以及法律、医疗、GTM和金融领域的垂直AI等新主题。此外，还总结了近期AI领域的重要动态，包括Grok 4.3发布、DeepSeek V4 Pro进展、Codex vs Claude Code竞争、代理基础设施研究以及本地LLM社区的热门讨论。

文章情报

工程师进阶

要点

AI工程师世界博览会第二波演讲者征集启动，新增多个技术主题轨道。
Grok 4.3发布，性能提升但可靠性存疑；DeepSeek V4 Pro成为最可信的开源编码/代理模型之一。
Codex在产品速度和用户体验上领先，与Claude Code形成竞争；代理基础设施聚焦检索、记忆和持久执行。
本地LLM社区活跃，Qwen模型系列（如Qwen 3.6 27B）性能出色，PFlash技术实现10倍预填充加速。

为什么重要

这条新闻值得关注，因为AI工程师世界博览会第二波演讲者征集启动，新增多个技术主题轨道。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本文综合报道了AI领域的最新进展，重点包括AI工程师世界博览会的演讲者征集、近期模型发布、代理基础设施研究以及本地LLM社区的讨论。

AI工程师世界博览会第二波演讲者征集

主办方宣布启动AI工程师世界博览会的第二波演讲者征集活动，该活动将于今年夏天在莫斯科内西举行。新增主题轨道包括：自动研究（递归自我改进循环）、Token最大化（如何更高效地扩展AI采用）、记忆（用户使用过程中模型如何改进）、世界模型（空间智能和对抗推理）、代理商业（代理如何为数据、API和其他代理付费）、以及垂直AI（法律、医疗、GTM和金融）。此外，还有机器人展区、初创企业路演等活动。

Grok 4.3发布

xAI发布了Grok 4.3，在成本/性能上有显著提升，但评估结果好坏参半。其智能指数得分53，比上一代提升4分，定价降低约40-60%。最大亮点是在GDPval-AA上提升321 Elo至1500，表明实际代理任务性能更强。然而，非幻觉能力下降8个百分点，引发可靠性担忧。社区反应分裂，有人认为是“有意义的迭代”，也有人认为“仍落后于顶级开源模型”。

DeepSeek V4 Pro进展

DeepSeek V4 Pro被认为是最可信的开源权重编码/代理模型之一。在Pi编码代理中测试，感觉与Codex或Claude Code相当。其系统细节包括1M上下文、混合CSA/HCA注意力设计、KV缓存降至10%、长上下文推理FLOPs降低近4倍。开源模型在智能指数上得分为52-54，与顶级闭源模型差距缩小，但仍集中在最困难的任务上。此外，DeepSeek推出了“Thinking-with-Visual-Primitives”框架，将空间标记直接嵌入推理过程，增强空间推理能力。

Codex vs Claude Code竞争

OpenAI的Codex在产品速度和用户体验上领先，新增了设备工具栏、CI状态等功能，并推出了“宠物”系统。评论认为GPT-5.5更“智能”而Opus 4.7有更好的“品味”，但速度较慢。其他代理运行时如Devin、Hermes、Flue也在快速迭代，竞争焦点从模型智商转向代理框架设计。

代理基础设施研究

代理系统的主要瓶颈在于运行时设计。ReaLM-Retrieve表明推理模型需要在推理过程中而非之前进行检索，OCR-Memory通过图像存储长期轨迹。LangChain/LangGraph推进了多用户和人在环中的生产原语。持久执行成为各堆栈的一级运行时特性。

研究亮点

递归多代理协同通过共享潜在递归计算实现8.3%平均准确率提升和1.2-2.4倍加速。Meta FAIR的“自我改进预训练”在事实性上提升36.2%，安全性提升18.5%。微软的合成长视野计算机使用世界提供了可扩展的体验数据。

本地LLM社区动态

Qwen模型系列表现突出：Qwen 3.6 27B在本地游戏开发竞赛中与Gemma 4 31B各有千秋；Qwen-Scope发布了稀疏自编码器，为Qwen 3.5模型提供可解释性工具。PFlash技术利用投机预填充在RTX 3090上实现10倍速度提升。硬件方面，16x Spark集群和AMD Halo Box等设置受到关注。

其他讨论

GPT-5.5在网络安全模拟中仅用11分钟完成人类专家12小时的任务，成本1.73美元。OpenAI的研究者表示模型已能超越人类研究人员提出研究问题。本地LLM用户分享了实际应用案例，如代码审查和数据过滤，显著节省API成本。

总之，当前AI领域正处于快速发展期，模型能力、代理基础设施和本地部署都在不断进步。