AI News HubLIVE
站内改写

[AINews] 创始人与前向部署工程师

在消化Anthropic重大新闻的间隙,我们重点介绍了AIE的新前向部署工程师计划和创始人计划,以及5月28-29日的AI新闻。主要话题包括:Claude Opus 4.8发布及其基准测试争议、多轮强化学习中的tokenization错误、开源模型与工具链进展、Google和OpenAI的Agent产品扩展,以及值得关注的研究论文。

文章情报

工程师进阶

要点

  • Claude Opus 4.8带来增量改进,但基准测试未显示绝对优势,定价仍是主要痛点。
  • 多轮强化学习训练中的tokenization错误被指出,需严格遵循“Token-In, Token-Out”规则。
  • 开源模型使用率上升,现在有1/3的AI团队使用开源模型,落后前沿专有模型约四个月。
  • Google和OpenAI扩展Agent产品,包括Gemini Spark、Managed Agents和Codex的Windows支持。

为什么重要

这条新闻值得关注,因为Claude Opus 4.8带来增量改进,但基准测试未显示绝对优势,定价仍是主要痛点。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

大多数人仍在消化昨日Anthropic的重大消息。我们借此机会为AIE的新前向部署工程师(FDE)项目招募全球领先的AI FDE,这与OpenAI DeployCo和Anthropic DeployCo的类似举措相呼应。此外,AIE的新创始人计划正在举行类似初创公司竞赛的活动,由Y Combinator的Garry Tan和Howie Lu的1000万美元Hyperagent竞赛支持。如果您感兴趣,请立即报名并预订酒店。

以下为5月28日至29日的AI新闻。我们检查了12个subreddit、544个Twitter账户,没有额外的Discord。AINews的网站支持搜索所有历史内容。提醒一下,AINews现在是Latent Space的一部分。您可以随时选择接收或不接收电子邮件。

AI Twitter摘要

Claude Opus 4.8发布,基准测试争议与API易用性

Opus 4.8在嘈杂且混杂的评估环境中推出:多个独立基准测试显示“增量改进但非主导”。@arena推送了200多项前端/代码测试,比较Opus 4.8与之前的Opus变体、Gemini和GLM;@theo报告CursorBench显示其效率更高但在误差范围内略逊于4.7;@jerryjliu0和@llama_index发现表格/布局有小幅提升,但文档解析中的内容忠实度/图表出现退步;@scaling01表示ALE-Bench无进展,并单独指出LisanBench上的有趣失败模式。积极方面,@jeremyphoward发现4.8在编码时比4.7/GPT-5.5更少过度代理、更合作;@leo_linsky称其是Anthropic先前版本的有形产品改进。

Anthropic还推出了实用的平台级变化:@ClaudeDevs宣布会话中系统指令更新而不破坏提示缓存,以及权威的会话中系统角色更新,这对长时间运行的代理会话和成本控制很重要。但定价仍是主要抱怨:@jeremyphoward认为Anthropic在API affordability上做得很少,他更倾向于GPT-5.5部分原因是订阅/API经济学更容易合理化。总体而言:4.8对于实际使用来说是意义重大的质量改进,而不是基准测试的清洁重置。

Agent框架、多轮RL错误和自主性基础设施

一个微妙但重要的强化学习失败模式被指出:@ClementDelangue强调了Hugging Face的深度分析,说明为何许多使用工具的多轮RL训练循环悄然失效。核心错误:解码模型输出、解析工具调用、然后重新标记更新后的对话可能会导致token化变化,从而将梯度应用于模型从未实际采样的序列。建议的修复是严格的“Token-In, Token-Out”规则:永远不要重新编码采样过的token;跨轮次保持单一token缓冲区。@johnschulman2进一步强调,渲染器是消息和token之间的基础基础设施,其失败模式包括训练/测试不匹配、缓存低效和提示注入风险。

框架设计正成为其自己的优化学科:@omarsar0揭示了关于有效反馈计算(EFC)的工作,声称原始token/工具计数难以解释代理成功,而EFC的R²高达0.99,暗示框架质量比原始活动更重要。这与产品化的调优努力一致,例如@LangChain的Deep Agents v0.6将框架配置文件作为一等公民,以比前沿API低20倍以上的成本从Qwen/Kimi/DeepSeek获得强性能,并且@hwchase17明确表示“不同模型需要不同提示/工具”。@vllm_project发布了原生权重同步API和改进的暂停/恢复用于异步RL,随后添加了fastokens,一个Rust BPE分词器,以减少长上下文/代理工作负载中的CPU tokenization瓶颈。

争论正在从“单代理vs多代理”转向抽象在何处产生收益:@OfirPress认为当前多代理系统主要是加速,而非能力解锁;@scaling01持相反观点,期望群集式训练能产生更好的规划和超级智能行为。无论哪种方式,实际趋势是明确的:更多团队围绕代理可观察性、追踪和持续改进循环构建,例如@Vtrivedy10关于从生产追踪中挖掘SFT/蒸馏和长范围持续学习。

开源模型、本地AI和OSS工具链的收紧

本地优先和开放权重势头继续上升:@LangChain表示,2026年4月有三分之一的AI团队运行开放权重模型,高于九个月前的五分之一;@EpochAIResearch估计开放权重模型现在落后前沿专有模型约四个月。工具链方面,@ggerganov推出了llama.app,为llama.cpp提供了官方网站、统一安装程序和单一入口点,旨在更轻松的本地部署和第三方代理集成。@ollama宣布OpenJarvis作为本地优先的个人AI,通过Ollama实现,明确与斯坦福/Hazy的“每瓦特智力”框架相关联。

开放基础设施越来越企业化:@ClementDelangue指出,Hugging Face上约50%的模型和数据集现在是私有的,随着HF的存储/桶服务而上升;这是对HF仅为公共OSS基础设施这一观念的重要纠正。@abidlabs展示了Hugging Face Jobs取代GitHub runners用于CPU/无服务器GPU CI。@DSPyOSS、@dbreunig等人发布了重新设计的DSPy文档/首页,为即将到来的4.0做准备,重点是引导用户进入可编程AI系统而非纯粹提示。

许可和宽松性正成为战略杠杆:@kimmonismus强调了NVIDIA将其四个开放模型系列移至Linux Foundation OpenMDW-1.1,减少了权重/代码/文档/数据之间的法律碎片化。新的宽松数据发布也很重要:@keshigeyan介绍了GPIC,一个1亿对宽松图像语料库加上100万对基准用于视觉生成,明确用于研究和商业用途。

Google/OpenAI产品表面扩展:托管代理、Gemini Spark/Omni和Windows上的Codex

Google正在将“托管代理”堆栈从API扩展到消费品:@_philschmid展示了Gemini API中的托管代理:一个API调用即可提供沙盒Linux环境,包含代码执行、网络访问和文件I/O。消费者方面,@GeminiApp向美国AI Ultra订阅者推出了Gemini Spark,作为24/7个人代理,可在指导下跨用户数字生态系统操作。Google还继续推送Gemini Omni多模态生成/编辑演示(示例、产品线程),并宣布Google Flow Agent用于创意工作流,特别是在视频/电影制作中(线程)。

OpenAI的Codex正朝着持久远程开发操作员迈进:@OpenAI和@OpenAIDevs增加了Windows上的计算机使用,包括从ChatGPT移动应用远程操控。后续用户体验改进包括后台代理的稳定图标和跨先前聊天内容的搜索(@OpenAIDevs);@reach_vb总结了Codex在Windows控制、移动远程访问和配置文件/任务统计方面的更广泛更新。此外,OpenAI更新了gpt-5.5 instant,改进了谄媚性、事实性和多语言性能,据@michpokrass报道。

所有这些都指向更垂直集成的代理堆栈:模型+框架+沙盒+UI+远程控制+定价/配额。Google正在平滑Gemini的配额(@joshwoodward);OpenAI正在扩展Codex的操作表面;Cursor添加了具有子代理批准路由的自动审查模式(推文)。共同模式更少是“聊天机器人”,更多是带有策略和内存的托管执行环境。

值得关注的研究和系统论文

搜索、检索和记忆:@TheTuringPost强调了哈佛/MIT的双向进化搜索(BES),结合前向搜索与反向分解和进化算子;报告显示Llama-3.2-3B-Instruct在MuSiQue上从4.0%提升到7.0%。检索方面,@_reachsumit指出了Latent Terms,展示稀疏的BM25就绪特征可以通过SAE从冻结的密集检索器中提取。@topk_io开源了Iso-ModernColBERT,用于更高效的延迟交互推理。

持续学习和信念/状态管理:@HuggingPapers总结了BeliefTrack,声称优化的信念状态管理将长程推理失败减少70%以上。@AndrewLampinen认为持续学习领域过度关注干扰而非正向转移;@victor207755822展示了第二篇DeliAutoResearch SKILL论文,关注自我迭代和持续学习。

多模态/世界模型/机器人:NVIDIA附属工作包括γ-World,一个以24 FPS流式传输的生成式多代理世界模型(推文),和minWM,一个实时交互视频世界模型框架(推文)。机器人方面,@_akhaliq分享了Qwen-VLA,@inventorOli演示了Robostral的语言跟随和操作改进。对于始终在线的主动代理,@dair_ai展示了用220MiB时间图编码器替换LLM唤醒决策的工作,获得+16.7平均F1,同时运行速度快4-83倍。

热门推文(按参与度)

  • OpenAI / 生物学:@OpenAI关于Rosalind Biodefense宣布用于公共卫生和生物防御的可信访问生物学工具。
  • Google / 消费者代理:@GeminiApp关于Spark向美国AI Ultra用户推出始终在线的个人代理。
  • OpenAI / 开发者工具:@OpenAI关于Codex Windows支持和@OpenAIDevs将计算机使用扩展到Windows外加移动远程操控。
  • llama.cpp UX里程碑:@ggerganov推出llama.app,带有统一安装程序和CLI入口点用于本地AI。
  • HF / RL正确性:@ClementDelangue放大了多轮RL与工具中“Token-In, Token-Out”警告。
  • 开源与闭源时间差距:@EpochAIResearch估计开放权重模型现在落后前沿约四个月。

AI Reddit摘要

/r/LocalLlama + /r/localLLM摘要

  1. 本地LLM性能:MoE发布、量化、VRAM节省

StepFun 3.7 Flash(活动:637):StepFun发布了Step 3.7 Flash,一个多模态MoE,总参数量196B,活跃参数11B,内置1.8B ViT,声称适用于高吞吐量代理工作流,可达400 TPS,并据报道可在本地运行,约需128GB RAM。报告基准测试将其定位为对于闪存级/本地模型异常强大:SWE-Bench Pro 56.26%,DeepSearchQA F1 92.82%,HLE w/tools 47.2,加上在Terminal-Bench、Toolathlon、ClawEval和其他代理/工具使用任务上相对于Step 3.5 Flash的大幅提升。直接模型工件可在Hugging Face上以BF16、FP8、NVFP4和GGUF格式获取,并有当天llama.cpp支持PR和相关MTP工作。评论者称该模型技术上奇怪:其隐藏/思考痕迹几乎不连贯,但最终答案可能“完美”且与更大的>1TB模型竞争;一位用户表示先前的Step 3.5“无限思考”问题似乎已修复。对于本地部署,尤其是拥有4x3090级别硬件的用户,存在谨慎的热情,并赞赏StepFun将llama.cpp支持上游化而不是仅维护一个分支。

StepFun在Hugging Face上发布了多个Step-3.7-Flash检查点:BF16(Step-3.7-Flash)、FP8(Step-3.7-Flash-FP8)、NVFP4(Step-3.7-Flash-NVFP4)和GGUF(Step-3.7-Flash-GGUF)。一位用户报告先前的Step 3.5 Flash“无限思考”问题似乎已修复,使3.7更可用,尽管仍然具有奇怪的中期推理风格。

有当天llama.cpp启用,通过StepFun的上游PR:ggml-org/llama.cpp#23845,与Step 3.5基于分支的支持形成对比。一个独立的社区PR用于MTP支持存在,但评论者指出需要为Step 3.7和当前主分支更新。

一个vLLM夜间测试在2x Pro 6k上使用NVFP4检查点进行64个并发浅上下文请求,达到约2200 tok/s。报告配置使用了tensor-parallel-size 2、--enable-expert-parallel、--quantization modelopt、--kv-cache-dty……(因AI成本控制截断)