[AI新闻] 如何在前沿实验室找到工作(关于预训练)
在谷歌 I/O 大会前夕,文章重点介绍了 Vlad Feinberg 关于预训练领域求职的笔记,同时涵盖了 AI 界的其他重要动态:Cursor 发布了 Composer 2.5 并披露了更大规模的训练计划,Qwen3.7 在排行榜上攀升,llama.cpp 的 MTP 支持大幅提升了本地推理速度,以及多项关于 MoE、强化学习和智能体评估的研究进展。
文章情报
要点
- Vlad Feinberg 分享了针对前沿实验室的求职建议,强调内核级优化和智能体工作的重要性。
- Cursor 发布 Composer 2.5,并宣布使用 10 倍算力从零训练更大模型。
- llama.cpp 的 MTP 支持将本地推理速度提升高达 78%。
- Anthropic 收购 SDK 平台 Stainless,强化开发者基础设施。
为什么重要
这条新闻值得关注,因为Vlad Feinberg 分享了针对前沿实验室的求职建议,强调内核级优化和智能体工作的重要性。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
在谷歌 I/O 大会的前一天,AI 新闻界相对平静,但 Vlad Feinberg 关于预训练领域求职的博客文章成为了当天的焦点。Feinberg 是业内知名的研究者,他的笔记主要围绕如何进入前沿实验室,其中特别强调了内核级性能优化的重要性。他指出,LLM 工作中最大的瓶颈和最内层的循环是性能工作,即将抽象的、逻辑性的改变变得实际可运行。每个项目都需要能够对 LLM 进行内核级调优的人才。Feinberg 还出人意料地提到了智能体工作,如自动研究和 AlphaEvolve。
Feinberg 提出了一个简单的练习:推导 Chinchilla 扩展律,比较密集模型和 MoE 架构的差异;用 Jax 从头编写代码;使用 Pallas 内核优化 MoE 层的前向传播速度;并向社区教学。他认为这是进入实验室的最直接路径。
除了求职笔记,AI 推特摘要也包含了多个重要更新。Cursor 发布了 Composer 2.5,号称是其最强的模型,专注于长时间任务的持续工作和指令遵循。更引人注目的是,Cursor 透露正在利用 SpaceXAI 和 Colossus 2 的百万级 H100 等效算力,从零训练一个规模大 10 倍的模型。社区反应积极,认为其性价比和编码质量大幅提升。
阿里巴巴的 Qwen3.7 系列在 Arena 排行榜上继续攀升,在文本和视觉类别中均进入前 20,显示出中国实验室在通用和专业领域的持续进步。字节跳动开源了 Lance 多模态模型,而 Perplexity 发布了小型开放多语言 ColBERT 模型。
本地推理方面,llama.cpp 的 MTP(多词预测)支持为 Qwen3.6 系列带来了显著的速度提升,在 A10G 上 Qwen3.6-27B 从 25 tok/s 提升到 45 tok/s,增长 78%。这一进展缩小了本地与托管助手的可用性差距。
企业级部署方面,Hugging Face 与 Dell 合作,通过 Dell Enterprise Hub 提供一键访问多种模型,包括 Kimi K2.6、DeepSeek V4 Pro 等。Zyphra 发布了在 AMD Instinct MI355X 上的端到端推理基准,声称性能出色,缩小了与 NVIDIA B200 的差距。
研究领域出现了若干重要论文。关于 MoE 的研究表明,设计空间主要取决于专家大小和数量,而非复杂的配置参数。Meta 的 AIRA 研究通过智能体驱动的神经架构搜索,在 24 小时计算预算内击败了 Llama 3.2。强化学习方面,有工作强调了奖励模型和动态模型平滑性的重要性,以及“想象中训练”的方法。数据混合问题成为研究热点,On-Policy Mix 方法试图解决训练分布不断变化时的数据配比难题。
生态系统方面,Anthropic 收购了 SDK 和 MCP 服务器平台 Stainless,这一垂直整合表明了其对开发者体验的重视。同时,有分析指出 Anthropic 和 OpenAI 在顶级 AI 初创公司的收入占比正在上升,显示生态可能在经济上向少数头部公司集中。此外,The Turing Post 总结了 13 个用于基础模型部署的开源工具,而 Papers With Code 通过 AI 代理辅助解析方法、排行榜和 SOTA 追踪,正在复兴。
总之,这一天虽然平静,但多个领域的进展为 AI 从业者提供了丰富的信息。