2026-05-19 15:31 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

[AI新闻] 如何在前沿实验室找到工作（关于预训练）

在谷歌 I/O 大会前夕，文章重点介绍了 Vlad Feinberg 关于预训练领域求职的笔记，同时涵盖了 AI 界的其他重要动态：Cursor 发布了 Composer 2.5 并披露了更大规模的训练计划，Qwen3.7 在排行榜上攀升，llama.cpp 的 MTP 支持大幅提升了本地推理速度，以及多项关于 MoE、强化学习和智能体评估的研究进展。

来源Latent Space

在谷歌 I/O 大会的前一天，AI 新闻界相对平静，但 Vlad Feinberg 关于预训练领域求职的博客文章成为了当天的焦点。Feinberg 是业内知名的研究者，他的笔记主要围绕如何进入前沿实验室，其中特别强调了内核级性能优化的重要性。他指出，LLM 工作中最大的瓶颈和最内层的循环是性能工作，即将抽象的、逻辑性的改变变得实际可运行。每个项目都需要能够对 LLM 进行内核级调优的人才。Feinberg 还出人意料地提到了智能体工作，如自动研究和 AlphaEvolve。

Feinberg 提出了一个简单的练习：推导 Chinchilla 扩展律，比较密集模型和 MoE 架构的差异；用 Jax 从头编写代码；使用 Pallas 内核优化 MoE 层的前向传播速度；并向社区教学。他认为这是进入实验室的最直接路径。

除了求职笔记，AI 推特摘要也包含了多个重要更新。Cursor 发布了 Composer 2.5，号称是其最强的模型，专注于长时间任务的持续工作和指令遵循。更引人注目的是，Cursor 透露正在利用 SpaceXAI 和 Colossus 2 的百万级 H100 等效算力，从零训练一个规模大 10 倍的模型。社区反应积极，认为其性价比和编码质量大幅提升。

阿里巴巴的 Qwen3.7 系列在 Arena 排行榜上继续攀升，在文本和视觉类别中均进入前 20，显示出中国实验室在通用和专业领域的持续进步。字节跳动开源了 Lance 多模态模型，而 Perplexity 发布了小型开放多语言 ColBERT 模型。

本地推理方面，llama.cpp 的 MTP（多词预测）支持为 Qwen3.6 系列带来了显著的速度提升，在 A10G 上 Qwen3.6-27B 从 25 tok/s 提升到 45 tok/s，增长 78%。这一进展缩小了本地与托管助手的可用性差距。

企业级部署方面，Hugging Face 与 Dell 合作，通过 Dell Enterprise Hub 提供一键访问多种模型，包括 Kimi K2.6、DeepSeek V4 Pro 等。Zyphra 发布了在 AMD Instinct MI355X 上的端到端推理基准，声称性能出色，缩小了与 NVIDIA B200 的差距。

研究领域出现了若干重要论文。关于 MoE 的研究表明，设计空间主要取决于专家大小和数量，而非复杂的配置参数。Meta 的 AIRA 研究通过智能体驱动的神经架构搜索，在 24 小时计算预算内击败了 Llama 3.2。强化学习方面，有工作强调了奖励模型和动态模型平滑性的重要性，以及“想象中训练”的方法。数据混合问题成为研究热点，On-Policy Mix 方法试图解决训练分布不断变化时的数据配比难题。

生态系统方面，Anthropic 收购了 SDK 和 MCP 服务器平台 Stainless，这一垂直整合表明了其对开发者体验的重视。同时，有分析指出 Anthropic 和 OpenAI 在顶级 AI 初创公司的收入占比正在上升，显示生态可能在经济上向少数头部公司集中。此外，The Turing Post 总结了 13 个用于基础模型部署的开源工具，而 Papers With Code 通过 AI 代理辅助解析方法、排行榜和 SOTA 追踪，正在复兴。

总之，这一天虽然平静，但多个领域的进展为 AI 从业者提供了丰富的信息。