2026-05-04 08:00 UTC+8站内改写3 分钟阅读更新: 2026-06-27 08:25 UTC+8

驱动大规模高效推理的基础研究

随着AI从研究走向生产，AI原生团队面临的挑战从构建模型转向高效、可靠、大规模地运行模型。推理成本占生产AI系统总生命周期成本的80-90%。Together AI通过FlashAttention-4、ATLAS自适应推测解码等研究，结合全栈硬件优化和智能调度，实现高效推理，帮助客户改善单位经济效益。

来源Together AI Blog

随着人工智能从研究实验室进入生产环境，AI原生团队面临的核心挑战已从构建模型转向运行模型——高效、可靠且大规模地运行。据估计，推理（inference）占生产AI系统总生命周期成本的80-90%，因为它需要持续处理每一次用户查询、每一个代理步骤和每一次API调用。而训练是一次性投资，推理成本却随着新用户和用例的扩展而线性增长。

在NVIDIA GTC 2026大会上，NVIDIA CEO黄仁勋明确指出：“人们为信息付费，但更重要的是为工作付费。代理系统能够完成工作。”这一转变——从AI作为新奇事物到AI作为生产力工具——正重塑基础设施的优先级。对于Together AI而言，这并非新课题。其CTO Ce Zhang在GTC上深入分享了从运行最严苛生产推理工作负载中获得的经验。

推理为何如此困难？

生产环境中的推理远非“运行模型”那么简单，而是一个涉及多个相互竞争维度的优化问题：

延迟决定了产品体验的可能性。对于编码助手、实时客服或对话代理，低于500毫秒的响应时间不是可选项，而是产品能否让用户感觉流畅的硬性要求。代理工作流放大了这一挑战：五次200毫秒的模型调用会累积成整整一秒的延迟。
吞吐量直接影响单位经济模型。AI原生公司的成本结构与传统SaaS不同：传统软件公司的毛利率通常在80-90%，而AI公司普遍在50-60%，其中推理成本约占规模化公司收入的23%。更高效的推理意味着每GPU小时服务更多请求，直接提升利润率。
模型持续演进：针对今天模型优化的推理堆栈可能明天就需要大改。新架构、量化方法和硬件不断涌现，要求持续的全栈投入。
并发性极具挑战：同时服务数千用户意味着要处理截然不同的上下文长度、延迟要求和成本特征，且不能有性能下降。这既是一个调度问题，也是一个计算问题。

Together AI的推理方法论

Together AI的推理方案并非单一优化，而是一个由研究、系统工程和硬件专长构成的复合堆栈：

研究直通生产：Together研究团队贡献了多项广泛采用的推理效率提升技术，包括FlashAttention（现已迭代至第四版）、ThunderKittens和Aurora（开源自适应推测解码框架，可使LLM推理速度提升至1.25倍）。这些研究成果通常数周内即可部署到生产环境中。
自适应推测解码：标准推测解码使用小型草稿模型提出token，再由大模型并行验证，在代码补全等可预测任务中可实现1.5-3倍加速。ATLAS和Aurora系统更进一步：Aurora是基于强化学习的开源框架，能实时从推理日志中学习，适应流量模式变化，即使从零开始也能超越精心训练的静态推测器。
全栈硬件优化：基于最新的NVIDIA Blackwell硬件（GB200 NVL72、HGX B200），Together AI构建了跨72-GPU网格的自定义并行策略，实现NVFP4量化，并建立从权重到生产的流水线，使模型发布在数天内完成。当Cursor需要为数百万开发者提供生产级延迟时，Together AI构建了覆盖全栈的基础设施，满足严格的延迟SLA。
智能调度与批处理：高吞吐推理需要实时决策：哪些请求应组合批处理？如何根据上下文长度和延迟要求路由？何时在吞吐和响应速度间权衡？Together AI的推理引擎动态处理这一切，在保证AI原生应用体验的同时最大化每GPU小时的效率。

正确优化的经济影响

斯坦福2025 AI指数显示，GPT-3.5级推理成本在2022年底至2024年底间下降了超过280倍。然而总推理支出却在上升——成本下降后，团队将AI应用于更多用例、更多用户和更多代理步骤。每token成本的降低并未减轻基础设施挑战，反而扩大了覆盖范围。Together AI通过优化整个硬件和软件堆栈，持续为客户带来更优的盈利能力。

对AI原生公司而言，推理优化是一种复利优势：效率提升2倍，意味着在相同硬件上服务更多客户，同时打开此前不可行的用例。每一次效率提升都直接转化为利润率，并拓展未来的产品能力。

Together AI的定位正是：一个不仅是快速推理的平台，更是赋能AI原生团队在成本增长不超过收入增长的前提下实现成长的基座层。