驱动大规模高效推理的基础研究
随着AI从研究走向生产,AI原生团队面临的挑战从构建模型转向高效、可靠、大规模地运行模型。推理成本占生产AI系统总生命周期成本的80-90%。Together AI通过FlashAttention-4、ATLAS自适应推测解码等研究,结合全栈硬件优化和智能调度,实现高效推理,帮助客户改善单位经济效益。
随着人工智能从研究实验室进入生产环境,AI原生团队面临的核心挑战已从构建模型转向运行模型——高效、可靠且大规模地运行。据估计,推理(inference)占生产AI系统总生命周期成本的80-90%,因为它需要持续处理每一次用户查询、每一个代理步骤和每一次API调用。而训练是一次性投资,推理成本却随着新用户和用例的扩展而线性增长。
在NVIDIA GTC 2026大会上,NVIDIA CEO黄仁勋明确指出:“人们为信息付费,但更重要的是为工作付费。代理系统能够完成工作。”这一转变——从AI作为新奇事物到AI作为生产力工具——正重塑基础设施的优先级。对于Together AI而言,这并非新课题。其CTO Ce Zhang在GTC上深入分享了从运行最严苛生产推理工作负载中获得的经验。
推理为何如此困难?
生产环境中的推理远非“运行模型”那么简单,而是一个涉及多个相互竞争维度的优化问题:
- 延迟决定了产品体验的可能性。对于编码助手、实时客服或对话代理,低于500毫秒的响应时间不是可选项,而是产品能否让用户感觉流畅的硬性要求。代理工作流放大了这一挑战:五次200毫秒的模型调用会累积成整整一秒的延迟。
- 吞吐量直接影响单位经济模型。AI原生公司的成本结构与传统SaaS不同:传统软件公司的毛利率通常在80-90%,而AI公司普遍在50-60%,其中推理成本约占规模化公司收入的23%。更高效的推理意味着每GPU小时服务更多请求,直接提升利润率。
- 模型持续演进:针对今天模型优化的推理堆栈可能明天就需要大改。新架构、量化方法和硬件不断涌现,要求持续的全栈投入。
- 并发性极具挑战:同时服务数千用户意味着要处理截然不同的上下文长度、延迟要求和成本特征,且不能有性能下降。这既是一个调度问题,也是一个计算问题。
Together AI的推理方法论
Together AI的推理方案并非单一优化,而是一个由研究、系统工程和硬件专长构成的复合堆栈:
- 研究直通生产:Together研究团队贡献了多项广泛采用的推理效率提升技术,包括FlashAttention(现已迭代至第四版)、ThunderKittens和Aurora(开源自适应推测解码框架,可使LLM推理速度提升至1.25倍)。这些研究成果通常数周内即可部署到生产环境中。
- 自适应推测解码:标准推测解码使用小型草稿模型提出token,再由大模型并行验证,在代码补全等可预测任务中可实现1.5-3倍加速。ATLAS和Aurora系统更进一步:Aurora是基于强化学习的开源框架,能实时从推理日志中学习,适应流量模式变化,即使从零开始也能超越精心训练的静态推测器。
- 全栈硬件优化:基于最新的NVIDIA Blackwell硬件(GB200 NVL72、HGX B200),Together AI构建了跨72-GPU网格的自定义并行策略,实现NVFP4量化,并建立从权重到生产的流水线,使模型发布在数天内完成。当Cursor需要为数百万开发者提供生产级延迟时,Together AI构建了覆盖全栈的基础设施,满足严格的延迟SLA。
- 智能调度与批处理:高吞吐推理需要实时决策:哪些请求应组合批处理?如何根据上下文长度和延迟要求路由?何时在吞吐和响应速度间权衡?Together AI的推理引擎动态处理这一切,在保证AI原生应用体验的同时最大化每GPU小时的效率。
正确优化的经济影响
斯坦福2025 AI指数显示,GPT-3.5级推理成本在2022年底至2024年底间下降了超过280倍。然而总推理支出却在上升——成本下降后,团队将AI应用于更多用例、更多用户和更多代理步骤。每token成本的降低并未减轻基础设施挑战,反而扩大了覆盖范围。Together AI通过优化整个硬件和软件堆栈,持续为客户带来更优的盈利能力。
对AI原生公司而言,推理优化是一种复利优势:效率提升2倍,意味着在相同硬件上服务更多客户,同时打开此前不可行的用例。每一次效率提升都直接转化为利润率,并拓展未来的产品能力。
Together AI的定位正是:一个不仅是快速推理的平台,更是赋能AI原生团队在成本增长不超过收入增长的前提下实现成长的基座层。
准备好构建下一代的AI原生应用了吗?立即开始使用Together AI。