驅動大規模高效推理的基礎研究
隨着AI從研究走向生產,AI原生團隊面臨的挑戰從構建模型轉向高效、可靠、大規模地運行模型。推理成本佔生產AI系統總生命週期成本的80-90%。Together AI通過FlashAttention-4、ATLAS自適應推測解碼等研究,結合全棧硬件優化和智能調度,實現高效推理,幫助客户改善單位經濟效益。
隨着人工智能從研究實驗室進入生產環境,AI原生團隊面臨的核心挑戰已從構建模型轉向運行模型——高效、可靠且大規模地運行。據估計,推理(inference)佔生產AI系統總生命週期成本的80-90%,因為它需要持續處理每一次用户查詢、每一個代理步驟和每一次API調用。而訓練是一次性投資,推理成本卻隨着新用户和用例的擴展而線性增長。
在NVIDIA GTC 2026大會上,NVIDIA CEO黃仁勳明確指出:“人們為信息付費,但更重要的是為工作付費。代理系統能夠完成工作。”這一轉變——從AI作為新奇事物到AI作為生產力工具——正重塑基礎設施的優先級。對於Together AI而言,這並非新課題。其CTO Ce Zhang在GTC上深入分享了從運行最嚴苛生產推理工作負載中獲得的經驗。
推理為何如此困難?
生產環境中的推理遠非“運行模型”那麼簡單,而是一個涉及多個相互競爭維度的優化問題:
- 延遲決定了產品體驗的可能性。對於編碼助手、實時客服或對話代理,低於500毫秒的響應時間不是可選項,而是產品能否讓用户感覺流暢的硬性要求。代理工作流放大了這一挑戰:五次200毫秒的模型調用會累積成整整一秒的延遲。
- 吞吐量直接影響單位經濟模型。AI原生公司的成本結構與傳統SaaS不同:傳統軟件公司的毛利率通常在80-90%,而AI公司普遍在50-60%,其中推理成本約佔規模化公司收入的23%。更高效的推理意味着每GPU小時服務更多請求,直接提升利潤率。
- 模型持續演進:針對今天模型優化的推理堆棧可能明天就需要大改。新架構、量化方法和硬件不斷湧現,要求持續的全棧投入。
- 併發性極具挑戰:同時服務數千用户意味着要處理截然不同的上下文長度、延遲要求和成本特徵,且不能有性能下降。這既是一個調度問題,也是一個計算問題。
Together AI的推理方法論
Together AI的推理方案並非單一優化,而是一個由研究、系統工程和硬件專長構成的複合堆棧:
- 研究直通生產:Together研究團隊貢獻了多項廣泛採用的推理效率提升技術,包括FlashAttention(現已迭代至第四版)、ThunderKittens和Aurora(開源自適應推測解碼框架,可使LLM推理速度提升至1.25倍)。這些研究成果通常數週內即可部署到生產環境中。
- 自適應推測解碼:標準推測解碼使用小型草稿模型提出token,再由大模型並行驗證,在代碼補全等可預測任務中可實現1.5-3倍加速。ATLAS和Aurora系統更進一步:Aurora是基於強化學習的開源框架,能實時從推理日誌中學習,適應流量模式變化,即使從零開始也能超越精心訓練的靜態推測器。
- 全棧硬件優化:基於最新的NVIDIA Blackwell硬件(GB200 NVL72、HGX B200),Together AI構建了跨72-GPU網格的自定義並行策略,實現NVFP4量化,並建立從權重到生產的流水線,使模型發佈在數天內完成。當Cursor需要為數百萬開發者提供生產級延遲時,Together AI構建了覆蓋全棧的基礎設施,滿足嚴格的延遲SLA。
- 智能調度與批處理:高吞吐推理需要實時決策:哪些請求應組合批處理?如何根據上下文長度和延遲要求路由?何時在吞吐和響應速度間權衡?Together AI的推理引擎動態處理這一切,在保證AI原生應用體驗的同時最大化每GPU小時的效率。
正確優化的經濟影響
斯坦福2025 AI指數顯示,GPT-3.5級推理成本在2022年底至2024年底間下降了超過280倍。然而總推理支出卻在上升——成本下降後,團隊將AI應用於更多用例、更多用户和更多代理步驟。每token成本的降低並未減輕基礎設施挑戰,反而擴大了覆蓋範圍。Together AI通過優化整個硬件和軟件堆棧,持續為客户帶來更優的盈利能力。
對AI原生公司而言,推理優化是一種複利優勢:效率提升2倍,意味着在相同硬件上服務更多客户,同時打開此前不可行的用例。每一次效率提升都直接轉化為利潤率,並拓展未來的產品能力。
Together AI的定位正是:一個不僅是快速推理的平台,更是賦能AI原生團隊在成本增長不超過收入增長的前提下實現成長的基座層。
準備好構建下一代的AI原生應用了嗎?立即開始使用Together AI。