2026-05-04 08:00 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

驅動大規模高效推理的基礎研究

隨着AI從研究走向生產，AI原生團隊面臨的挑戰從構建模型轉向高效、可靠、大規模地運行模型。推理成本佔生產AI系統總生命週期成本的80-90%。Together AI通過FlashAttention-4、ATLAS自適應推測解碼等研究，結合全棧硬件優化和智能調度，實現高效推理，幫助客户改善單位經濟效益。

來源Together AI Blog

隨着人工智能從研究實驗室進入生產環境，AI原生團隊面臨的核心挑戰已從構建模型轉向運行模型——高效、可靠且大規模地運行。據估計，推理（inference）佔生產AI系統總生命週期成本的80-90%，因為它需要持續處理每一次用户查詢、每一個代理步驟和每一次API調用。而訓練是一次性投資，推理成本卻隨着新用户和用例的擴展而線性增長。

在NVIDIA GTC 2026大會上，NVIDIA CEO黃仁勳明確指出：“人們為信息付費，但更重要的是為工作付費。代理系統能夠完成工作。”這一轉變——從AI作為新奇事物到AI作為生產力工具——正重塑基礎設施的優先級。對於Together AI而言，這並非新課題。其CTO Ce Zhang在GTC上深入分享了從運行最嚴苛生產推理工作負載中獲得的經驗。

推理為何如此困難？

生產環境中的推理遠非“運行模型”那麼簡單，而是一個涉及多個相互競爭維度的優化問題：

延遲決定了產品體驗的可能性。對於編碼助手、實時客服或對話代理，低於500毫秒的響應時間不是可選項，而是產品能否讓用户感覺流暢的硬性要求。代理工作流放大了這一挑戰：五次200毫秒的模型調用會累積成整整一秒的延遲。
吞吐量直接影響單位經濟模型。AI原生公司的成本結構與傳統SaaS不同：傳統軟件公司的毛利率通常在80-90%，而AI公司普遍在50-60%，其中推理成本約佔規模化公司收入的23%。更高效的推理意味着每GPU小時服務更多請求，直接提升利潤率。
模型持續演進：針對今天模型優化的推理堆棧可能明天就需要大改。新架構、量化方法和硬件不斷湧現，要求持續的全棧投入。
併發性極具挑戰：同時服務數千用户意味着要處理截然不同的上下文長度、延遲要求和成本特徵，且不能有性能下降。這既是一個調度問題，也是一個計算問題。

Together AI的推理方法論

Together AI的推理方案並非單一優化，而是一個由研究、系統工程和硬件專長構成的複合堆棧：

研究直通生產：Together研究團隊貢獻了多項廣泛採用的推理效率提升技術，包括FlashAttention（現已迭代至第四版）、ThunderKittens和Aurora（開源自適應推測解碼框架，可使LLM推理速度提升至1.25倍）。這些研究成果通常數週內即可部署到生產環境中。
自適應推測解碼：標準推測解碼使用小型草稿模型提出token，再由大模型並行驗證，在代碼補全等可預測任務中可實現1.5-3倍加速。ATLAS和Aurora系統更進一步：Aurora是基於強化學習的開源框架，能實時從推理日誌中學習，適應流量模式變化，即使從零開始也能超越精心訓練的靜態推測器。
全棧硬件優化：基於最新的NVIDIA Blackwell硬件（GB200 NVL72、HGX B200），Together AI構建了跨72-GPU網格的自定義並行策略，實現NVFP4量化，並建立從權重到生產的流水線，使模型發佈在數天內完成。當Cursor需要為數百萬開發者提供生產級延遲時，Together AI構建了覆蓋全棧的基礎設施，滿足嚴格的延遲SLA。
智能調度與批處理：高吞吐推理需要實時決策：哪些請求應組合批處理？如何根據上下文長度和延遲要求路由？何時在吞吐和響應速度間權衡？Together AI的推理引擎動態處理這一切，在保證AI原生應用體驗的同時最大化每GPU小時的效率。

正確優化的經濟影響

斯坦福2025 AI指數顯示，GPT-3.5級推理成本在2022年底至2024年底間下降了超過280倍。然而總推理支出卻在上升——成本下降後，團隊將AI應用於更多用例、更多用户和更多代理步驟。每token成本的降低並未減輕基礎設施挑戰，反而擴大了覆蓋範圍。Together AI通過優化整個硬件和軟件堆棧，持續為客户帶來更優的盈利能力。

對AI原生公司而言，推理優化是一種複利優勢：效率提升2倍，意味着在相同硬件上服務更多客户，同時打開此前不可行的用例。每一次效率提升都直接轉化為利潤率，並拓展未來的產品能力。

Together AI的定位正是：一個不僅是快速推理的平台，更是賦能AI原生團隊在成本增長不超過收入增長的前提下實現成長的基座層。

準備好構建下一代的AI原生應用了嗎？立即開始使用Together AI。