AI News HubLIVE
站內改寫3 分鐘閱讀

驅動大規模高效推理的基礎研究

隨著AI從研究走向生產,AI原生團隊面臨的挑戰從構建模型轉向高效、可靠、大規模地執行模型。推理成本佔生產AI系統總生命週期成本的80-90%。Together AI透過FlashAttention-4、ATLAS自適應推測解碼等研究,結合全棧硬體最佳化和智慧排程,實現高效推理,幫助客戶改善單位經濟效益。

隨著人工智慧從研究實驗室進入生產環境,AI原生團隊面臨的核心挑戰已從構建模型轉向執行模型——高效、可靠且大規模地執行。據估計,推理(inference)佔生產AI系統總生命週期成本的80-90%,因為它需要持續處理每一次使用者查詢、每一個代理步驟和每一次API呼叫。而訓練是一次性投資,推理成本卻隨著新使用者和用例的擴充套件而線性增長。

在NVIDIA GTC 2026大會上,NVIDIA CEO黃仁勳明確指出:“人們為資訊付費,但更重要的是為工作付費。代理系統能夠完成工作。”這一轉變——從AI作為新奇事物到AI作為生產力工具——正重塑基礎設施的優先順序。對於Together AI而言,這並非新課題。其CTO Ce Zhang在GTC上深入分享了從執行最嚴苛生產推理工作負載中獲得的經驗。

推理為何如此困難?

生產環境中的推理遠非“執行模型”那麼簡單,而是一個涉及多個相互競爭維度的最佳化問題:

  • 延遲決定了產品體驗的可能性。對於編碼助手、即時客服或對話代理,低於500毫秒的響應時間不是可選項,而是產品能否讓使用者感覺流暢的硬性要求。代理工作流放大了這一挑戰:五次200毫秒的模型呼叫會累積成整整一秒的延遲。
  • 吞吐量直接影響單位經濟模型。AI原生公司的成本結構與傳統SaaS不同:傳統軟體公司的毛利率通常在80-90%,而AI公司普遍在50-60%,其中推理成本約佔規模化公司收入的23%。更高效的推理意味著每GPU小時服務更多請求,直接提升利潤率。
  • 模型持續演進:針對今天模型最佳化的推理堆疊可能明天就需要大改。新架構、量化方法和硬體不斷湧現,要求持續的全棧投入。
  • 併發性極具挑戰:同時服務數千使用者意味著要處理截然不同的上下文長度、延遲要求和成本特徵,且不能有效能下降。這既是一個排程問題,也是一個計算問題。

Together AI的推理方法論

Together AI的推理方案並非單一最佳化,而是一個由研究、系統工程和硬體專長構成的複合堆疊:

  • 研究直通生產:Together研究團隊貢獻了多項廣泛採用的推理效率提升技術,包括FlashAttention(現已迭代至第四版)、ThunderKittens和Aurora(開源自適應推測解碼框架,可使LLM推理速度提升至1.25倍)。這些研究成果通常數週內即可部署到生產環境中。
  • 自適應推測解碼:標準推測解碼使用小型草稿模型提出token,再由大模型並行驗證,在程式碼補全等可預測任務中可實現1.5-3倍加速。ATLAS和Aurora系統更進一步:Aurora是基於強化學習的開源框架,能即時從推理日誌中學習,適應流量模式變化,即使從零開始也能超越精心訓練的靜態推測器。
  • 全棧硬體最佳化:基於最新的NVIDIA Blackwell硬體(GB200 NVL72、HGX B200),Together AI構建了跨72-GPU網格的自定義並行策略,實現NVFP4量化,並建立從權重到生產的流水線,使模型釋出在數天內完成。當Cursor需要為數百萬開發者提供生產級延遲時,Together AI構建了覆蓋全棧的基礎設施,滿足嚴格的延遲SLA。
  • 智慧排程與批處理:高吞吐推理需要即時決策:哪些請求應組合批處理?如何根據上下文長度和延遲要求路由?何時在吞吐和響應速度間權衡?Together AI的推理引擎動態處理這一切,在保證AI原生應用體驗的同時最大化每GPU小時的效率。

正確最佳化的經濟影響

斯坦福2025 AI指數顯示,GPT-3.5級推理成本在2022年底至2024年底間下降了超過280倍。然而總推理支出卻在上升——成本下降後,團隊將AI應用於更多用例、更多使用者和更多代理步驟。每token成本的降低並未減輕基礎設施挑戰,反而擴大了覆蓋範圍。Together AI透過最佳化整個硬體和軟體堆疊,持續為客戶帶來更優的盈利能力。

對AI原生公司而言,推理最佳化是一種複利優勢:效率提升2倍,意味著在相同硬體上服務更多客戶,同時開啟此前不可行的用例。每一次效率提升都直接轉化為利潤率,並拓展未來的產品能力。

Together AI的定位正是:一個不僅是快速推理的平臺,更是賦能AI原生團隊在成本增長不超過收入增長的前提下實現成長的基座層。

準備好構建下一代的AI原生應用了嗎?立即開始使用Together AI。