AI訓練與推理:有什麼區別?
AI訓練讓模型從數據中學習,而推理則是模型在生產中響應請求。本文詳細解釋了兩者在硬件、成本、優化等方面的關鍵差異,並介紹了模型從預訓練到服務的完整生命週期,以及衡量推理性能的四個關鍵指標。
AI訓練是模型從海量數據中學習的過程,通過調整權重使其能夠執行編寫代碼、回答問題或生成圖像等任務。而AI推理則是訓練完成後,模型對從未見過的新數據生成輸出的階段。
想象一下聘請一位學者為你講解莎士比亞。首先,他在大學裏花數年時間閲讀劇本、討論主題、辯論不同解讀,這就是訓練。一旦學成,你可以隨時提問並立即得到答案,這就是推理。
大多數團隊在推理上花費的時間遠超訓練:訓練只發生有限次數,而推理在每次有人使用模型時都會發生。本文詳細分析了兩者的區別。
推理的應用場景
如果你使用過AI產品,那麼你已經觸發了推理:
- 當GPT OSS回答你的問題時
- 當你讓Cursor編寫代碼時
- 當AI標記醫療對話中的異常時(例如Abridge)
- 當Notion AI總結會議或起草文檔時
在這些場景中,訓練好的模型根據新輸入生成輸出,此時模型權重凍結,沒有學習發生,這就是推理。
從訓練到推理:模型生命週期
模型在投入生產前會經歷多個階段:
- 預訓練:模型接觸海量數據,學習輸入和輸出之間的模式和關係。它執行前向傳播生成預測,計算損失,然後通過反向傳播更新權重,重複此過程直到掌握廣泛知識。
- 後訓練(微調):在預訓練模型基礎上,使用專門數據集調整權重,使其勝任特定任務。例如,Baseten想為客服機器人微調模型,使其瞭解產品術語並以公司口吻回答。
- 優化:通過量化和編譯將模型轉換為目標硬件所需的格式,使其能在生產中快速運行。
- 部署:分配GPU、設置API端點、配置自動縮放,使系統能根據流量增加或減少GPU。
- 服務:處理實時請求,滿足速度和可用性承諾。優化如批處理請求和緩存常見輸出可最大化吞吐量並最小化延遲。
衡量推理成功的關鍵指標
在生產中運行模型時,準確性不夠,用户關心響應速度,你關心繫統可擴展性。四個關鍵指標:
- 首次令牌時間(TTFT):用户發送請求後看到第一個響應的速度。高TTFT會讓應用感覺卡頓。
- 每輸出令牌時間(TPOT):每個後續令牌之間的間隔,影響流式輸出的流暢度。
- 吞吐量:系統每秒生成的令牌總數,衡量系統級容量。
- 延遲:單個請求從發起到完成的全部時間,是服務等級協議(SLA)的關鍵指標。
在Baseten上,每個請求都會記錄延遲。專用部署自動追蹤TPOT和TTFT,端到端延遲指標幫助團隊瞭解模型表現。
訓練與推理的差異
1. 計算與時間:訓練在數天到數週內有限次數運行,需要大量GPU集羣和計算資源。推理隨用户請求實時發生,計算需求隨流量變化。推理模型生成更多令牌,成本更高。
2. 硬件適配:訓練需要高互聯帶寬(如NVLink或InfiniBand)和大內存。推理硬件更靈活,小型嵌入模型可用L4,前沿推理模型可能需要B200。
3. 優化技術:推理有專門優化工具:推測解碼提升TPOT和延遲;連續批處理提升吞吐量;KV緩存管理提升TTFT。Baseten使用KV緩存感知路由將請求發送到已有相關緩存的GPU,TTFT降低約3倍。
Baseten在AI推理中的角色
Baseten是一個推理平台,公司可在其上部署自定義模型、訪問模型API和執行後訓練。它通過GPU批處理最大化硬件效率,並提供多雲管理。團隊可選擇按令牌付費的共享模型API或專用GPU集羣。Baseten的模型性能團隊應用自定義內核、KV緩存優化和推測解碼等技術,從每個GPU中榨取更多令牌。
在訓練期間,Baseten保存多個檢查點,允許從中斷處恢復訓練並比較模型質量。選擇最佳檢查點後,可部署為生產推理API端點。
常見問題
同一硬件能否同時用於訓練和推理? 可以,但推理通常可在較便宜的硬件上更經濟地運行。
在線推理與批量推理有何區別? 在線推理低延遲服務單個請求;批量推理優先吞吐量,處理大量輸入。選擇取決於是否需要即時結果。
為什麼推理在大規模下比訓練更昂貴? 訓練是一次性或週期性成本,而推理隨每次請求累積。對於每天數百萬請求的模型,推理賬單很快超過訓練成本。Baseten按使用付費,無前期承諾。