AI訓練與推理:有什麼區別?
AI訓練讓模型從資料中學習,而推理則是模型在生產中響應請求。本文詳細解釋了兩者在硬體、成本、最佳化等方面的關鍵差異,並介紹了模型從預訓練到服務的完整生命週期,以及衡量推理效能的四個關鍵指標。
AI訓練是模型從海量資料中學習的過程,透過調整權重使其能夠執行編寫程式碼、回答問題或生成影像等任務。而AI推理則是訓練完成後,模型對從未見過的新資料生成輸出的階段。
想象一下聘請一位學者為你講解莎士比亞。首先,他在大學裡花數年時間閱讀劇本、討論主題、辯論不同解讀,這就是訓練。一旦學成,你可以隨時提問並立即得到答案,這就是推理。
大多數團隊在推理上花費的時間遠超訓練:訓練只發生有限次數,而推理在每次有人使用模型時都會發生。本文詳細分析了兩者的區別。
推理的應用場景
如果你使用過AI產品,那麼你已經觸發了推理:
- 當GPT OSS回答你的問題時
- 當你讓Cursor編寫程式碼時
- 當AI標記醫療對話中的異常時(例如Abridge)
- 當Notion AI總結會議或起草文件時
在這些場景中,訓練好的模型根據新輸入生成輸出,此時模型權重凍結,沒有學習發生,這就是推理。
從訓練到推理:模型生命週期
模型在投入生產前會經歷多個階段:
- 預訓練:模型接觸海量資料,學習輸入和輸出之間的模式和關係。它執行前向傳播生成預測,計算損失,然後透過反向傳播更新權重,重複此過程直到掌握廣泛知識。
- 後訓練(微調):在預訓練模型基礎上,使用專門資料集調整權重,使其勝任特定任務。例如,Baseten想為客服機器人微調模型,使其瞭解產品術語並以公司口吻回答。
- 最佳化:透過量化和編譯將模型轉換為目標硬體所需的格式,使其能在生產中快速執行。
- 部署:分配GPU、設定API端點、配置自動縮放,使系統能根據流量增加或減少GPU。
- 服務:處理即時請求,滿足速度和可用性承諾。最佳化如批處理請求和快取常見輸出可最大化吞吐量並最小化延遲。
衡量推理成功的關鍵指標
在生產中執行模型時,準確性不夠,使用者關心響應速度,你關心繫統可擴充套件性。四個關鍵指標:
- 首次令牌時間(TTFT):使用者傳送請求後看到第一個響應的速度。高TTFT會讓應用感覺卡頓。
- 每輸出令牌時間(TPOT):每個後續令牌之間的間隔,影響流式輸出的流暢度。
- 吞吐量:系統每秒生成的令牌總數,衡量系統級容量。
- 延遲:單個請求從發起到完成的全部時間,是服務等級協議(SLA)的關鍵指標。
在Baseten上,每個請求都會記錄延遲。專用部署自動追蹤TPOT和TTFT,端到端延遲指標幫助團隊瞭解模型表現。
訓練與推理的差異
1. 計算與時間:訓練在數天到數週內有限次數執行,需要大量GPU叢集和計算資源。推理隨使用者請求即時發生,計算需求隨流量變化。推理模型生成更多令牌,成本更高。
2. 硬體適配:訓練需要高互聯頻寬(如NVLink或InfiniBand)和大記憶體。推理硬體更靈活,小型嵌入模型可用L4,前沿推理模型可能需要B200。
3. 最佳化技術:推理有專門最佳化工具:推測解碼提升TPOT和延遲;連續批處理提升吞吐量;KV快取管理提升TTFT。Baseten使用KV快取感知路由將請求傳送到已有相關快取的GPU,TTFT降低約3倍。
Baseten在AI推理中的角色
Baseten是一個推理平臺,公司可在其上部署自定義模型、訪問模型API和執行後訓練。它透過GPU批處理最大化硬體效率,並提供多雲管理。團隊可選擇按令牌付費的共享模型API或專用GPU叢集。Baseten的模型效能團隊應用自定義核心、KV快取最佳化和推測解碼等技術,從每個GPU中榨取更多令牌。
在訓練期間,Baseten儲存多個檢查點,允許從中斷處恢復訓練並比較模型質量。選擇最佳檢查點後,可部署為生產推理API端點。
常見問題
同一硬體能否同時用於訓練和推理? 可以,但推理通常可在較便宜的硬體上更經濟地執行。
線上推理與批次推理有何區別? 線上推理低延遲服務單個請求;批次推理優先吞吐量,處理大量輸入。選擇取決於是否需要即時結果。
為什麼推理在大規模下比訓練更昂貴? 訓練是一次性或週期性成本,而推理隨每次請求累積。對於每天數百萬請求的模型,推理賬單很快超過訓練成本。Baseten按使用付費,無前期承諾。