AI News HubLIVE
站内改写

開源AI模型入門指南

本文介紹了開源AI模型的基本概念、工作原理及使用場景。開源模型通常指開放權重的模型,使用者可以對其進行微調和部署,相比閉源模型具有成本低、可定製性強等優勢。文章還討論了開源與閉源模型的比較、適用時機以及未來發展趨勢。

文章情報

工程師進階

要點

  • 開源模型主要是開放權重的模型,允許使用者微調和部署。
  • 相比閉源模型,開源模型平均成本低87%,並提供更好的控制性和定製化能力。
  • 建議先使用閉源模型驗證任務,在規模擴大或對延遲有嚴格要求時考慮開源模型。
  • 開源模型通常落後閉源模型3-6個月,但透過微調可在特定任務上超越閉源模型。

為什麼重要

這條新聞值得關注,因為開源模型主要是開放權重的模型,允許使用者微調和部署。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

開源AI模型近年來備受關注,尤其是DeepSeek R1等模型的釋出,顯著縮小了開源與閉源模型之間的效能差距。本文作為五部分系列文章的開篇,旨在為讀者提供開源模型的全面介紹。

什麼是開源模型?

通常所說的“開源模型”主要指開放權重(open-weight)模型。與傳統開源軟體完全公開原始碼不同,開放權重模型僅公開模型權重,而不一定包含訓練資料或程式碼。儘管如此,這類模型仍被廣泛稱為開源模型。

模型權重是影響模型輸出的引數。例如,透過微調權重,可以讓模型以特定風格(如海盜口吻)回答問題。開源模型如DeepSeek、GPT-OSS和GLM等,其權重公開可獲取,多數以MIT許可證釋出,但部分可能限制商業使用。

開源模型 vs 閉源模型

閉源模型(如GPT-5、Claude Sonnet)的權重不公開,使用者僅能透過API訪問。而開源模型允許任何人託管和執行模型,但需要強大的GPU硬體。推理提供商(inference providers)將這些模型部署在自身基礎設施上,並透過API向使用者提供服務,按GPU時間或令牌收費。

對開發者而言,兩者使用體驗相似,都透過API呼叫。主要區別在於開源模型提供了更多選擇:使用者可以根據需求選擇不同的提供商、最佳化目標,甚至自行執行模型。

開源模型的主要優勢

1. 專業化

閉源模型只能透過提示詞(prompt)進行調整,而開源模型允許使用者微調權重,使其在特定任務上表現更優。微調後的專用模型在特定場景下甚至可能超越通用閉源模型。

2. 控制性

開源模型允許使用者在延遲和吞吐量之間進行精細權衡。Baseten CTO Amir Haghighat指出,閉源模型API為服務大量使用者而最佳化,往往犧牲了延遲,而開源模型在需要低延遲的場景(如AI語音通話)中更具優勢。

3. 成本

開源模型平均成本比閉源模型低87%,原因包括按GPU使用計費而非按令牌、推理提供商之間的競爭以及模型最佳化研究的進步。

何時使用開源模型?

Baseten訓練主管Charlie O'Neill建議,大多數開發者應首先使用最佳閉源模型來驗證任務可行性。當使用量增長導致令牌成本壓力增大,或對延遲和吞吐量有嚴格要求時,再考慮轉向開源模型。

開源模型能否趕超閉源模型?

開源模型通常落後閉源模型3-6個月。但重點不在於全面趕超,而在於在特定任務上是否足夠優秀。透過微調,開源模型在專用任務上可能超越閉源模型。正如《Inference Engineering》所指出的,關鍵問題是“開源模型是否足以勝任具體工作”,而不是“它們是否與最強閉源模型相當”。

更深層次的問題

開源與閉源之爭背後是更根本的問題:隨著AI能力增強,誰應該擁有訪問權?開源模型將AI開發權力分散到更多群體,促進創新和普及,但也帶來濫用風險。此外,算力分佈不均、地緣政治影響等問題也值得關注。

在後續系列文章中,我們將深入探討開源模型的工作原理、使用技巧及其對軟體工程師的影響。