AI News HubLIVE
站内改写

開源AI模型入門指南

本文介紹了開源AI模型的基本概念、工作原理及使用場景。開源模型通常指開放權重的模型,用户可以對其進行微調和部署,相比閉源模型具有成本低、可定製性強等優勢。文章還討論了開源與閉源模型的比較、適用時機以及未來發展趨勢。

文章情報

工程師進階

要點

  • 開源模型主要是開放權重的模型,允許用户微調和部署。
  • 相比閉源模型,開源模型平均成本低87%,並提供更好的控制性和定製化能力。
  • 建議先使用閉源模型驗證任務,在規模擴大或對延遲有嚴格要求時考慮開源模型。
  • 開源模型通常落後閉源模型3-6個月,但通過微調可在特定任務上超越閉源模型。

為甚麼重要

這條新聞值得關注,因為開源模型主要是開放權重的模型,允許用户微調和部署。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

開源AI模型近年來備受關注,尤其是DeepSeek R1等模型的發佈,顯著縮小了開源與閉源模型之間的性能差距。本文作為五部分系列文章的開篇,旨在為讀者提供開源模型的全面介紹。

什麼是開源模型?

通常所説的“開源模型”主要指開放權重(open-weight)模型。與傳統開源軟件完全公開源代碼不同,開放權重模型僅公開模型權重,而不一定包含訓練數據或代碼。儘管如此,這類模型仍被廣泛稱為開源模型。

模型權重是影響模型輸出的參數。例如,通過微調權重,可以讓模型以特定風格(如海盜口吻)回答問題。開源模型如DeepSeek、GPT-OSS和GLM等,其權重公開可獲取,多數以MIT許可證發佈,但部分可能限制商業使用。

開源模型 vs 閉源模型

閉源模型(如GPT-5、Claude Sonnet)的權重不公開,用户僅能通過API訪問。而開源模型允許任何人託管和運行模型,但需要強大的GPU硬件。推理提供商(inference providers)將這些模型部署在自身基礎設施上,並通過API向用户提供服務,按GPU時間或令牌收費。

對開發者而言,兩者使用體驗相似,都通過API調用。主要區別在於開源模型提供了更多選擇:用户可以根據需求選擇不同的提供商、優化目標,甚至自行運行模型。

開源模型的主要優勢

1. 專業化

閉源模型只能通過提示詞(prompt)進行調整,而開源模型允許用户微調權重,使其在特定任務上表現更優。微調後的專用模型在特定場景下甚至可能超越通用閉源模型。

2. 控制性

開源模型允許用户在延遲和吞吐量之間進行精細權衡。Baseten CTO Amir Haghighat指出,閉源模型API為服務大量用户而優化,往往犧牲了延遲,而開源模型在需要低延遲的場景(如AI語音通話)中更具優勢。

3. 成本

開源模型平均成本比閉源模型低87%,原因包括按GPU使用計費而非按令牌、推理提供商之間的競爭以及模型優化研究的進步。

何時使用開源模型?

Baseten訓練主管Charlie O'Neill建議,大多數開發者應首先使用最佳閉源模型來驗證任務可行性。當使用量增長導致令牌成本壓力增大,或對延遲和吞吐量有嚴格要求時,再考慮轉向開源模型。

開源模型能否趕超閉源模型?

開源模型通常落後閉源模型3-6個月。但重點不在於全面趕超,而在於在特定任務上是否足夠優秀。通過微調,開源模型在專用任務上可能超越閉源模型。正如《Inference Engineering》所指出的,關鍵問題是“開源模型是否足以勝任具體工作”,而不是“它們是否與最強閉源模型相當”。

更深層次的問題

開源與閉源之爭背後是更根本的問題:隨着AI能力增強,誰應該擁有訪問權?開源模型將AI開發權力分散到更多羣體,促進創新和普及,但也帶來濫用風險。此外,算力分佈不均、地緣政治影響等問題也值得關注。

在後續系列文章中,我們將深入探討開源模型的工作原理、使用技巧及其對軟件工程師的影響。