AI News HubLIVE
站内改写

开源AI模型入门指南

本文介绍了开源AI模型的基本概念、工作原理及使用场景。开源模型通常指开放权重的模型,用户可以对其进行微调和部署,相比闭源模型具有成本低、可定制性强等优势。文章还讨论了开源与闭源模型的比较、适用时机以及未来发展趋势。

文章情报

工程师进阶

要点

  • 开源模型主要是开放权重的模型,允许用户微调和部署。
  • 相比闭源模型,开源模型平均成本低87%,并提供更好的控制性和定制化能力。
  • 建议先使用闭源模型验证任务,在规模扩大或对延迟有严格要求时考虑开源模型。
  • 开源模型通常落后闭源模型3-6个月,但通过微调可在特定任务上超越闭源模型。

为什么重要

这条新闻值得关注,因为开源模型主要是开放权重的模型,允许用户微调和部署。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

开源AI模型近年来备受关注,尤其是DeepSeek R1等模型的发布,显著缩小了开源与闭源模型之间的性能差距。本文作为五部分系列文章的开篇,旨在为读者提供开源模型的全面介绍。

什么是开源模型?

通常所说的“开源模型”主要指开放权重(open-weight)模型。与传统开源软件完全公开源代码不同,开放权重模型仅公开模型权重,而不一定包含训练数据或代码。尽管如此,这类模型仍被广泛称为开源模型。

模型权重是影响模型输出的参数。例如,通过微调权重,可以让模型以特定风格(如海盗口吻)回答问题。开源模型如DeepSeek、GPT-OSS和GLM等,其权重公开可获取,多数以MIT许可证发布,但部分可能限制商业使用。

开源模型 vs 闭源模型

闭源模型(如GPT-5、Claude Sonnet)的权重不公开,用户仅能通过API访问。而开源模型允许任何人托管和运行模型,但需要强大的GPU硬件。推理提供商(inference providers)将这些模型部署在自身基础设施上,并通过API向用户提供服务,按GPU时间或令牌收费。

对开发者而言,两者使用体验相似,都通过API调用。主要区别在于开源模型提供了更多选择:用户可以根据需求选择不同的提供商、优化目标,甚至自行运行模型。

开源模型的主要优势

1. 专业化

闭源模型只能通过提示词(prompt)进行调整,而开源模型允许用户微调权重,使其在特定任务上表现更优。微调后的专用模型在特定场景下甚至可能超越通用闭源模型。

2. 控制性

开源模型允许用户在延迟和吞吐量之间进行精细权衡。Baseten CTO Amir Haghighat指出,闭源模型API为服务大量用户而优化,往往牺牲了延迟,而开源模型在需要低延迟的场景(如AI语音通话)中更具优势。

3. 成本

开源模型平均成本比闭源模型低87%,原因包括按GPU使用计费而非按令牌、推理提供商之间的竞争以及模型优化研究的进步。

何时使用开源模型?

Baseten训练主管Charlie O'Neill建议,大多数开发者应首先使用最佳闭源模型来验证任务可行性。当使用量增长导致令牌成本压力增大,或对延迟和吞吐量有严格要求时,再考虑转向开源模型。

开源模型能否赶超闭源模型?

开源模型通常落后闭源模型3-6个月。但重点不在于全面赶超,而在于在特定任务上是否足够优秀。通过微调,开源模型在专用任务上可能超越闭源模型。正如《Inference Engineering》所指出的,关键问题是“开源模型是否足以胜任具体工作”,而不是“它们是否与最强闭源模型相当”。

更深层次的问题

开源与闭源之争背后是更根本的问题:随着AI能力增强,谁应该拥有访问权?开源模型将AI开发权力分散到更多群体,促进创新和普及,但也带来滥用风险。此外,算力分布不均、地缘政治影响等问题也值得关注。

在后续系列文章中,我们将深入探讨开源模型的工作原理、使用技巧及其对软件工程师的影响。