Ahmad Osman谈本地AI为何正在迎头赶上
在AI工程师世界博览会(AIEWF)的两场爆满研讨会之后,Ahmad Osman论证了本地AI——从笔记本电脑、手机到企业级基础设施——正在快速追赶云端AI。开源模型与闭源前沿模型之间的差距持续缩小,本地AI生态系统正从模型本身扩展到完整的工具和基础设施层。
Ahmad Osman在今年的AI工程师世界博览会(AIEWF)上主持了两场爆满的研讨会,主题是本地AI——即在个人电脑、工作站或专用硬件上运行人工智能模型。作为Osmantic的创始人,他长期以来一直倡导本地AI,而这一主题如今已成为AIEWF的主要议题之一。
AIEWF上浮现的一个关键主题是,开源大语言模型正逐渐成为大型专有前沿模型的可信替代品。由于大多数本地AI系统依赖开源模型,这一转变强化了Osman的主张。正如他对Latent Space所说,“开源模型与闭源前沿模型之间的差距正在不断缩小。”
在名为“开源AI必须赢”的网站上,Osman更明确地阐述了这一论点,他写道:“无需请求许可就能研究、构建、修复、部署、审计、改编、教学、保存和运行智能系统,这具有存在意义上的重要性。”
在AIEWF上,Osman举办了两场关于本地LLM和工作站代理的研讨会。这些研讨展示了该领域的发展速度——从在手机和笔记本电脑上运行的模型,到专用的GPU工作站和企业级基础设施。与会者不仅限于硬件爱好者,还包括正在考虑购买第一台AI电脑的学生,以及关注模型路由、私有基础设施和数据控制的企业高管。
以下是Latent Space对Ahmad Osman的采访,他解释了为何本地AI正吸引更多关注,模型和硬件格局发生了怎样的变化,以及他为何预计更多开发者和企业将开始把本地AI视为重要基础设施。
让本地AI变得可触可感
Latent Space: 能总结一下研讨会的内容以及与会者寻求什么吗?
Ahmad Osman: 这是一个两部分组成的研讨会,需求远超我们的空间容量。有些人不得不被拒之门外。
我带来了一个我们准备好的网站来演示本地AI。这基本上是一个硬件竞技场,人们可以比较DGX Spark、AMD Strix Halo机器和其他设备。你可以让它们相互对抗,或与前沿云模型比较,亲眼看到性能、输出质量、速度和延迟。
主要想法是让本地AI感觉真实。人们对此的认知仍停留在2022年,当时模型的能力弱得多。但自那以后一切都有了显著改善。
与前沿模型之间仍有差距——大约4到8个月——但本地和开源模型正在迎头赶上。我们希望人们能直接与这些系统互动,而不只是听到理论论证。
演示背后的软件是开源的,可在GitHub上获取。第二场研讨会则进一步展示了如何设置并运行完整系统。
模型只是系统的一部分
Latent Space: 当人们认为本地AI只是在自己的机器上运行模型时,他们忽略了什么?
Osman: 关于ChatGPT或Claude Code这样的产品存在一个很大的误解。它们带有围绕模型和代理的完整基础设施。这不仅仅是单一事物。
我的一位朋友买了一块RTX 5090来运行Qwen 3.5。他将Claude Code连接到这个模型,并让它改变GPU的RGB灯光,但失败了。然后他使用了托管版的Claude Code服务,成功了。
我问他是否给了本地模型互联网搜索权限。他没有。模型的训练数据有一个截止日期,而他需要的软件和文档已经更改了。
一旦我们让本地系统访问搜索端点,它就能完成任务。
这就是关键:当你使用托管代理时,你不仅在使用一个模型。你还在使用它周围的搜索、工具、基础设施和其他服务。
通过我们的开源部署系统,我们试图提供完整的体验——从聊天界面、文档摄取,到代理、背带和搜索工具。这个端到端层在本地AI生态系统中一直缺失。
兴趣涵盖学生、爱好者和企业
Latent Space: 哪些人参加了研讨会?他们主要是硬件爱好者,还是试图构建隐私应用的人?
Osman: 观众非常广泛。
在第二场研讨会结束时,一名学生问我她上大学前应该买什么硬件。英特尔的一位高管问我们如何能让软件以特定方式在Windows上运行,以改善用户体验。
有些人是爱好者。其他人则提出了非常注重企业的问题。共同点是他们都对运行自己可以控制的东西感兴趣,无论是在MacBook上运行模型、在家使用GPU,还是专用的高端企业硬件集群。
人们询问了企业模型路由、数据收集、追踪、代理沙盒和延迟等问题。还有人问我家里有多少块GPU。答案是22块RTX 3090。
兴趣的广度让我惊讶。这是我第一次主持AI研讨会,幸运的是我连续办了两场。
你可能不需要购买GPU
Latent Space: 开发者需要去买GPU来实验本地AI吗?
Osman: 这取决于你想使用的模型大小。
你可以在MacBook上运行一个四比特的Qwen模型。在另一个极端,一个非常大的前沿级开源模型可能需要多块RTX Pro 6000 GPU。
但更广泛的趋势是模型正变得高效得多。在现代手机上,你现在可以运行一个性能超过几年前人们用在云端的系统,且不会耗尽设备内存。
这显示了在相对短时间内模型效率取得了多大进步。
模型和硬件共同进步
Latent Space: 进步主要来自更好的软件和模型,还是硬件?
Osman: 模型已经有了显著改善。
架构变得更高效,许多小改进累积起来。一旦前沿实验室证明某种能力是可能的,开源生态系统就能逆向工程并找到更高效的重现方式。
我们看到拥有数百亿参数的模型能够提供以前需要更大系统才能实现的性能。其中一些模型可以在2020年发布的RTX 3090上运行。两年前,那样的硬件上达到那样的能力是不现实的。
这仍然是一个非常新的领域,我们不知道最终状态会是什么。但我们知道系统将继续改进。
混合AI与主权AI的兴起
Latent Space: 你预计会有更多应用结合本地和云端AI吗?
Osman: 是的。边缘模型将变得更受欢迎,这不仅仅关乎消费者。
企业越来越意识到,他们依赖的模型可能不会始终以相同形式对其可用。提供商可以改变质量、定价、访问权限或政策。
这激励着企业转向专用硬件和安全计算。这不一定非得在本地。公司可以使用他们控制的专用托管硬件。
好处是模型质量不会意外变化,访问不会突然被移除,公司保留对其知识产权、数据、隐私和合规义务的控制。
开源模型也在继续缩小与前沿专有系统的差距。我们已经看到Llama、Mistral、Qwen、DeepSeek、GLM和Kimi模型的快速演进。每一代都在缩小差距。
专业模型可能是真正的机会
Latent Space: 你认为这对企业意味着什么?
Osman: 我长期以来一直认为,对于许多商业用例来说,较小、专业的模型是未来。
企业可能从一个通用模型开始,收集员工使用时的追踪、消息和反馈。随着时间的推移,这些数据可以支持针对公司特定工作定制的更专业模型。
这可以提高性能、降低成本,并让系统对企业更有用。
我还认为开源模型公司可能会越来越多地通过微调、强化学习或专业商业部署的许可来实现盈利。
随着更多公司不再完全依赖云端API并确保自己的计算能力,这些实验室将有动力继续发布强大的开源模型,同时在企业将其改编用于专有用例时获取价值。
更广泛的方向是走向更大的主权:公司和个人控制他们的模型、计算和数据,同时仍受益于开源生态系统的快速进步。