从900个最受欢迎的开源AI工具中学到的
Chip Huyen 分析了近900个流行的开源AI项目,发现2023年应用和AI工程层爆发式增长,基础设施层变化较小。中国开源生态与西方分化明显,涌现出许多针对中文的模型和工具。
大约四年前,Chip Huyen曾对开源机器学习生态系统进行过一次分析。如今,随着基础模型栈的快速发展,她决定重新审视这一主题,这次专门聚焦于围绕基础模型的开源工具。
她通过搜索GitHub上的“gpt”、“llm”和“generative ai”关键词,考虑到AI领域信息量巨大,将范围限定在至少获得500颗星的项目。最终,她发现了896个仓库,其中51个是教程或列表,剩下845个为软件工具。这个过程耗时且费力,但让她更清晰地了解了社区的协作程度以及中国开源生态与西方的差异。
Huyen将AI堆栈划分为三个层次:基础设施、模型开发和应用开发。基础设施层包括服务、计算管理、向量搜索等工具;模型开发层涉及建模、训练、推理优化和评估等;应用开发层则包括提示工程、RAG、AI界面等。此外,她还列出了模型仓库和基于现有模型构建的应用作为额外类别。
从时间维度看,2023年Stable Diffusion和ChatGPT等突破性技术出现后,各类工具数量激增,但到9月增长开始放缓。可能的原因包括:新仓库需要时间积累星星、容易实现的想法已被开发、以及人们对生成式AI热情有所降温。2023年增长最快的层次是应用和应用开发层,而基础设施层增长相对缓慢。
在应用类别中,最受欢迎的是编码、机器人和信息聚合工具。AI工程层则在2023年成为主角,涵盖提示工程、AI界面、代理和AI工程框架等多个子类别。Huyen特别对AI界面感到兴奋,包括网页/桌面应用、浏览器扩展、聊天机器人以及插件等形式。
模型开发层在ChatGPT之前主导了AI堆栈,2023年的增长主要来自推理优化、评估和参数高效微调。推理优化技术从2020年的16位量化发展到现在的2位甚至更低。评估方法也日益丰富,如比较评估和AI作为裁判。
基础设施层变化不大,可能因为这类产品通常不开源。向量数据库是这一层的新兴类别,但不少人认为其必要性存疑,因为向量搜索早已存在,现有数据库如DataStax和Redis正在整合该功能。
开源AI开发者呈现长尾分布:594个账号托管845个仓库,前20个账号贡献了23%的仓库和165万颗星。其中19个为公司或组织账号,仅lucidrains(Phil Wang)为个人账号。在星数最高的20个账号中,有4个是个人开发者,包括lucidrains、ggerganov、Illyasviel和xtekky。越往下层,个人开发者越难以参与,基础设施层几乎都由组织主导;而超过一半的应用由个人开发,且这些应用平均获得的星数更高,预示着未来可能出现许多由单人创立的高价值公司。
此外,超过2万名开发者贡献了近一百万次提交,其中前50名活跃开发者就贡献了超过10万次提交。
中国的开源AI生态正在迅速崛起。在GitHub上,很多面向中文用户的仓库描述使用中文,例如Qwen、ChatGLM3和Chinese-LLaMA。与美国不同,RNN架构的RWKV模型在中国仍然流行。还有不少工具支持集成到微信、QQ、钉钉等中国常见平台。在GitHub前20账号中,有6个来自中国:THUDM、OpenGVLab、OpenBMB、InternLM、OpenMMLab和QwenLM。
Huyen还观察到“热度曲线”现象:许多仓库迅速获得大量关注后又快速沉寂。在845个软件仓库中,18.8%在过去24小时内没有新增星数,4.5%在一周内没有新增星数。不过,这些项目仍然有其价值,因为它们展示了技术的可能性。
最后,她分享了自己最喜欢的一些工具,包括批量推理优化(FlexGen、llama.cpp)、更快解码(Medusa、LookaheadDecoding)、模型合并(mergekit)、约束采样(outlines、guidance、SGLang)以及一些精巧的专用工具(einops、safetensors)。
尽管分析只包含了845个仓库,Huyen实际查阅了数千个项目。她希望这份分析能帮助人们更好地理解看似繁杂的AI生态系统。