AI News HubLIVE
站內改寫2 分鐘閱讀

從900個最受歡迎的開源AI工具中學到的

Chip Huyen 分析了近900個流行的開源AI項目,發現2023年應用和AI工程層爆發式增長,基礎設施層變化較小。中國開源生態與西方分化明顯,湧現出許多針對中文的模型和工具。

大約四年前,Chip Huyen曾對開源機器學習生態系統進行過一次分析。如今,隨着基礎模型棧的快速發展,她決定重新審視這一主題,這次專門聚焦於圍繞基礎模型的開源工具。

她通過搜索GitHub上的“gpt”、“llm”和“generative ai”關鍵詞,考慮到AI領域信息量巨大,將範圍限定在至少獲得500顆星的項目。最終,她發現了896個倉庫,其中51個是教程或列表,剩下845個為軟件工具。這個過程耗時且費力,但讓她更清晰地瞭解了社區的協作程度以及中國開源生態與西方的差異。

Huyen將AI堆棧劃分為三個層次:基礎設施、模型開發和應用開發。基礎設施層包括服務、計算管理、向量搜索等工具;模型開發層涉及建模、訓練、推理優化和評估等;應用開發層則包括提示工程、RAG、AI界面等。此外,她還列出了模型倉庫和基於現有模型構建的應用作為額外類別。

從時間維度看,2023年Stable Diffusion和ChatGPT等突破性技術出現後,各類工具數量激增,但到9月增長開始放緩。可能的原因包括:新倉庫需要時間積累星星、容易實現的想法已被開發、以及人們對生成式AI熱情有所降温。2023年增長最快的層次是應用和應用開發層,而基礎設施層增長相對緩慢。

在應用類別中,最受歡迎的是編碼、機器人和信息聚合工具。AI工程層則在2023年成為主角,涵蓋提示工程、AI界面、代理和AI工程框架等多個子類別。Huyen特別對AI界面感到興奮,包括網頁/桌面應用、瀏覽器擴展、聊天機器人以及插件等形式。

模型開發層在ChatGPT之前主導了AI堆棧,2023年的增長主要來自推理優化、評估和參數高效微調。推理優化技術從2020年的16位量化發展到現在的2位甚至更低。評估方法也日益豐富,如比較評估和AI作為裁判。

基礎設施層變化不大,可能因為這類產品通常不開源。向量數據庫是這一層的新興類別,但不少人認為其必要性存疑,因為向量搜索早已存在,現有數據庫如DataStax和Redis正在整合該功能。

開源AI開發者呈現長尾分佈:594個賬號託管845個倉庫,前20個賬號貢獻了23%的倉庫和165萬顆星。其中19個為公司或組織賬號,僅lucidrains(Phil Wang)為個人賬號。在星數最高的20個賬號中,有4個是個人開發者,包括lucidrains、ggerganov、Illyasviel和xtekky。越往下層,個人開發者越難以參與,基礎設施層幾乎都由組織主導;而超過一半的應用由個人開發,且這些應用平均獲得的星數更高,預示着未來可能出現許多由單人創立的高價值公司。

此外,超過2萬名開發者貢獻了近一百萬次提交,其中前50名活躍開發者就貢獻了超過10萬次提交。

中國的開源AI生態正在迅速崛起。在GitHub上,很多面向中文用户的倉庫描述使用中文,例如Qwen、ChatGLM3和Chinese-LLaMA。與美國不同,RNN架構的RWKV模型在中國仍然流行。還有不少工具支持集成到微信、QQ、釘釘等中國常見平台。在GitHub前20賬號中,有6個來自中國:THUDM、OpenGVLab、OpenBMB、InternLM、OpenMMLab和QwenLM。

Huyen還觀察到“熱度曲線”現象:許多倉庫迅速獲得大量關注後又快速沉寂。在845個軟件倉庫中,18.8%在過去24小時內沒有新增星數,4.5%在一週內沒有新增星數。不過,這些項目仍然有其價值,因為它們展示了技術的可能性。

最後,她分享了自己最喜歡的一些工具,包括批量推理優化(FlexGen、llama.cpp)、更快解碼(Medusa、LookaheadDecoding)、模型合併(mergekit)、約束採樣(outlines、guidance、SGLang)以及一些精巧的專用工具(einops、safetensors)。

儘管分析只包含了845個倉庫,Huyen實際查閲了數千個項目。她希望這份分析能幫助人們更好地理解看似繁雜的AI生態系統。