AI News HubLIVE
サイト内リライト3 分で読了

900の最も人気のあるオープンソースAIツールから学んだこと

Chip Huyen氏が約900のオープンソースAIプロジェクトを分析し、2023年にアプリケーションとAIエンジニアリング層が爆発的に成長した一方、インフラ層は比較的安定していたことを明らかにしました。中国のオープンソースエコシステムは西洋とは大きく異なり、中国向けのモデルやツールが多数登場しています。

ソースChip Huyen

約4年前、Chip Huyen氏はオープンソースMLエコシステムの分析を行いました。それ以来状況は大きく変わったため、彼女は再びこのテーマに取り組み、今回は基盤モデルを中心としたスタックに焦点を当てました。

彼女はGitHubで「gpt」「llm」「generative ai」というキーワードを検索し、AIの情報量の多さから、スター数500以上のリポジトリに検索を絞りました。その結果、llmで590、gptで531、generative aiで38のリポジトリが見つかりました。さらにGitHubトレンドやソーシャルメディアも確認し、最終的に896のリポジトリを発見。そのうち51はチュートリアルやリストでしたが、分析対象は845のソフトウェアリポジトリです。このプロセスは困難でしたが、コミュニティのコラボレーションの素晴らしさや、中国のオープンソースエコシステムが西洋とどれほど異なるかを理解する上で貴重でした。

Huyen氏はAIスタックを3つの層に分類しています。インフラ層(サービング、計算管理、ベクトル検索など)、モデル開発層(モデリング、トレーニング、推論最適化、評価など)、アプリケーション開発層(プロンプトエンジニアリング、RAG、AIインターフェースなど)です。さらに、モデルリポジトリと既存モデル上に構築されたアプリケーションの2つのカテゴリも追加しています。

時間の経過とともに、2023年に安定拡散(Stable Diffusion)とChatGPTの登場後、新しいツールが爆発的に増加しましたが、2023年9月以降は成長が鈍化しています。その理由として、リポジトリがスターを集めるのに時間がかかること、簡単なアイデアは既に実行されたこと、そして生成AIへの興奮が落ち着いたことなどが考えられます。2023年に最も成長した層はアプリケーションとアプリケーション開発層であり、インフラ層の成長は限定的でした。

アプリケーションの中で最も人気があったのは、コーディング、ボット、情報集約ツールでした。AIエンジニアリングは2023年の主役となり、プロンプトエンジニアリング、AIインターフェース、エージェント、AIエンジニアリングフレームワークなどのサブカテゴリに分類されます。Huyen氏が特に注目するのはAIインターフェースで、Web/デスクトップアプリ、ブラウザ拡張機能、チャットボット、プラグインなど多様な形態があります。

モデル開発層では、推論最適化、評価、パラメータ効率的なファインチューニングへの関心が高まりました。推論最適化では、2020年に16ビット量子化が最先端でしたが、現在では2ビット以下が実現されています。評価も重要度を増し、比較評価やAI-as-a-judgeなどの新しい手法が登場しています。

インフラ層は生成AIの変化にもかかわらず、ほぼ同じ状態を保っています。これはインフラ製品が通常オープンソース化されないためかもしれません。ベクトルデータベースが新しいカテゴリとして登場しましたが、ベクトル検索は長年存在しており、既存のデータベース企業が機能を統合しているため、独立したカテゴリとしての必要性には疑問もあります。

オープンソースAI開発者を見ると、ロングテール分布が顕著です。845のリポジトリは594のアカウントによってホストされ、トップ20のアカウントがリポジトリの23%(195個)を占め、合計165万スターを獲得しています。そのうち19は組織アカウントで、唯一の個人アカウントはlucidrains(Phil Wang)です。スター数で見ると、上位20アカウント中4人が個人開発者(lucidrains、ggerganov、Illyasviel、xtekky)です。層が下がるほど個人の参入は難しくなり、インフラ層はほぼ組織が占める一方、アプリケーションの半数以上は個人によってホストされています。個人が開始したアプリケーションは平均して組織のものより多くのスターを獲得しており、将来は個人が運営する高価値な企業が増える可能性が示唆されています。

さらに、2万人以上の開発者がこれらのリポジトリに貢献し、合計で約100万件のコミットが行われました。特に活発な上位50人の開発者は10万件以上のコミットを行い、平均2000件以上です。

中国のオープンソースエコシステムは急速に成長しています。以前はGitHubが中国で広く使われていない印象がありましたが、現在は多くの中国語向けの人気AIリポジトリが存在します。Qwen、ChatGLM3、Chinese-LLaMAなどの中国語または中国語+英語用のモデルや、RNNベースのRWKVモデルファミリーが依然として人気です。また、WeChat、QQ、DingTalkなどの中国プラットフォームと統合するAIエンジニアリングツールも多数あります。GitHubのトップ20アカウントのうち、6つが中国発です:THUDM、OpenGVLab、OpenBMB、InternLM、OpenMMLab、QwenLM。

Huyen氏はまた、多くのリポジトリが急速に注目を集めた後、すぐに衰退する「ハイプカーブ」現象を観察しました。845のリポジトリのうち、18.8%が過去24時間に新しいスターを獲得しておらず、4.5%が過去1週間で獲得していません。それでも、これらのプロジェクトは可能性を示す点で価値があります。

最後に、彼女のお気に入りのツールとして、バッチ推論最適化(FlexGen、llama.cpp)、より高速なデコーダ(Medusa、LookaheadDecoding)、モデルマージ(mergekit)、制約付きサンプリング(outlines、guidance、SGLang)、およびeinopsやsafetensorsのようなニッチなツールを挙げています。

分析には845のリポジトリしか含まれていませんが、Huyen氏は実際に数千のリポジトリを確認しました。この分析が、圧倒的に見えるAIエコシステムの全体像を把握する助けになることを願っています。