AI News HubLIVE
站内改写2 分で読了

AIの中心にあるデータのブラックホール

この記事では、サンプル効率(AIが学習に必要とするデータ量)はほとんど改善されておらず、進歩はデータと計算の大規模な拡大によるものであると論じています。人間の専門家データは高度に特化かつ膨大であり、データがAI進歩の主要な推進力であり、オープンソースモデルが急速に追いつくことを可能にしています。非効率にもかかわらず、一般的なタスク向けのAI訓練は経済的に成り立ちますが、分布外の推論は未解決のままです。

ソースHacker News AI著者: jedixit

本稿では、知能をサンプル効率、すなわちある領域で流暢に動作するために必要なデータ量と定義する。近年、訓練サンプル効率はほとんど改善されておらず、AIの進歩は主にデータ分布の拡大と質の向上、そしてそのデータを生成するための計算量の増加によるものである。強化学習は合成データ生成の一種であり、検証器に対して大量の計算を投入して「良い」データを見つけ、モデルにその正しい軌跡を予測させることで、インターネットテキストの次の単語を予測する訓練と類似している。

このプロセスには、各分野で人間の専門家による多数の事例が必要である。各スキルには数百人の専門家が事例生成、評価基準の作成、思考過程の説明を行う。データ産業は年間数十億ドルの収益を上げ、すぐに数百億ドルに達する。AIがWordファイルの整理のようなタスクを学習するには、人間の数十年分のコース、数百人の教授、数百万の練習問題に相当するものが必要であり、さらにタスクごとに数百から数千の軌跡を生成する必要がある。

Epochの報告によれば、オープンモデルは最先端のクローズドモデルにわずか4ヶ月遅れている。著者は、データが進歩の真の推進力であり、データは公開APIから容易に抽出できるため、追いつきが容易であると考える。AIモデルが訓練されるデータ量は人間の一生に触れる量をはるかに上回る。最先端モデルは数兆トークンで訓練されるのに対し、人間は出生から成人までに約2億トークンしか経験せず、その差は約100万倍である。

人間とAIのサンプル効率を比較すると、10代の若者は約20時間の練習で車の運転を学べるが、自動運転モデルには数桁多いデータが必要である。進化による事前訓練という反論に対して、ヒトゲノムは3GBでパラメータを格納できず、マルチモーダルデータも重要ではない。聴覚障害者が言語のみで汎用知能を持つことは、大量の感覚データが不可欠でないことを示唆する。スケーリング則によれば、パラメータを無限に増やしてもデータ要件は約10倍しか減らず、人間は数千から数百万倍のサンプル効率を持ち、異なるスケーリング曲線上にあることを示している。

サンプル効率は重要か?ホワイトカラー業務の一般的なタスクはRLやSFTで容易に分布内に取り込めるため、訓練効率は極めて低いが、能力は数十億回のセッションに分散でき経済的に成り立つ。しかしソフトウェア工学など分布外推論が必要な仕事にはAIはまだ対応できない。ラボはまずAI研究を自動化し、その後AI研究者にサンプル効率問題を解決させる計画である。著者は今後の投稿で、人間レベルのサンプル効率を持たないAIが人間レベルの知能に到達できるかを探求する。