AI核心的資料黑洞
本文認為,樣本效率(即AI學習所需的資料量)並未顯著提升,進步主要來自資料和計算的大規模擴充套件。人類專家資料特定且海量,是AI進步的關鍵驅動力,使得開源模型能迅速追趕前沿。儘管訓練效率極低,但為常見任務訓練AI仍具經濟價值,然而超出分佈範圍的推理問題仍未解決。
本文將智慧定義為樣本效率——即在一個領域內流暢且勝任地操作所需的資料量。近年來,訓練樣本效率幾乎沒有提升,AI的進步主要來自資料分佈的拓寬和質量的改善,以及用於生成這些資料的計算規模擴充套件。強化學習作為一種合成資料生成方式,透過大量計算與驗證器尋找“好”的資料,然後訓練模型預測這些正確軌跡,類似於預測網際網路文本中的下一個詞。
然而,這一過程高度依賴人類專家在每個領域提供的大量示例。每個技能都需要數百名專家生成示例、編寫評分標準並解釋思維過程。資料產業因此每年收入數十億美元,並很快將突破百億。AI學習一個看似簡單的任務(如整理Word檔案)所需的訓練量,可能相當於人類數十年的課程、數百名教授和數百萬道練習題,而AI還需為每個任務生成數百至數千次軌跡。
Epoch報告指出,開源模型僅落後前沿封閉模型4個月。作者認為,資料是進步的主要驅動力,而資料易於從公共API中提取,超引數和訓練技巧則難以複製,這解釋了為何追趕相對容易。AI模型訓練的資料量遠超人類一生所見——前沿模型訓練於數萬億token,人類從出生到成年僅接觸約2億token,差距近百萬倍。
對比人類與AI的樣本效率,一名青少年約20小時就能學會開車,而自動駕駛模型需要多幾個數量級的資料。針對進化作為預訓練的反駁,作者指出人類基因組僅3GB,無法儲存大型模型引數;多模態資料也非關鍵,因為聾啞人僅透過語言即可擁有通用智慧。縮放定律表明,即使無限增加引數,也僅能減少約10倍的資料需求,而人類樣本效率高出數千至數百萬倍,意味著人類處於不同的縮放曲線上。
樣本效率是否重要?對於白領工作,常見任務可透過RL和SFT輕鬆納入分佈,即使訓練效率極低,但能力可分攤至數十億會話,經濟上仍可行。然而,軟體工程等需要分佈外推理的工作,AI仍難以勝任。實驗室計劃先自動化AI研究,再由AI研究者解決樣本效率問題。作者將在後續文章中探討,缺乏人類級樣本效率的AI能否最終實現人類級智慧。