AI News HubLIVE
站内改写2 分鐘閱讀

AI核心的數據黑洞

本文認為,樣本效率(即AI學習所需的數據量)並未顯著提升,進步主要來自數據和計算的大規模擴展。人類專家數據特定且海量,是AI進步的關鍵驅動力,使得開源模型能迅速追趕前沿。儘管訓練效率極低,但為常見任務訓練AI仍具經濟價值,然而超出分佈範圍的推理問題仍未解決。

來源Hacker News AI作者: jedixit

本文將智能定義為樣本效率——即在一個領域內流暢且勝任地操作所需的數據量。近年來,訓練樣本效率幾乎沒有提升,AI的進步主要來自數據分佈的拓寬和質量的改善,以及用於生成這些數據的計算規模擴展。強化學習作為一種合成數據生成方式,通過大量計算與驗證器尋找“好”的數據,然後訓練模型預測這些正確軌跡,類似於預測互聯網文本中的下一個詞。

然而,這一過程高度依賴人類專家在每個領域提供的大量示例。每個技能都需要數百名專家生成示例、編寫評分標準並解釋思維過程。數據產業因此每年收入數十億美元,並很快將突破百億。AI學習一個看似簡單的任務(如整理Word文件)所需的訓練量,可能相當於人類數十年的課程、數百名教授和數百萬道練習題,而AI還需為每個任務生成數百至數千次軌跡。

Epoch報告指出,開源模型僅落後前沿封閉模型4個月。作者認為,數據是進步的主要驅動力,而數據易於從公共API中提取,超參數和訓練技巧則難以複製,這解釋了為何追趕相對容易。AI模型訓練的數據量遠超人類一生所見——前沿模型訓練於數萬億token,人類從出生到成年僅接觸約2億token,差距近百萬倍。

對比人類與AI的樣本效率,一名青少年約20小時就能學會開車,而自動駕駛模型需要多幾個數量級的數據。針對進化作為預訓練的反駁,作者指出人類基因組僅3GB,無法存儲大型模型參數;多模態數據也非關鍵,因為聾啞人僅通過語言即可擁有通用智能。縮放定律表明,即使無限增加參數,也僅能減少約10倍的數據需求,而人類樣本效率高出數千至數百萬倍,意味着人類處於不同的縮放曲線上。

樣本效率是否重要?對於白領工作,常見任務可通過RL和SFT輕鬆納入分佈,即使訓練效率極低,但能力可分攤至數十億會話,經濟上仍可行。然而,軟件工程等需要分佈外推理的工作,AI仍難以勝任。實驗室計劃先自動化AI研究,再由AI研究者解決樣本效率問題。作者將在後續文章中探討,缺乏人類級樣本效率的AI能否最終實現人類級智能。