2026-06-19站内改写2 分鐘閱讀更新: 2026-06-19

AI核心的數據黑洞

本文認為，樣本效率（即AI學習所需的數據量）並未顯著提升，進步主要來自數據和計算的大規模擴展。人類專家數據特定且海量，是AI進步的關鍵驅動力，使得開源模型能迅速追趕前沿。儘管訓練效率極低，但為常見任務訓練AI仍具經濟價值，然而超出分佈範圍的推理問題仍未解決。

來源Hacker News AI作者: jedixit

本文將智能定義為樣本效率——即在一個領域內流暢且勝任地操作所需的數據量。近年來，訓練樣本效率幾乎沒有提升，AI的進步主要來自數據分佈的拓寬和質量的改善，以及用於生成這些數據的計算規模擴展。強化學習作為一種合成數據生成方式，通過大量計算與驗證器尋找“好”的數據，然後訓練模型預測這些正確軌跡，類似於預測互聯網文本中的下一個詞。

然而，這一過程高度依賴人類專家在每個領域提供的大量示例。每個技能都需要數百名專家生成示例、編寫評分標準並解釋思維過程。數據產業因此每年收入數十億美元，並很快將突破百億。AI學習一個看似簡單的任務（如整理Word文件）所需的訓練量，可能相當於人類數十年的課程、數百名教授和數百萬道練習題，而AI還需為每個任務生成數百至數千次軌跡。

Epoch報告指出，開源模型僅落後前沿封閉模型4個月。作者認為，數據是進步的主要驅動力，而數據易於從公共API中提取，超參數和訓練技巧則難以複製，這解釋了為何追趕相對容易。AI模型訓練的數據量遠超人類一生所見——前沿模型訓練於數萬億token，人類從出生到成年僅接觸約2億token，差距近百萬倍。

對比人類與AI的樣本效率，一名青少年約20小時就能學會開車，而自動駕駛模型需要多幾個數量級的數據。針對進化作為預訓練的反駁，作者指出人類基因組僅3GB，無法存儲大型模型參數；多模態數據也非關鍵，因為聾啞人僅通過語言即可擁有通用智能。縮放定律表明，即使無限增加參數，也僅能減少約10倍的數據需求，而人類樣本效率高出數千至數百萬倍，意味着人類處於不同的縮放曲線上。

樣本效率是否重要？對於白領工作，常見任務可通過RL和SFT輕鬆納入分佈，即使訓練效率極低，但能力可分攤至數十億會話，經濟上仍可行。然而，軟件工程等需要分佈外推理的工作，AI仍難以勝任。實驗室計劃先自動化AI研究，再由AI研究者解決樣本效率問題。作者將在後續文章中探討，缺乏人類級樣本效率的AI能否最終實現人類級智能。