AI進步是否正在放緩?
本文分析了關於AI能力進步是否放緩的爭論。作者認為,模型擴充套件(scaling)並未終結,但行業領袖的預測不可靠;推理擴充套件(inference scaling)有潛力但存在侷限性;能力提升與實際經濟影響之間的關聯很弱,產品開發和採用才是關鍵瓶頸。
自從2023年3月GPT-4釋出以來,科技界的主流敘事是持續擴充套件模型規模將通往人工通用智慧甚至超級智慧。然而,過去一個月內,《資訊報》、路透社和彭博社相繼報道稱,OpenAI、Anthropic和谷歌Gemini三家領先的AI開發者在下一代模型上都遇到了問題。曾經最堅定的擴充套件支持者之一伊利亞·蘇茨克弗也改變了口吻,表示“2010年代是擴充套件的時代,現在我們又回到了驚奇與發現的時代”,並強調“以正確的方式擴充套件比以往任何時候都重要”。
但本文作者指出,現在宣佈模型擴充套件已死還為時過早。我們早就知道GPT-4級別的模型已經用完了大部分易獲取的資料,新想法是必要的。除非有證據表明許多想法都已嘗試失敗,否則不能斷定模型擴充套件已走到盡頭。例如,將YouTube影片(而非轉錄文本)加入多模態模型的訓練集可能會解鎖新能力,但這隻有谷歌能做到,且我們不知道是否已被嘗試。
關於行業內部人士的預測,作者認為他們並不比外界更瞭解情況。一方面,他們擁有專有資訊,但優勢最多不過幾個月;另一方面,他們的技術專長並不比學術界強,而且商業利益嚴重扭曲了他們的判斷。蘇茨克弗的轉變就是一個例子:在OpenAI時他需要強調擴充套件以吸引投資,而如今他領導的安全超級智慧公司則需要說服投資者自己能用更少的資金競爭。
推理擴充套件(即測試時計算擴充套件)是當前的熱點。OpenAI的o1和DeepSeek R1等推理模型透過讓模型“思考”後再回答來提升效能。但這種方法並非萬能:它對有明確正確答案的問題(如程式設計、數學)有效,但對寫作、翻譯等任務幫助有限。此外,推理擴充套件的改進幅度尚不確定。OpenAI在AIME基準上的圖表顯示效能可能接近飽和,但缺乏x軸標籤。外部研究也表明,當驗證器不完美時,多次嘗試後的效能會達到峰值甚至下降。
短期內推理擴充套件有大量低垂果實可摘。例如,當前推理模型在代理系統(agentic systems)中表現不佳,因為其提示方式不同且未透過環境反饋進行強化學習訓練。解決這些問題可能帶來顯著進步,如根據提示生成功能完整的複雜應用。但從長期看,推理擴充套件能否像模型擴充套件那樣帶來持續進步尚存疑問。模型擴充套件只需擴大數據、模型和算力,而推理擴充套件目前需要演算法創新,且僅在有限領域有效。
最後,作者強調能力提升與AI的實際社會或經濟影響之間關聯極弱。瓶頸在於產品開發速度和採用率。例如,即使AI有強大的程式設計能力,但ChatGPT執行Python程式碼的方式仍令人困惑。開發可靠的產品需要更多軟體工程技能,而AI公司過去對此關注不足。此外,採用還面臨行為、組織和社會層面的障礙。
總之,模型擴充套件或許結束,或許沒有。但它的終結將帶來積極變化:AI進步再次依賴新想法而非算力;大小公司和學術界可在相對公平的平臺上競爭;依賴訓練計算閾值的監管更難辯護。至於未來,行業內部人士和其他人一樣在摸索,是時候停止信任他們那些自信、自利、多變且模糊的預測了。