AI進步是否正在放緩?
本文分析了關於AI能力進步是否放緩的爭論。作者認為,模型擴展(scaling)並未終結,但行業領袖的預測不可靠;推理擴展(inference scaling)有潛力但存在侷限性;能力提升與實際經濟影響之間的關聯很弱,產品開發和採用才是關鍵瓶頸。
自從2023年3月GPT-4發佈以來,科技界的主流敍事是持續擴展模型規模將通往人工通用智能甚至超級智能。然而,過去一個月內,《信息報》、路透社和彭博社相繼報道稱,OpenAI、Anthropic和谷歌Gemini三家領先的AI開發者在下一代模型上都遇到了問題。曾經最堅定的擴展支持者之一伊利亞·蘇茨克弗也改變了口吻,表示“2010年代是擴展的時代,現在我們又回到了驚奇與發現的時代”,並強調“以正確的方式擴展比以往任何時候都重要”。
但本文作者指出,現在宣佈模型擴展已死還為時過早。我們早就知道GPT-4級別的模型已經用完了大部分易獲取的數據,新想法是必要的。除非有證據表明許多想法都已嘗試失敗,否則不能斷定模型擴展已走到盡頭。例如,將YouTube視頻(而非轉錄文本)加入多模態模型的訓練集可能會解鎖新能力,但這隻有谷歌能做到,且我們不知道是否已被嘗試。
關於行業內部人士的預測,作者認為他們並不比外界更瞭解情況。一方面,他們擁有專有信息,但優勢最多不過幾個月;另一方面,他們的技術專長並不比學術界強,而且商業利益嚴重扭曲了他們的判斷。蘇茨克弗的轉變就是一個例子:在OpenAI時他需要強調擴展以吸引投資,而如今他領導的安全超級智能公司則需要説服投資者自己能用更少的資金競爭。
推理擴展(即測試時計算擴展)是當前的熱點。OpenAI的o1和DeepSeek R1等推理模型通過讓模型“思考”後再回答來提升性能。但這種方法並非萬能:它對有明確正確答案的問題(如編程、數學)有效,但對寫作、翻譯等任務幫助有限。此外,推理擴展的改進幅度尚不確定。OpenAI在AIME基準上的圖表顯示性能可能接近飽和,但缺乏x軸標籤。外部研究也表明,當驗證器不完美時,多次嘗試後的性能會達到峯值甚至下降。
短期內推理擴展有大量低垂果實可摘。例如,當前推理模型在代理系統(agentic systems)中表現不佳,因為其提示方式不同且未通過環境反饋進行強化學習訓練。解決這些問題可能帶來顯著進步,如根據提示生成功能完整的複雜應用。但從長期看,推理擴展能否像模型擴展那樣帶來持續進步尚存疑問。模型擴展只需擴大數據、模型和算力,而推理擴展目前需要算法創新,且僅在有限領域有效。
最後,作者強調能力提升與AI的實際社會或經濟影響之間關聯極弱。瓶頸在於產品開發速度和採用率。例如,即使AI有強大的編程能力,但ChatGPT運行Python代碼的方式仍令人困惑。開發可靠的產品需要更多軟件工程技能,而AI公司過去對此關注不足。此外,採用還面臨行為、組織和社會層面的障礙。
總之,模型擴展或許結束,或許沒有。但它的終結將帶來積極變化:AI進步再次依賴新想法而非算力;大小公司和學術界可在相對公平的平台上競爭;依賴訓練計算閾值的監管更難辯護。至於未來,行業內部人士和其他人一樣在摸索,是時候停止信任他們那些自信、自利、多變且模糊的預測了。