AI幻象:為何我認為炒作難以持續
文章認為,AI尤其是大語言模型無法實現100%的可靠性,需要人工驗證,從而削弱了效率提升。作者以自動駕駛汽車和代碼生成為例,指出炒作和高昂估值缺乏合理性,因為瓶頸仍在人工監督。
如果我們退後一步觀察,一切事物都可以被視為一個黑箱——我們不瞭解其內部機制,但可以通過輸入和觀察輸出來學習。假設一個大型語言模型(LLM)就是這樣的黑箱。通過觀察,我們發現其輸出在99%的情況下是正確的(這個數字是假設的,實際可能更差,但關鍵點不在於具體數值,而在於它不是100%)。
計算機以正確性和可靠性著稱。我們知道,當對輸入A執行一個函數時,我們總會得到輸出X,無論情況如何。當然,數據包可能丟失,內存可能出錯,但這些錯誤是可預測的。我們有校驗和重傳機制、有ECC內存,數據格式也能檢測丟失或損壞。整個世界的運轉都依賴於這種確定性。
試想一個不可信賴的系統:1加1並不總是等於2,只有99%的情況下成立。這樣的系統有多大價值?這或許取決於具體情況,但有一點是確定的:我們不能信任它的輸出,必須進行人工檢查。無論檢查方式如何,正確性驗證都需要人工參與。
這在自動駕駛汽車領域已經顯現。技術確實令人印象深刻,但它們並非真正的全自動駕駛。駕駛員必須坐在方向盤後,保持注意力集中,隨時準備在AI犯錯時接管。然而,人們容易分心和厭倦。要麼我們繼續自己駕駛,要麼需要100%的可靠性,這樣我們才能移除方向盤,在行駛中讀書。只有100%才算足夠,99%不行。如果因為那1%的出錯可能而仍然需要“駕駛”,那實際上解決了什麼問題?
在LLM的情況下,讓人工檢查輸出能節省多少時間?與當前AI供應商收取的補貼價格相比,這些節省的時間能證明運行成本合理嗎?以編寫代碼為例,LLM可能在一週內創造出100名工程師一年才能驗證的功能特性。所以無論LLM有多快,人類總是無法繞過的瓶頸。
也就是説,如果我們關心正確性、質量、穩定性等。但如果不在乎,那無論有沒有LLM,何必還要做這件事呢?
因此,我認為AI炒作不可能實現那些鉅額估值所基於的天價承諾。我並不否認AI可能有價值,但可能比人們讓我們相信的要低幾個數量級。
另外,我也不理解為什麼組織將LLM作為流程的核心部分,卻發現模型不斷被調整和修改,導致輸出變得 wildly unpredictable。有時候,當光線恰好在某個角度照射LLM,你眯起眼睛,它看起來就像加密貨幣。至少我是這麼看的。
(作者注:本文忽略了能源浪費、污染、知識產權盜竊、版權侵犯、AI引發的自殘等問題,列表還可以繼續。)