谷歌的AI智慧體真的用916美元構建了一個作業系統嗎?
谷歌聲稱其AI智慧體團隊僅用單條提示和約900美元就構建了一個作業系統,但本文分析了該說法的多處疑點:提示實際上長達數千行、可能存在過度擬合、未公開關鍵資訊等。文章強調了獨立評估的重要性,並認為此類公開世界評估需要新的方法論標準。
文章情報
要點
- 谷歌宣稱AI智慧體以916美元成本構建作業系統,但實際提示詞達數千行
- 存在過度擬合、複製現有程式碼等未被澄清的問題
- 谷歌未釋出完整提示詞、程式碼或日誌,無法獨立驗證
- 此類評估雖不嚴謹,但為公開世界評估提供了方向,需引入學術獨立評估
為什麼重要
這條新聞值得關注,因為谷歌宣稱AI智慧體以916美元成本構建作業系統,但實際提示詞達數千行。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
本週早些時候,在谷歌的開發者大會上,該公司推出了最新模型Gemini 3.5 Flash以及新代理應用Antigravity 2.0。為了展示這一新代理設定的能力,谷歌聲稱一個代理團隊已經構建了一個完整的作業系統。據稱,該工作僅需單個提示,API費用僅約900美元,由幾十個子代理協同完成。
這是否意味著複雜軟體現在可以由AI廉價構建?實際上並非如此。
“單條提示”的說法具有誤導性。部落格文章稱作業系統是透過單條提示構建的,但文章中途透露,該提示“最終長達數千行”。生成該提示需要多少次嘗試?對代理的指令有多具體?沒有這些關鍵細節,很難知道秘訣是更好的模型還是在提示上投入了更多精力。此外,執行是在一個具有專門角色、向子代理委派任務以及檢測和防止作弊的代理的支架(scaffold)上進行的。在釋出文章中,谷歌將支架視為產品功能。但我們不知道支架是否過度擬合於從頭構建作業系統的任務,或者它是否能在其他複雜軟體工程任務上表現同樣出色。
谷歌的文章沒有明確說明哪些算作人工干預。文章提到最終執行開發作業系統時“不需要人類的額外指導或修正”,但並未定義該標準。文章描述了用於殺死和重啟卡住代理的基礎設施。文章提到了一次早期執行中代理似乎作弊,之後團隊增加了反作弊措施並重新執行任務。但它沒有將試執行作為方法論的一部分報告,也沒有明確說明是否有任何代理升級到人類、最終執行是否需要任何手動重啟、批准或修復,或者代理成功所需的重試次數。
文章沒有報告任何分析代理是從頭編寫程式碼還是從網際網路複製現有程式碼的嘗試。值得稱讚的是,部落格文章指出玩具作業系統是常見的本科課程專案,公開實現很容易找到。文章本身提出了代理可能只是複述資訊而不是從頭構建作業系統的擔憂,但並未解決這一擔憂——沒有進行相似性分析或日誌分析來檢查代理是否複製了現有程式碼。即使沒有直接複製,由於訓練資料中記憶的模式,編寫作業系統對代理來說可能相對容易,因此這並不能說明代理建立新穎軟體的能力。
谷歌尚未釋出長篇提示、代理編寫的程式碼或執行日誌,這使得無法獨立評估這些說法。釋出原始碼或代理日誌可以讓獨立研究人員評估工件的質量,並回答諸如代理是否複製現有程式碼等問題。部落格文章僅包括一段短影片,記錄了開發過程的快照和實驗的整體敘述。
另一方面,部落格文章確實報告了構建作業系統的確切美元金額(916.92美元),以及總令牌預算(總計26億令牌)。這些數字提供了有用的背景,我們對此表示讚賞。我們之前調查的許多評估根本沒有披露成本,這使得它們的標題宣告難以與其他評估進行比較。
儘管如此,谷歌的部落格文章本質上是一份新聞稿。我們認識到期望它具有科學嚴謹性是不現實的。像這樣的評估——一個長期現實世界的任務,在單次執行中評估,實驗者敘述代理所做的——已經變得普遍。由於其中許多是由AI公司進行的,很容易將整個型別視為誇大其詞。
但那樣做是錯誤的。我們將這種新興正規化稱為開放世界評估,並在最近的一篇論文(以及隨附的部落格文章)中認識到這一趨勢。關鍵在於,我們認為開放世界評估需要一套新的方法論規範。如果做得正確,它們可以提供基準評估無法提供的寶貴視角。
谷歌的實驗確實增加了越來越多的證據,表明代理或代理團隊可以在非常長的時間內自主或接近自主地處理某些型別的任務,取得進展而不會陷入困境或混淆。正如我們在論文中論證的,基準評估對於這類任務實際上是不可能的,原因包括成本。因此,現在是來自學術界、非營利組織和政府的獨立評估者介入的時候了,為開放世界評估提供AI供應商自己的宣告中不太可能找到的嚴謹性和可信度。