AI News HubLIVE
站内改写

谷歌的AI智能體真的用916美元構建了一個操作系統嗎?

谷歌聲稱其AI智能體團隊僅用單條提示和約900美元就構建了一個操作系統,但本文分析了該説法的多處疑點:提示實際上長達數千行、可能存在過度擬合、未公開關鍵信息等。文章強調了獨立評估的重要性,並認為此類公開世界評估需要新的方法論標準。

文章情報

工程師進階

要點

  • 谷歌宣稱AI智能體以916美元成本構建操作系統,但實際提示詞達數千行
  • 存在過度擬合、複製現有代碼等未被澄清的問題
  • 谷歌未發佈完整提示詞、代碼或日誌,無法獨立驗證
  • 此類評估雖不嚴謹,但為公開世界評估提供了方向,需引入學術獨立評估

為甚麼重要

這條新聞值得關注,因為谷歌宣稱AI智能體以916美元成本構建操作系統,但實際提示詞達數千行。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本週早些時候,在谷歌的開發者大會上,該公司推出了最新模型Gemini 3.5 Flash以及新代理應用Antigravity 2.0。為了展示這一新代理設置的能力,谷歌聲稱一個代理團隊已經構建了一個完整的操作系統。據稱,該工作僅需單個提示,API費用僅約900美元,由幾十個子代理協同完成。

這是否意味着複雜軟件現在可以由AI廉價構建?實際上並非如此。

“單條提示”的説法具有誤導性。博客文章稱操作系統是通過單條提示構建的,但文章中途透露,該提示“最終長達數千行”。生成該提示需要多少次嘗試?對代理的指令有多具體?沒有這些關鍵細節,很難知道秘訣是更好的模型還是在提示上投入了更多精力。此外,運行是在一個具有專門角色、向子代理委派任務以及檢測和防止作弊的代理的支架(scaffold)上進行的。在發佈文章中,谷歌將支架視為產品功能。但我們不知道支架是否過度擬合於從頭構建操作系統的任務,或者它是否能在其他複雜軟件工程任務上表現同樣出色。

谷歌的文章沒有明確説明哪些算作人工干預。文章提到最終運行開發操作系統時“不需要人類的額外指導或修正”,但並未定義該標準。文章描述了用於殺死和重啓卡住代理的基礎設施。文章提到了一次早期運行中代理似乎作弊,之後團隊增加了反作弊措施並重新運行任務。但它沒有將試運行作為方法論的一部分報告,也沒有明確説明是否有任何代理升級到人類、最終運行是否需要任何手動重啓、批准或修復,或者代理成功所需的重試次數。

文章沒有報告任何分析代理是從頭編寫代碼還是從互聯網複製現有代碼的嘗試。值得稱讚的是,博客文章指出玩具操作系統是常見的本科課程項目,公開實現很容易找到。文章本身提出了代理可能只是複述信息而不是從頭構建操作系統的擔憂,但並未解決這一擔憂——沒有進行相似性分析或日誌分析來檢查代理是否複製了現有代碼。即使沒有直接複製,由於訓練數據中記憶的模式,編寫操作系統對代理來説可能相對容易,因此這並不能説明代理創建新穎軟件的能力。

谷歌尚未發佈長篇提示、代理編寫的代碼或運行日誌,這使得無法獨立評估這些説法。發佈源代碼或代理日誌可以讓獨立研究人員評估工件的質量,並回答諸如代理是否複製現有代碼等問題。博客文章僅包括一段短視頻,記錄了開發過程的快照和實驗的整體敍述。

另一方面,博客文章確實報告了構建操作系統的確切美元金額(916.92美元),以及總令牌預算(總計26億令牌)。這些數字提供了有用的背景,我們對此表示讚賞。我們之前調查的許多評估根本沒有披露成本,這使得它們的標題聲明難以與其他評估進行比較。

儘管如此,谷歌的博客文章本質上是一份新聞稿。我們認識到期望它具有科學嚴謹性是不現實的。像這樣的評估——一個長期現實世界的任務,在單次運行中評估,實驗者敍述代理所做的——已經變得普遍。由於其中許多是由AI公司進行的,很容易將整個類型視為誇大其詞。

但那樣做是錯誤的。我們將這種新興範式稱為開放世界評估,並在最近的一篇論文(以及隨附的博客文章)中認識到這一趨勢。關鍵在於,我們認為開放世界評估需要一套新的方法論規範。如果做得正確,它們可以提供基準評估無法提供的寶貴視角。

谷歌的實驗確實增加了越來越多的證據,表明代理或代理團隊可以在非常長的時間內自主或接近自主地處理某些類型的任務,取得進展而不會陷入困境或混淆。正如我們在論文中論證的,基準評估對於這類任務實際上是不可能的,原因包括成本。因此,現在是來自學術界、非營利組織和政府的獨立評估者介入的時候了,為開放世界評估提供AI供應商自己的聲明中不太可能找到的嚴謹性和可信度。