歐盟AI:我們給自己講的寓言
歐洲在人工智慧領域面臨依賴外國模型的脆弱性,尤其是美國暫停Anthropic的Fable系列模型後,暴露了歐洲長期以來的一個寓言:只需使用AI而無需構建底層模型。文章指出前沿模型構建是持續實踐而非一次性專案,歐洲缺乏真正的AI生態系統和專業知識。
歐洲在人工智慧領域正面臨一場突如其來的脆弱性危機。今年,美國暫停了歐洲對Anthropic最強大模型(意外命名為“Fable”系列)的訪問許可權,這一事件並未創造新的漏洞,而是暴露了歐洲自ChatGPT熱潮以來一直自我安慰的寓言:歐洲不需要構建人工智慧的底層基礎,只需善用即可。這種“擁有應用層”的敘事認為,歐洲可以讓其他地區燒錢建設基礎設施,自己則專注於應用。然而,當華盛頓切斷了底層的模型供應,這個故事也隨之破滅。
目前,美國和中國各有約10個具有競爭力的人工智慧實驗室,而作為第二大貿易集團的歐洲,可能只有一個甚至沒有——Mistral在過去一年中已大幅落後。歐洲面臨的第一個技術問題是,前沿模型構建已悄然從專案轉變為持續實踐,是一種一旦停止就會衰退的積累性知識,任何計算資源都無法買回。第二個政治經濟問題是,你不能租用基礎設施並稱之為主權。歐洲在每份戰略檔案中都寫著“生態系統”,卻幾乎沒有建立任何實際的東西:沒有密集的實驗室市場,沒有支撐它們的資料市場,而且在下一代能力正在製造的層面,對中國模型的依賴日益加深且未引起足夠重視。
德拉吉報告以產業政策的語言包裝了應用層的謊言:將AI“垂直”整合到歐洲製造業、化工、機器人等領域,並在其下建立一套歐盟行業模型。布魯蓋爾研究所則誠實地稱之為“在技術前沿之下繁榮”的選擇,認為這對於已經失去領先地位的集團可能是理性之舉,至少可以收穫生產力紅利。然而,當行業意識到後果時,這一框架已固化為統計資料:約四分之三的歐洲AI投資流向了基於外國模型構建的應用。一項調查殘酷地指出,歐洲人出色地消費AI,卻訓練著他人擁有的演算法,歐洲使用者產生的價值隨資料流向國外。擁有應用層的問題在於,你並非擁有,而是租用。只有當底層的模型被暫停、重新定價或扣留時,垂直領域才具有主權——而這正是當前的處境。
知識是真正的瓶頸。在短短幾年內,大型語言模型和智慧體已發展為獨立的應用學科。當前的模型訓練主流方法與2023-2024年的經典LLM相去甚遠:它不再是封閉專案中的單一模型訓練,而是持續的基礎設施建設。模型幫助訓練下一代模型、整理資料、建立合成環境、為強化學習提供軟驗證。工具模型不一定是部署的模型,因為沒有推理經濟的限制,也不需要相同的能力範圍。目前,歐洲至少確保了持續模型基礎設施建設的一個組成部分:公共計算。整合到EuroHPC(以及模糊的AI工廠)的叢集不僅提供原始計算能力,而且是實際積累大規模分散式訓練專業知識的唯一場所。相比之下,私有計算嚴重滯後,無法連線實際需求,因為歐洲已經錯過了初始自發需求來源:大型科技公司。大型專案經常被宣佈,又悄然取消,目前唯一執行的私有叢集僅限推理用途。而許多中國公司常規性地從頭預訓練,掌握了當前主流技術,歐盟的私營研發幾乎不超過有限的後期訓練實驗。
私有計算發展不足完全是內部因素,因為歐洲並未受到硬體出口管制的嚴重限制。擁有基礎設施價值鏈的關鍵部分(ASML)確保了在反對歐洲建立超大規模叢集時的實際槓桿作用。但過去幾年這種情況並未發生,且槓桿正在消失:隨著IPO,美國大型實驗室已獲得足夠資本走向晶片自主化,直接擁有硬體價值鏈。計算使用的缺乏導致負反饋迴圈:只有少數人跟得上主流LLM研究,更不用說前沿領域。不僅需要閱讀碎片化研究,更需要持續實踐,培養對模型訓練各個方面如何相互作用的直覺。歐洲培訓挫折的主要原因是對專業知識稀缺性的認識不足。AI研究被視為商品而非持續投資,即便少數歐洲私人實驗室也保持研究團隊飢餓狀態,因為其產出對私人或公共資助者來說不易理解。
歐洲在2020年AI白皮書中承諾建立“卓越生態系統”和“信任生態系統”,歐洲資料戰略則承諾到2025年建立一個價值數千億的資料單一市場。但從未出現的是那個密集、平淡的商業網路:實驗室、買家、供應商、中介和競爭對手,它們將技術轉化為產業。美國和中國各有數十個從頭預訓練高質量模型的組織,而歐洲只有一個真正符合條件。其他作為歐洲場景證明的名字是單模態公司或研究非營利組織。一個真正的訓練基礎設施買家無法構成市場。由於幾乎只有一個買家,也幾乎沒有賣家。美國資料經濟催生了Scale AI和Surge AI等公司,估值數百億,僅憑為前沿實驗室提供策展和合成資料。歐洲的對應層只有少數公司,最大的一家源於Yandex。沒有歐洲的Scale,因為根本沒有需求。
歐洲試圖透過法令製造市場,這本身也是一種證據。《資料治理法案》2023年生效,一年後僅吸引了一個註冊資料中介。共同歐洲資料空間——紙面上有14個,涵蓋健康、移動、能源、製造——在負責人看來只有“少數”運營專案。2025年立法的歐洲健康資料空間要到2029年才提供核心二次使用功能,影像和實驗室資料則要等到2031年:2020年承諾的旗艦專案,如果真能實現,需要11年。GAIA-X,法德聯合雲專案,被參與者稱為“紙老虎”,Scaleway退出後悄然縮編為服務目錄。
歐洲大聲宣稱其答案是開源,但從未產生戰術。開源成為旗幟而非方法,一種在美商實驗室和純國家專案之間“第三條道路”的象徵,卻沒有承諾讓開源模型持續發展的連續性。旗艦專案結構為大型學術聯盟,固定期限資助。OpenGPT-X從2022年到2025年初執行約1400萬歐元,然後資助結束。其模型Teuken-7B大致相當於2024年開放70億引數基線,真正區別在於覆蓋所有24種歐盟語言而非能力。接替專案OpenEuroLLM彙集20個組織和11所大學,投入數千萬歐元,但沒有具體計算分配,之後數月尋找EuroHPC訪問許可權。這並非研究人員失敗,他們優秀且飢餓,而是模式的失敗。前沿模型不是有截止日期的可交付物,而是持續實踐——模型訓練下一代模型,同一團隊反覆執行和失敗,直到直覺積累。你不能在三年期內採購它,所有權分散在為資助者設計的聯盟中。中國實驗室將開源視為有明確所有者和無限期的工業戰略,歐洲則將其視為價值宣告和一系列一次性專案,現在發現價值宣告無法訓練模型。