AI News HubLIVE
站内改写4 分钟阅读

欧盟AI:我们给自己讲的寓言

欧洲在人工智能领域面临依赖外国模型的脆弱性,尤其是美国暂停Anthropic的Fable系列模型后,暴露了欧洲长期以来的一个寓言:只需使用AI而无需构建底层模型。文章指出前沿模型构建是持续实践而非一次性项目,欧洲缺乏真正的AI生态系统和专业知识。

来源Hacker News AI作者: mooreds

欧洲在人工智能领域正面临一场突如其来的脆弱性危机。今年,美国暂停了欧洲对Anthropic最强大模型(意外命名为“Fable”系列)的访问权限,这一事件并未创造新的漏洞,而是暴露了欧洲自ChatGPT热潮以来一直自我安慰的寓言:欧洲不需要构建人工智能的底层基础,只需善用即可。这种“拥有应用层”的叙事认为,欧洲可以让其他地区烧钱建设基础设施,自己则专注于应用。然而,当华盛顿切断了底层的模型供应,这个故事也随之破灭。

目前,美国和中国各有约10个具有竞争力的人工智能实验室,而作为第二大贸易集团的欧洲,可能只有一个甚至没有——Mistral在过去一年中已大幅落后。欧洲面临的第一个技术问题是,前沿模型构建已悄然从项目转变为持续实践,是一种一旦停止就会衰退的积累性知识,任何计算资源都无法买回。第二个政治经济问题是,你不能租用基础设施并称之为主权。欧洲在每份战略文件中都写着“生态系统”,却几乎没有建立任何实际的东西:没有密集的实验室市场,没有支撑它们的数据市场,而且在下一代能力正在制造的层面,对中国模型的依赖日益加深且未引起足够重视。

德拉吉报告以产业政策的语言包装了应用层的谎言:将AI“垂直”整合到欧洲制造业、化工、机器人等领域,并在其下建立一套欧盟行业模型。布鲁盖尔研究所则诚实地称之为“在技术前沿之下繁荣”的选择,认为这对于已经失去领先地位的集团可能是理性之举,至少可以收获生产力红利。然而,当行业意识到后果时,这一框架已固化为统计数据:约四分之三的欧洲AI投资流向了基于外国模型构建的应用。一项调查残酷地指出,欧洲人出色地消费AI,却训练着他人拥有的算法,欧洲用户产生的价值随数据流向国外。拥有应用层的问题在于,你并非拥有,而是租用。只有当底层的模型被暂停、重新定价或扣留时,垂直领域才具有主权——而这正是当前的处境。

知识是真正的瓶颈。在短短几年内,大型语言模型和智能体已发展为独立的应用学科。当前的模型训练主流方法与2023-2024年的经典LLM相去甚远:它不再是封闭项目中的单一模型训练,而是持续的基础设施建设。模型帮助训练下一代模型、整理数据、创建合成环境、为强化学习提供软验证。工具模型不一定是部署的模型,因为没有推理经济的限制,也不需要相同的能力范围。目前,欧洲至少确保了持续模型基础设施建设的一个组成部分:公共计算。集成到EuroHPC(以及模糊的AI工厂)的集群不仅提供原始计算能力,而且是实际积累大规模分布式训练专业知识的唯一场所。相比之下,私有计算严重滞后,无法连接实际需求,因为欧洲已经错过了初始自发需求来源:大型科技公司。大型项目经常被宣布,又悄然取消,目前唯一运行的私有集群仅限推理用途。而许多中国公司常规性地从头预训练,掌握了当前主流技术,欧盟的私营研发几乎不超过有限的后期训练实验。

私有计算发展不足完全是内部因素,因为欧洲并未受到硬件出口管制的严重限制。拥有基础设施价值链的关键部分(ASML)确保了在反对欧洲建立超大规模集群时的实际杠杆作用。但过去几年这种情况并未发生,且杠杆正在消失:随着IPO,美国大型实验室已获得足够资本走向芯片自主化,直接拥有硬件价值链。计算使用的缺乏导致负反馈循环:只有少数人跟得上主流LLM研究,更不用说前沿领域。不仅需要阅读碎片化研究,更需要持续实践,培养对模型训练各个方面如何相互作用的直觉。欧洲培训挫折的主要原因是对专业知识稀缺性的认识不足。AI研究被视为商品而非持续投资,即便少数欧洲私人实验室也保持研究团队饥饿状态,因为其产出对私人或公共资助者来说不易理解。

欧洲在2020年AI白皮书中承诺建立“卓越生态系统”和“信任生态系统”,欧洲数据战略则承诺到2025年建立一个价值数千亿的数据单一市场。但从未出现的是那个密集、平淡的商业网络:实验室、买家、供应商、中介和竞争对手,它们将技术转化为产业。美国和中国各有数十个从头预训练高质量模型的组织,而欧洲只有一个真正符合条件。其他作为欧洲场景证明的名字是单模态公司或研究非营利组织。一个真正的训练基础设施买家无法构成市场。由于几乎只有一个买家,也几乎没有卖家。美国数据经济催生了Scale AI和Surge AI等公司,估值数百亿,仅凭为前沿实验室提供策展和合成数据。欧洲的对应层只有少数公司,最大的一家源于Yandex。没有欧洲的Scale,因为根本没有需求。

欧洲试图通过法令制造市场,这本身也是一种证据。《数据治理法案》2023年生效,一年后仅吸引了一个注册数据中介。共同欧洲数据空间——纸面上有14个,涵盖健康、移动、能源、制造——在负责人看来只有“少数”运营项目。2025年立法的欧洲健康数据空间要到2029年才提供核心二次使用功能,影像和实验室数据则要等到2031年:2020年承诺的旗舰项目,如果真能实现,需要11年。GAIA-X,法德联合云项目,被参与者称为“纸老虎”,Scaleway退出后悄然缩编为服务目录。

欧洲大声宣称其答案是开源,但从未产生战术。开源成为旗帜而非方法,一种在美商实验室和纯国家项目之间“第三条道路”的象征,却没有承诺让开源模型持续发展的连续性。旗舰项目结构为大型学术联盟,固定期限资助。OpenGPT-X从2022年到2025年初运行约1400万欧元,然后资助结束。其模型Teuken-7B大致相当于2024年开放70亿参数基线,真正区别在于覆盖所有24种欧盟语言而非能力。接替项目OpenEuroLLM汇集20个组织和11所大学,投入数千万欧元,但没有具体计算分配,之后数月寻找EuroHPC访问权限。这并非研究人员失败,他们优秀且饥饿,而是模式的失败。前沿模型不是有截止日期的可交付物,而是持续实践——模型训练下一代模型,同一团队反复运行和失败,直到直觉积累。你不能在三年期内采购它,所有权分散在为资助者设计的联盟中。中国实验室将开源视为有明确所有者和无限期的工业战略,欧洲则将其视为价值声明和一系列一次性项目,现在发现价值声明无法训练模型。