EUのAI:私たちが自分たちに語った寓話
欧州は、特に米国がAnthropicのFableシリーズへのアクセスを停止した後、外国のAIモデルへの依存という脆弱性に直面している。この出来事は、欧州が基礎モデルを構築せずにAIアプリケーションを利用するだけでよいという長年の寓話を暴露した。記事は、最先端モデルの構築は継続的な実践であり、欧州には真のエコシステムと専門知識が欠けていると論じている。
欧州は現在、人工知能分野で前例のない脆弱性に直面している。今年、米国政府はAnthropic社の最も強力なモデル(偶然にも「Fable」シリーズと命名)へのアクセスを停止した。この措置は新たな脆弱性を生み出したのではなく、チャットGPTブーム以降、欧州が自らに言い聞かせてきた寓話を暴露したに過ぎない。それは、欧州は人工知能の基盤を構築する必要はなく、うまく活用すればよいというものだ。「アプリケーション層を所有し、他の者に資本を燃やさせる」という物語は、ワシントンがその層を遮断した瞬間に崩れ去った。
現在、米国と中国にはそれぞれ約10の競争力のあるAIラボがある。一方、第二の貿易ブロックである欧州には、おそらく1つか、あるいはまったくない。Mistral社の遅れは過去1年で顕著になっている。欧州が直面する最初の技術的問題は、最先端モデルの構築が静かにプロジェクトから継続的な実践へと変化していることだ。それは中断するとすぐに衰退する蓄積されたノウハウであり、いかなる計算能力もそれを買い戻すことはできない。第二の政治経済的問題は、インフラを借りて主権と呼ぶことはできないということだ。欧州はあらゆる戦略文書に「エコシステム」という言葉を書き込んだが、実際のものはほとんど構築しなかった。ラボの密な市場も、それらを支えるデータ市場もなく、次世代能力が製造されるまさにその層で、中国モデルへの依存が深まっていることにほとんど気づいていない。
ドラギ報告書はアプリケーション層の嘘を産業政策の言葉で飾った。つまり、AIを欧州の製造業、化学、ロボット工学に「垂直に」統合し、その下にEUのセクターモデルを立ち上げるというものだ。ブリューゲル研究所は最も正直に「技術フロンティア以下で繁栄する」選択と名付け、リードを失ったブロックにとっては合理的な選択かもしれないと論じた。しかし、業界が結果に追いつく頃には、この枠組みは統計として固まっていた。欧州のAI投資の約4分の3は外国モデル上に構築されたアプリケーションに流れている。ある調査は残酷な結果を示した。欧州人はAIを素晴らしく消費するが、他人が所有するアルゴリズムを訓練しており、欧州ユーザーが生み出す価値はデータとともに海外に流出している。アプリケーション層を所有する問題は、所有しておらずレンタルしていることだ。垂直統合は、その下のモデルが停止、価格変更、または単に保留されるまでしか主権を持たない。そして今、まさにその状況にある。
知識が実際のボトルネックである。数年で、LLMとエージェントは独自の応用分野としてスピンオフした。現在のモデル訓練の主流手法(非常に疎な混合専門家、ネイティブ量子化、RL後処理、エージェントトレース)は2023-2024年の「古典的」LLMとはかけ離れている。それは閉じたプロジェクトとして単一モデルを訓練することではなく、継続的なモデルインフラである。モデルは次世代モデルの訓練、データのキュレーション、合成環境の作成、RLのソフト検証に役立つ。重要なのは、ツールとしてのモデルは必ずしもデプロイされたモデルではないことだ。推論経済の制約がなく、同じ能力範囲も必要ないからだ。
現在、欧州は継続的モデルインフラ構築の少なくとも一つの構成要素を確保している。それは公共計算だ。EuroHPC(および曖昧なAIファクトリー)に統合されたクラスターは、生の計算能力を提供するだけでなく、大規模分散訓練で実際の専門知識が構築された唯一の場でもある。対照的に、民間計算は大幅に遅れており、実際の需要に接続できていない。欧州はすでに自発的需要の初期源泉であるビッグテックを逃している。大規模プロジェクトは定期的に発表され、静かにキャンセルされ、これまで稼働している唯一の民間クラスターは推論用途に限定されている。多くの中国企業が日常的にスクラッチから事前訓練を行い、現在の主流ノウハウを獲得している一方、EUの民間研究開発は限られた後処理実験を超えない。
民間計算の未発達は完全に内部要因であり、欧州はハードウェア輸出規制の重大な制限を受けていない。インフラバリューチェーンの重要な部分(ASML)を所有することは、米国が欧州での超大規模クラスター創設に反対する場合の実際のレバレッジを確保した。しかし、過去数年間それは起こらず、このレバレッジは消えつつある。IPOにより、米国の大規模ラボはチップ自律性とハードウェアバリューチェーンの直接所有に向けて十分な資本を確保した。計算使用の不足は負のフィードバックループを生み出す。主流のLLM研究、ましてや最先端に追いつく人はほんの一握りだ。断片的な研究を読むだけでなく、継続的に実践し、モデル訓練のさまざまな側面がどのように相互作用するかの直感を構築する必要がある。
専門知識の不足は十分に認識されておらず、おそらく欧州の訓練フラストレーションの主な原因である。AI研究は商品と見なされ、長期的に報われる継続的投資ではない。たとえ数少ない欧州の民間ラボでも、研究チームを飢えさせ未発達のままにしている。その成果は民間や公共の資金提供者にとって容易に理解できないからだ。
2020年のAI白書は「卓越のエコシステム」と「信頼のエコシステム」を約束した。同年の欧州データ戦略は2025年までに数千億ユーロ相当のデータ単一市場を約束した。しかし、実際に現れることはなかった。その密集した、華やかでない商業的ウェブ、つまりラボ、買い手、供給者、仲介者、競合他社が技術を産業に変えるものだ。米国と中国はそれぞれ数十の組織がスクラッチから高クラスのモデルを事前訓練している。欧州には真に該当するものが1つあるだけだ。他の欧州シーンの証拠として挙げられる名前は、単一モダリティ企業か研究非営利団体だ。訓練インフラの実際の買い手が1つでは市場は成立しない。買い手が実質的に1つしかないため、売り手もほとんどいない。米国のデータ経済はScale AIやSurge AIを生み出し、数百億ドルの評価額を誇るが、それは専ら最先端ラボにキュレーションおよび合成データを供給する強みによる。欧州の同等層は少数の企業であり、最大手はYandexに起源を持つ。欧州のScaleは存在しない。なぜなら、それに仕える需要がないからだ。
そして、市場を法令で製造しようとする公的な試みがある。それ自体が一種の証拠だ。データガバナンス法は2023年に施行され、1年後に登録されたデータ仲介者はほぼ1つだけだった。共通欧州データスペース(紙上では14あり、健康、モビリティ、エネルギー、製造をカバー)は、現在取り組みを率いる当局者の言葉を借りれば「一握り」の運用プロジェクトにとどまる。2025年に立法された欧州健康データスペースは、中核的な二次利用機能を2029年まで提供せず、画像およびラボデータは2031年まで提供しない。2020年に約束された旗艦プロジェクトは、もし実現すれば11年後に到着する。GAIA-X、エアバス・オブ・データを目指した仏独連邦クラウドは、参加者の一人によって「紙の怪物」と呼ばれ、Scalewayが撤退し、静かにサービスカタログに縮小した。
欧州は、その答えはオープンソースであると大声で頻繁に言った。しかし、その戦術は決して生み出さなかった。オープンソースは旗印となり、手法ではなくなった。米国の商業ラボと純粋な国家プロジェクトの間の「第三の道」を示す方法であり、オープンモデルを複利させる唯一の要素である継続性にコミットしなかった。旗艦的取り組みは、まさにその通り、固定期間助成金による大規模学術コンソーシアムとして構成された。OpenGPT-Xは2022年から2025年初頭まで約1400万ユーロで10のパートナーとともに運営され、助成金は終了した。そのモデルTeuken-7Bは2024年のオープン70億パラメータベースラインとほぼ同等であり、真の差別化は生の能力ではなく全24EU言語のカバレッジだった。その後継OpenEuroLLMは20の組織と11の大学を集め、数千万ユーロの予算で、具体的な計算割り当てなしに開始され、その後数ヶ月間EuroHPCへのアクセスを求めた。
これは研究者の失敗ではない。彼らは優秀で飢えている。形式の失敗だ。最先端モデルは終了日のある成果物ではなく、継続的な実践である。モデルが次のモデルを訓練し、同じチームが走り、失敗し、再び走り、直感が蓄積されるまで。それを3年の期間で調達することはできない。資金提供者に理解されやすいように設計されたコンソーシアムに所有権が分散している状態では不可能だ。中国のラボはオープンモデルを明確な所有者と終了日のない産業戦略として扱った。欧州はオープンソースを価値声明と一連の単発プロジェクトとして扱い、今や価値声明がモデルを訓練しないことを発見している。