2026-06-15站内改写3 分で読了更新: 2026-06-15

Cloudflare AIチームにEnsemble AIの人材が加わり拡大

Cloudflareは、Ensemble AIの主要メンバーがチームに加わり、機械学習インフラと効率性に焦点を当てたAIへの投資を強化していることを発表しました。Ensemble AIはモデル圧縮と効率的な推論に取り組んでおり、NdLinearなどの技術を開発しました。これにより、Workers AIのパフォーマンスとコスト効率が向上します。

ソースCloudflare AI Blog著者: Alex Reneau

記事インテリジェンス

エンジニア上級

要点

Ensemble AIのチームメンバーがCloudflareに加わり、MLインフラと効率性に注力する。
EnsembleはNdLinearやNdLinear-LoRAを開発し、モデル圧縮と効率的な推論を実現。
目標は、推論コストを削減し、Cloudflareのネットワーク上でAIモデルを実行する経済性を改善すること。
Cloudflareは、グローバルインフラとEnsembleの専門知識を組み合わせ、より効率的なAIデプロイを目指す。

重要な理由

このニュースが重要なのは、Ensemble AIのチームメンバーがCloudflareに加わり、MLインフラと効率性に注力するためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

本日、Ensemble AIの主要メンバーがCloudflareに加わり、AIインフラにおける取り組みを加速し、開発者が強力なAIモデルを効率的に大規模実行できるようにすることを発表できることを嬉しく思います。

Ensemble AIは2023年にサンフランシスコで設立され、ここ数年、品質を犠牲にすることなく大規模モデルをより高速、小型、かつコスト効率よく提供するという、AIにおける最も重要な課題の一つに焦点を当ててきました。チームは、大規模言語モデルやマルチモーダルアーキテクチャのメモリ、計算、デプロイのオーバーヘッドを削減するように設計された、モデル圧縮と効率的な推論への新しいアプローチを開発してきました。

AIが開発者のアプリケーション構築の中核となるにつれ、推論の経済性はこれまで以上に重要になっています。モデルは大型化し、ワークロードはより動的になっています。そして顧客は、AIがどこでも利用可能であること、すなわち、グローバルに分散され、高速で信頼性が高く、手頃な価格であることを期待しています。Ensemble AIチームをCloudflareに迎え入れることで、それを可能にする能力が強化されます。

Ensembleの専門知識の統合

Ensemble AIのチームは、最新のAIモデル内の構造を保持しながら、実行コストを削減することに注力してきました。モデル効率を単なる量子化やハードウェアの問題として扱うのではなく、Ensembleはニューラルネットワークをアーキテクチャレベルでよりコンパクトで効率的にする新しいモデル構成要素を探求してきました。

この作業の中核はNdLinearであり、これはTransformerモデルの標準線形層のドロップイン代替品で、構造を平坦化するのではなく、多次元活性化に直接作用します。これにより、モデルはヘッド、チャネル、空間次元、その他の構造化表現などの意味のある軸を維持しながら、パラメータ数と計算量を削減できます。Ensembleはまた、大規模モデルのファインチューニングに必要な訓練可能パラメータを削減するように設計された効率的な適応手法、NdLinear-LoRAも開発しました。

これらのアプローチは、量子化やベクトル量子化を含む他の効率手法を補完します。これらは、開発者が大幅に低いメモリ、計算、コスト要件で有能なAIモデルを実行できる未来を指し示しています。

AI推論の効率化

Cloudflare Workers AIは、開発者にCloudflareのグローバルネットワーク上でのサーバーレスGPU搭載推論へのアクセスを提供します。開発者がより多くのAIネイティブアプリケーションを構築するにつれて、モデルを効率的に提供する能力はプラットフォームの重要な部分になります。

推論コストは、AIアプリケーションを拡張する最大の障壁の1つです。モデルサイズ、メモリフットプリント、スループット、GPU使用率のあらゆる改善により、AIが開発者にとってよりアクセスしやすくなり、顧客にとってより経済的になります。これは、AIワークロードが単純なテキスト生成からエージェント、マルチモーダルモデル、パーソナライゼーション、ファインチューニング、検索、強化学習へと拡大するにつれて特に重要です。

当社は、Workers AIをより高速で柔軟性があり、コスト効率の高いものにするために必要な中核的な機械学習機能への投資を深めています。これは、推論エンジンInfire、テンソル圧縮技術Unweight、超大規模言語モデルを実行するためのプラットフォームなど、モデル効率改善に関する既存の取り組みに基づいています。チームは、大規模言語モデルやその他の高度なAIアーキテクチャを提供する経済性の改善に焦点を当て、モデル効率、GPU使用率、スケーラブルなデプロイに重点を置きます。

次世代のAIワークロードの構築

AIインフラは新たなフェーズに入っています。開発者はもはやモデルへのアクセスだけでなく、モデルを信頼性高く、手頃な価格で、ユーザーの近くで実行できるインフラを必要としています。コストや運用の複雑さに妨げられることなく、さまざまなモデルサイズ、ファインチューニングアプローチ、デプロイパターンを試す能力が必要です。

Cloudflareはこの問題を解決する独自の立場にあります。当社のグローバルネットワーク、開発者プラットフォーム、サーバーレスアーキテクチャは、AIをアプリケーションがすでに実行されている場所に近づけるための基盤を提供します。Workers AI機械学習エンジニアリングチームは、そのエクスペリエンスの下にある効率層の改善に貢献します。

CloudflareのグローバルインフラとEnsembleのモデル圧縮および効率的アーキテクチャの研究を組み合わせることで、開発者がより低いコスト、より良いパフォーマンス、より少ない運用オーバーヘッドでAIアプリケーションをデプロイできるプラットフォームを構築し続けることができます。

今後の展開

私たちは、AIをより効率的でアクセスしやすく、世界中の開発者にとって有用にするために必要なインフラを構築し続けます。目標はシンプルです。開発者がグローバル規模で強力なAIワークロードを実行できるようにし、Cloudflareプラットフォーム全体での推論の経済性を向上させることです。私たちのミッションに参加したい方は、採用ページをご覧ください。