2026-05-27 12:33 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

[AINews] 新しいAIインフラのデカコーン：Fireworks、Baseten（OpenRouterも順調）

AIインフラスタートアップのFireworks、Baseten、OpenRouterが大型ラウンドを調達し、推論インフラが主要なAIプラットフォーム層として台頭していることを示しています。同時に、エージェントハーネスエンジニアリング、新しいベンチマーク、モデルアップデートがAIニュースサイクルを支配しています。

ソースLatent Space

記事インテリジェンス

エンジニア上級

要点

Fireworks（150億ドル）、Baseten（110億ドル）、OpenRouter（1.13億ドル）が推論インフラ資金調達の波をリード。
エージェントハーネスエンジニアリングがコーディングエージェントの主な差別化要因に。
長期的推論とメモリの進歩（「睡眠」論文など）が登場。

重要な理由

このニュースが重要なのは、Fireworks（150億ドル）、Baseten（110億ドル）、OpenRouter（1.13億ドル）が推論インフラ資金調達の波をリードためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

今週のAIニュースは、推論インフラストラクチャ分野における大規模な資金調達イベントに焦点が当てられています。Fireworks AIは150億ドルの評価額で資金調達中（7ヶ月前から3.75倍）、Basetenは110億ドル（3ヶ月で2.2倍）、OpenRouterは1.13億ドルのシリーズCラウンド（6ヶ月で取引量5倍）を発表しました。これらの動きは、マルチモデル推論の時代には強力なルーティング層が必要であることを示しています。

AI Twitterでは、「ハーネスエンジニアリング」がコーディングエージェントの重要な差別化要因となっています。複数の投稿が、勝利するスタックはモデル＋ハーネス＋評価ループであり、単により強力なベースモデルではないという点で一致しています。DeepSeekは、モデル出力、ランタイムフィードバック、検証、修正の間のループを閉じるために、明示的にハーネスチームを構築しています。GoogleのGemini管理エージェントガイドでは、エージェントインフラをサンドボックス、永続化、マウントを備えたマネージドハーネスへの単一APIコールとして定義しています。新しいベンチマークDeepSWEは、実際の開発者体験を反映しているとして実務者から高い評価を得ています。

研究エージェントに関しては、Claude MythosがErdős問題#90を解決したとの報告があり、適切なハーネスがあれば、モデルが通常のチャットUXでは発揮されない大きな潜在能力を示すことが示唆されました。論文「Language Models Need Sleep」は、最近のコンテキストを永続的な高速重みに変換してからKVキャッシュをクリアする、睡眠のような統合フェーズを提案し、ウェイクレイテンシを維持しながら計算をオフラインに移行します。

モデルとオプティマイザーでは、AMUSEがMuonとスケジュールフリー勾配評価を組み合わせた新しいオプティマイザーを提案。MiniMaxのM3モデルはブロックスパースな2段階アテンションを採用し、100万トークンでプリフィル9.7倍、デコード15.6倍の高速化を実現。MicrosoftのMAI-Image-2.5はImage Arenaで3位にランクインし、OpenAIとGoogleの独占を破りました。

インフラ面では、Huaweiのτスケーリング論文はエンジニアリングロードマップとして解釈され、デバイス、チップ、データセンター全体の統一指標として時定数τを提案。データセンターの電力と推論供給制約が重要な懸念事項となり、SemiAnalysisは800VDC移行を議論し、Epoch AIは推論計算不足の可能性を推定しています。

プロダクションツールでは、vLLMがRustフロントエンドをマージし、前処理負荷の高いワークロードでPython版の約162 req/sに対し、約837 req/sを達成。W&BはMCPサーバーをリリースし、コーディングエージェントが実験とトレーニングランを検査可能に。UnslothはローカルUI内でGPT、ClaudeなどのAPIを実行する機能を追加。Cloudflareはスタートアッププログラムを再開し、最大35万ドルのクレジットを提供。

Redditでは、Qwen 3.7のリリースが大きな話題となり、そのベンチマーク結果はQwen3.7-Maxをエージェントコーディング、ソフトウェアエンジニアリング、ツール使用などで最先端モデルとして位置づけています。また、ローカルモデルの実行に関する議論も活発です。