AI News HubLIVE
公開記事 22収集記事 24信頼度 84更新頻度 120 分
稼働状態 正常ソース種別 公式全文利用権限 公式全文最終取り込み 2026-06-26ID fireworks-blog状態 有効

Official AI inference and model platform blog; confirm reuse terms before full body display.

最新公開記事

Cursor Composer 2 + Fireworks AI

Cursorは、Cursor開発環境に最適化されたコードモデルComposer 2をリリースしました。Kimi 2.5をベースに、継続的プレトレーニングと大規模強化学習を組み合わせ、最先端のコーディング性能を実現しつつ、推論コストを6〜10倍削減します。Fireworks AIは分散型推論インフラを提供し、RLのスケーラビリティを可能にします。

  • Composer 2はCursor環境向けに特化したコードモデルで、継続的プレトレーニングと強化学習で性能を向上。
  • CursorBench、Terminal-Bench、SWE-bench Multilingualで最高スコアを達成。
サイト内本文

低コストで最前線のAI:オープンソースワーカーとクローズドソースアドバイザーの組み合わせ

本記事では、オープンソースのワーカーエージェント(Kimi-K2.6またはGLM-5.2)とクローズドソースの最前線モデル(Claude Opus 4.8)を組み合わせたアーキテクチャを紹介。SWE-bench Pro、Terminal-Bench 2.1、Legal Agent Benchの3つのベンチマークで一貫した性能向上を達成し、推論コストを19%から67%削減する。GLM-5.2とアドバイザーの組み合わせはTerminal-BenchでOpusと同等(約80%)でありながらコストは約47%低く、Legal Agent BenchではOpusを上回りコストは40%低い。

  • オープンソースワーカー(Kimi-K2.6またはGLM-5.2)がタスクをエンドツーエンドで実行し、最終段階でクローズドソースの最前線モデル(Claude Opus 4.8)に1回だけ相談する。
  • SWE-bench Proで4~7ポイント、Terminal-Bench 2.1で4~8ポイント、Legal Agent Benchで1~4ポイントの改善。
サイト内本文

Fireworks AI

Fireworks AIは2026年7月1日より、すべてのセルフサービスアカウントをプリペイド課金に移行します。ユーザーは今すぐ切り替えるか、自動移行を待つかを選択できます。プリペイド課金はクレジットの事前購入により予算の予測可能性を高め、自動リロード機能でサービス中断を防止します。契約顧客は影響を受けません。

  • Fireworks AIは2026年7月1日よりセルフサービスアカウントをプリペイド課金に移行します。
  • ユーザーは今すぐ切り替えるか、自動移行を待つかの選択が可能です。
サイト内本文

GLM 5.2 が Fireworks 推論でデイゼロ提供開始

Z.ai(旧称 Zhipu)の最新オープンソースモデル GLM 5.2 が、Fireworks 推論プラットフォームで利用可能になりました。コーディングベンチマークでリードし、100万トークンのコンテキストウィンドウを備え、MITライセンスで提供されます。Fireworks は独立して性能を検証し、ルーティングではなくインフラストラクチャを重視しています。

  • GLM 5.2 が Fireworks 推論でデイゼロ提供開始。
  • コーディングで最強のオープンソースモデル、100万トークンコンテキスト。
サイト内本文

Fireworks 上の Kimi K2.7 Code:より優れたエージェント、タスクあたりの低コスト、初日利用可能

Moonshot AI は、K2 シリーズの最新コーディングモデル「Kimi K2.7 Code」をリリースし、Fireworks AI で初日からサポートを開始しました。このモデルは前世代の K2.6 と比べて推論トークンを 30% 削減しながら、コーディングベンチマークで高いスコアを達成しています。推論トークンの削減により、エージェントワークフローでのタスク完了コストが大幅に低減されます。Fireworks は Standard、Priority、Fast(近日公開)の 3 つのサービスオプションを提供し、信頼性と速度のニーズに応えます。

  • Kimi K2.7 Code は K2.6 より 30% 少ない推論トークンで、コーディング評価で高スコア。
  • 推論トークンの削減は、複合効果によりエージェントタスクの総コストを低減。
サイト内本文

Qwen 3.7 Plus が Fireworks で利用可能に

Alibaba は Fireworks と提携し、Qwen 3.7 Plus を Fireworks のインフラ上でホスティング、サーバーレス API として提供開始。エージェントループ向けに設計され、思考モードと非思考モードをサポート、コンテキストウィンドウは 262K トークン。前世代比約 50% の価格低下。Fireworks はデータ保持ゼロポリシーと 99.9% のアップタイム SLA を提供。

  • Qwen 3.7 Plus は Fireworks のサーバーレス API で独占利用可能に。
  • エージェントワークロード向けに最適化され、画像入力と思考連鎖の保持に対応。
サイト内本文

MiniMax M3 が正式リリース:長文脈+ネイティブマルチモーダル、価格は1/20

MiniMax がフラッグシップモデル M3 を公開。50万トークン超のコンテキストウィンドウ、テキスト・画像・動画を理解するネイティブマルチモーダル、そして革新的な MiniMax Sparse Attention(MSA)アーキテクチャを搭載。Fireworks 上で M2.7 の1/20の価格で利用でき、オープンウェイトモデルに新たな基準を打ち立てた。

  • M3 は50万トークン超のコンテキストに対応し、近日中に100万トークンに拡大予定。
  • MiniMax Sparse Attention(MSA)技術により、計算効率が従来比4倍以上向上。
サイト内本文

NVIDIA Nemotron 3 Ultra が Fireworks でデイゼロサポート付きで公開

NVIDIA が公開した Nemotron 3 Ultra は、長時間実行される自律エージェント向けに最適化されたオープンモデルです。総パラメータ550B、ハイブリッド Transformer-Mamba MoE アーキテクチャを採用し、Fireworks 上でデイゼロサポートを提供。エージェントタスクにおいて、他のオープンモデルと比較して推論速度が5倍、コストが30%削減されます。

  • Nemotron 3 Ultra は自律エージェント向けのオープンモデルで、総パラメータ550B、アクティブパラメータ55B。
  • ハイブリッド Transformer-Mamba MoE アーキテクチャを採用し、最大1Mのコンテキストをサポート。
サイト内本文

オープンソースエージェントとフロンティアアドバイザー:トレーニングとハーネスエンジニアリングによるフロンティア性能の達成

Fireworks AIとHarveyは、Legal Agent Benchmark (LAB)において、単一のフロンティアモデルの呼び出しへの依存を減らしつつ、低コストでフロンティアレベルの性能を達成するための2つのシステムレベルの技術を探求しました。オープンソースのGLM 5.1ワーカーとClaude Opus 4.7アドバイザーによるハイブリッドハーネスは、100タスクで18/100のオールパスを368ドルで達成し、Opus単独(14/100、954ドル)を上回りました。Kimi K2.6へのSFTおよびRFTによるポストトレーニングでは、オールパスが15/100(84ドル)に向上し、平均スコアも改善されました。

  • オープンソースワーカーとフロンティアアドバイザーを呼び出し可能なツールとして使用するハイブリッドハーネスは、エンドツーエンドのフロンティアモデルよりも低コストで高いオールパスを達成します。
  • Fireworksでのポストトレーニング:SFTによりオールパスが11/100から15/100に向上。RFTにより平均スコアが0.863から0.886に向上。
サイト内本文

Trilogy、Fireworks AIによるオープンウェイトAIモデルのエンタープライズワークロード検証を実施

TrilogyのAI Center of Excellenceは、Fireworks AIを推論インフラとして評価し、オープンウェイトモデルの使用を標準化、コストを削減し、数十億トークンスケールのエージェンティックワークフローを実現しました。

  • TrilogyはFireworks AIをエンタープライズ向けオープンウェイトモデルの推論レイヤーとして採用。
  • コストを専有システムの約5分の1に削減し、レート制限の問題を解消。
サイト内本文

エージェント実行税:ブラウザ自動化における真のボトルネック

720回のブラウザエージェントタスクのベンチマークで、構造化出力の信頼性がエージェントAIのボトルネックであることが判明。Gemini 2.5 Flashは22.9%の実行税(無駄な推論呼び出しの割合)が発生したのに対し、Kimi K2.5はゼロ。この税はレイテンシ、コスト、失敗率を増幅させる。本レポートは信頼性調整済み精度とタスクあたりのコスト指標を導入する。

  • エージェント実行税は構造化出力の失敗による無駄な推論を測定し、最悪モデルで22.9%、最良で0%。
  • Gemini 2.5 Flashはタスクの86.7%で少なくとも1回のパース再試行が発生、Kimi K2.5は0%。
サイト内本文

Serverless 2.0:3つの推論実行方法、1つのAPI

Fireworks AIはServerless 2.0を発表し、予約容量なしでStandard、Priority、Fastの3つの推論パスを1つのAPIで提供します。Priorityパスは混雑時により強いリクエスト許可を提供し、Fastパスは約2倍のスループットを実現。また、負荷制限(503)とレート制限(429)を明確に分離し、リトライロジックとアラートを改善します。

  • Serverless 2.0は3つのサービスインテントを提供:Standard(デフォルト)、Priority(負荷時優先許可)、Fast(高スループット)。
  • Priorityはピーク負荷テストで0%の503エラーレートを達成、Standardは0.082%。
サイト内本文

Innovative Solutions、Fireworks AI でエンタープライズサービスの提供を再構築

AWS プレミア パートナーである Innovative Solutions は、推論レイヤーを Fireworks AI に移行することでサービス提供を変革しました。DarcyIQ プラットフォームは社内生産性ツールからマルチエージェント実行システムへと進化し、契約サイクルを 30~45 日から約 3 日に短縮、提供スループットを倍増させ、推論コストを予測可能かつ制御可能にしました。

  • Innovative Solutions は推論レイヤーを Anthropic から Fireworks AI に移行し、モデル統合のオーバーヘッドを削減し、安定した予測可能な推論を実現。
  • DarcyIQ はセールス、スコーピング、デリバリーをカバーするマルチエージェント実行システムへと進化し、契約サイクルを約 3 日に短縮。
サイト内本文

Fireworks AI、Hathoraを買収しグローバルコンピュートオーケストレーションを加速

Fireworks AIは、ゲーム向け低遅延コンテナオーケストレーションに特化したHathoraを買収しました。そのリアルタイム・マルチリージョン最適化技術をAI推論に適用し、推論速度と信頼性の向上を目指します。

  • Fireworks AIがHathoraを買収し、そのコンテナオーケストレーション技術を統合。
  • Hathoraはミリ秒単位のレイテンシ最適化に注力、AI推論に応用。
サイト内本文

Fireworks AI が Microsoft Foundry に対応、Azure で最高クラスのオープンモデル推論を提供

Fireworks AI は Microsoft Foundry 上でのパブリックプレビューを発表し、高性能なオープンモデル推論を Azure に統合します。DeepSeek V3.2、Kimi K2.5 などの最先端モデルをワンストップで利用可能にし、BYOW と柔軟な価格設定をサポートします。

  • Fireworks AI が Microsoft Foundry 上でパブリックプレビューを開始、Azure に高速オープンモデル推論をもたらす。
  • DeepSeek V3.2、Kimi K2.5、MiniMax M2.5 などのモデルが利用可能で、BYOW に対応。
サイト内本文

ファインチューニングのボトルネックはアルゴリズムではない

チームは最新の訓練アルゴリズムを追いかけがちですが、実際のボトルネックは統合の摩擦と反復速度です。本記事では、GensparkやCursorなどの実例を交え、これらのボトルネックを克服する方法と、将来的な自律的ファインチューニングループについて解説します。

  • ファインチューニングの実際のボトルネックは、アルゴリズムではなく統合とデータ主権の問題である。
  • 迅速な反復サイクル(数週間から数時間へ)が成功の鍵である。
サイト内本文

あなたのAIを所有する:Fireworksトレーニングプレビュー

Fireworks AIがトレーニングプレビューを発表。Qwen3 8BからKimi K2.5(1兆パラメータ)までのフルパラメータトレーニングをサポートし、トレーニングエージェント、マネージドトレーニング、トレーニングAPIの3つのインターフェースを提供。RL、SFT、DPO、分類タスクで顕著なパフォーマンス向上を実証し、トレーニングと推論の数値的一貫性を確保。

  • フルパラメータトレーニングをスケール対応(80億から1兆パラメータまで)。
  • 3つのインターフェース:トレーニングエージェント(コード不要)、マネージドトレーニング(MLエンジニア向け)、トレーニングAPI(完全制御)。
サイト内本文

Fireworksが全モデルでプロンプトインジェクションを防止する方法

Fireworksは、ユーザー入力内の制御トークン文字列がモデルの制御トークンとして誤ってエンコードされるのを防ぐ安全なトークン化(safe_tokenization)メカニズムを導入しました。この機能はAPIリクエストごとのブール値フラグとして提供され、通常の入力には影響を与えず、制御トークンが解釈されるのを防ぎ、チャットテンプレートの構造を維持します。記事では、問題の原因、攻撃の実演、動作原理、およびモデル出力への影響を詳しく説明しています。

  • プロンプトインジェクションは、ユーザー入力内の制御トークン文字列がモデルの制御トークンと同一のバイトストリームを共有し、誤ってエンコードされることによって発生します。
  • Fireworksの安全なトークン化は、モデルロード時に語彙表をスキャンし、リクエスト時にユーザーコンテンツをセグメントごとにエンコードすることで、制御トークン文字列がサブワードに分割され、実際の制御トークンIDとしてエンコードされないようにします。
サイト内本文

DeepSeek V4 Pro:本番環境向けフロンティアモデルの検証

DeepSeek V4 ProがFireworks上で利用可能になりました。初期の推論トレース破損問題によりリリースが遅れましたが、本記事ではその問題、デバッグ、検証プロセスについて詳述します。

  • DeepSeek V4 Proは推論トレース破損バグのためリリースが遅れた。
  • FireworksはSGLang、vLLM、DeepSeekと協力してサーバーパスの問題を修正。
サイト内本文

MoEモデルにおける学習と推論の数値的一致性:数値のずれが生じる箇所

本記事では、混合エキスパート(MoE)モデルにおいて、浮動小数点加算の非結合性に起因する学習時と推論時の数値的不一致について深く分析します。Kimi K2.5とQwen3.5-MoEの実例を通じて、全リデューストポロジの違い、通信と計算の融合、MoEの多操作融合が引き起こす数値のずれを明らかにし、解決策と測定方法を提案します。

  • 浮動小数点加算の非結合性が数値のずれの根本原因です。
  • MoEモデルはルーティングが微小な変化に敏感なため、ずれが増幅されやすいです。
サイト内本文

DeepSeek-V4のトレーニングシステムに関するノート

DeepSeek-V4のトレーニングシステムは、アーキテクチャ、ルーティング、報酬モデリング、推論モード、蒸留、エージェント実行をトレーニングループに統合します。主な革新には、ハイブリッドアテンション(CSA/HCA)、安定性のための先見的ルーティング、同一重みからの3つの推論モード、生成的報酬モデル、全語彙ロジットを使用したオンポリシー蒸留、ランタイムをループに取り込むエージェンティックトレーニングが含まれます。この傾向は、固定レシピがプログラマブルなトレーニングインフラに取って代わられることを示しています。

  • DeepSeek-V4は圧縮スパースアテンションと高圧縮アテンションを交互に使用し、長コンテキストのメモリ階層を実現します。
  • 先見的ルーティングは古いルーター重みを使用してルーティング決定をプリフェッチし、損失スパイクを防止します。
サイト内本文

フロンティアモデル学習のスケーリングと最適化

Fireworks のブログ記事では、トレーニング SDK と最適化(低精度量子化、オプティマイザ状態のオフロード、構成可能な並列化、Blackwell ネイティブ精度、ストリーミングパイプラインパラレリズム)を用いて、数兆パラメータの MoE モデルの学習をスケーリングする方法を詳述しています。LoRA と全パラメータ学習の両方をサポートし、幅広いモデルカタログに対応します。

  • Fireworks のトレーニング SDK は、多様な MoE および dense モデルに対して LoRA と全パラメータ学習をサポート。
  • LoRA 学習では、エキスパート量子化とオプティマイザ状態のオフロードにより、数兆パラメータモデルを単一ノードに適合。
サイト内本文

全ソース