AI News HubLIVE
公開記事 18収集記事 27信頼度 82更新頻度 120 分
稼働状態 正常ソース種別 公式全文利用権限 公式全文最終取り込み 2026-06-25ID baseten-blog状態 有効

Official AI inference and deployment platform blog; confirm reuse terms before full body display.

最新公開記事

AIトレーニングと推論:その違いは?

AIトレーニングはモデルがデータから学習するプロセスであり、推論は学習済みモデルが本番環境でリクエストに応答することです。本記事では、ハードウェア、コスト、最適化における主要な違いを詳しく説明し、モデルのライフサイクル(事前学習からサービス提供まで)や推論性能を測る4つの指標についても紹介します。

  • トレーニングはモデルが大量データから学習し重みを調整するプロセスで、多くの計算リソースを要します。
  • 推論は学習済みモデルが新しい入力に対して出力を生成するプロセスで、ユーザーリクエストのたびに発生します。
サイト内本文

任意のハーネスでGLM-5.2を実行する方法

GLM-5.2は今年のDeepSeekモーメントであり、クローズドソースモデルと同等の品質でありながら、4.5倍高速、5倍低コストです。この記事では、Claude Code、Codex、Deep Agents CLIでGLM-5.2を5分以内にセットアップする手順を詳しく説明します。

  • GLM-5.2はOpus 4.8などのクローズドモデルを代替できる高性能オープンソースモデル
  • Claude Codeでは環境変数を編集してGLM-5.2を使用
サイト内本文

NVIDIA BioNeMo Agent Toolkit が Baseten で利用可能に

NVIDIA BioNeMo Agent Toolkit は、汎用 AI エージェントを生物学や医薬品発見の実際のタスクを実行できる科学エージェントに変えるものです。このツールキットは、BioNeMo Skills、オープンモデル、NVIDIA NIM マイクロサービス、およびエージェントインフラストラクチャを組み合わせ、タンパク質構造予測、タンパク質設計、バーチャルスクリーニング、ゲノミクス解析、ターゲット発見などのワークフローを可能にします。すべての BioNeMo NIM マイクロサービスは Baseten モデルライブラリで利用可能であり、開発者は科学 AI アプリケーションを容易にデプロイおよびスケールできます。

  • NVIDIA BioNeMo Agent Toolkit は、汎用 AI エージェントを生物学および創薬のための科学エージェントに変換します。
  • BioNeMo Skills、オープンモデル、NVIDIA NIM マイクロサービス、エージェントオーケストレーションインフラを統合。
サイト内本文

最高のオープンソース大規模言語モデル(LLM)

DeepSeek V4 Pro、Gemma 4、GLM 5.1、GPT OSS 120B、Kimi K2.6、MiniMax M3、Nemotron 3 Ultra、Qwen 3.6 の8つのトップオープンソースLLMを比較。エージェントコーディング、長文脈推論、コスト、速度に最適なモデルを見つけます。

  • Kimi K2.6 は最もバランスが良く、Qwen 3.6 と GLM 5.1 はエージェントコーディングでリード。DeepSeek と Nemotron は長文脈・エンタープライズワークロードで強み。GPT OSS 120B はコストと速度で優れる。
  • DeepSeek V4 Pro は 100万トークンのコンテキストウィンドウを持ち、CSA と HCA により KV キャッシュメモリを標準モデルの約2%に削減。
サイト内本文

ダウンタイムなしのモデル更新を実現するローリングデプロイ

Baseten がローリングデプロイを発表。チームは GPU コストを倍増させたりダウンタイムを発生させることなく、段階的にモデルバージョンを更新できる。レプリカを1つずつ置き換え、トラフィックを徐々に移行。一時停止、再開、ロールバックも可能。顧客はデプロイ頻度が50~60%向上し、オフピーク時の手動監視が不要になった。

  • ローリングデプロイはレプリカを段階的に置き換え、ブルーグリーンの2倍GPUコストやハードカットオーバーのオール・オア・ナッシングリスクを回避。
  • max_surge(新レプリカ優先拡大)と max_unavailable(旧レプリカ優先縮小)の2モードを提供。
サイト内本文

初の推論拡散LLM「Mercury 2」がBasetenで利用可能に

Inceptionが開発したMercury 2は、拡散アーキテクチャを採用した最速の推論LLMです。従来の自己回帰モデルとは異なり、並列処理により標準NVIDIA GPU上で毎秒1000トークン以上の生成速度を実現。速度は同等クラスのモデルより5〜10倍高速で、コストは半分以下、品質はHaikuやGPT-5 miniに匹敵します。Augment Codeは本番環境で使用し、コストを90%、レイテンシを82%削減しました。Basetenがエンタープライズ級の推論プラットフォームを提供します。

  • Mercury 2は初の推論拡散LLMで、出力全体を並行生成し徐々に洗練することで、自己回帰モデルの逐次生成のボトルネックを解消。
  • 標準NVIDIA GPU上で毎秒1000トークン以上、専用チップ不要で、最適化済みモデルの5〜10倍の速度。
サイト内本文

NVIDIA Nemotron 3 Ultra のご紹介:Nemotron 3.x ファミリーが登場!

Nemotron 3 Ultra は、長時間実行されるエージェント向けに設計されたハイブリッドMamba-Transformerモデルです。ほとんどのアテンションをMamba層に置き換えることで、最大5倍の推論速度向上と30%のコスト削減を実現。完全にオープンであり、エージェントが遅くなることなく長いタスクを効率的に完了できます。

  • Nemotron 3 Ultra は、主にMamba層を使用したハイブリッドアーキテクチャを採用し、コンテキストが増加しても一定の推論速度を維持します。
  • 長時間実行されるエージェントワークフローにおいて、オープンフロンティアモデルと比較して最大5倍の推論速度向上と30%のコスト削減を実現。
サイト内本文

MAI-Thinking-1 が Baseten に登場

Baseten とマイクロソフト AI は、MAI-Thinking-1 が Baseten で利用可能になることを発表しました。このモデルは、オープンソースの柔軟性とクローズドモデルの管理の利便性を組み合わせ、クリーンなデータ系列、商用グレードの品質、カスタマイズオプションを提供します。

  • MAI-Thinking-1 は、オープンソースとプロプライエタリモデルの間を埋めるマイクロソフト AI の新推論モデルです。
  • 第三者モデルからの蒸留なしで厳選されたデータでトレーニングされ、クリーンなデータ系列を実現。
サイト内本文

Nvidia Cosmos 3:ロボットがついに主役に

Nvidiaが発表したCosmos 3は、物理世界の動作を理解し、ロボットや自律システムの開発を支援するために設計された基盤モデルです。従来の動画生成モデルとは異なり、物体の挙動や因果関係を学習し、テキスト、画像、動画、音声、アクションを統合的に扱います。ロボットの直接制御や、訓練データ生成のためのデータ工場として利用でき、ロボット訓練のコストを大幅に削減します。

  • Cosmos 3は物理世界の理解に特化した世界基盤モデルです。
  • テキスト、画像、動画、アクションの6つのモードをサポートします。
サイト内本文

継続学習時代の推論を支える

BasetenとTrajectoryは、本番トレースからモデルを継続的に更新するための本番グレードの推論パイプラインを構築しました。トレーニングからデプロイまでの時間を約1時間に短縮し、使用とともに改善されるモデルを実現します。

  • 継続学習により、モデルは静的なリリースではなく本番での使用から継続的に改善されます。
  • BasetenとTrajectoryは、LoRAアダプターのマージ、検証、A/Bルーティングとプロビナンス追跡を備えたパイプラインを開発。
サイト内本文

オープンソースAIモデル入門ガイド

オープンソースAIモデルの基本概念、動作原理、使用シーンを解説。オープンウェイトモデルの微調整や独自デプロイの利点、クローズドソースモデルとの比較、コスト削減効果、将来の展望について包括的に紹介します。

  • オープンソースモデルは主にオープンウェイトモデルを指し、微調整や自己ホスティングが可能。
  • クローズドソースモデルと比較して平均87%のコスト削減を実現。
サイト内本文

Flux.2 と Qwen-Image によるサブ秒画像生成

Baseten は、量子化、最適化されたアテンションカーネル、ランタイム改善により、NVIDIA Blackwell GPU 上で Flux.2 [dev] を 2.3 倍、Qwen-Image を 1.6 倍高速化し、Hopper GPU でも大幅な高速化を達成しました。

  • Baseten は B200 GPU 上で Flux.2 [dev] を FP4 量子化により 0.98 秒のサブ秒レイテンシを実現。
  • 最適化には FP4/FP8 量子化、効率的なアテンションカーネル、メモリ最適化が含まれ、CPU オフロードを不要に。
サイト内本文

カスタムEAGLE-3ヘッドを投機的デコード用に訓練する方法

投機的デコード用のカスタムEAGLE-3ドラフトヘッドの訓練に関する包括的なガイド。出力品質を犠牲にすることなく、LLM推論のレイテンシを1.5~2.5倍改善します。データセット準備、ハイパーパラメータ調整、トレーニングワークフロー、評価、デプロイメントをカバーします。

  • EAGLE-3は、軽量なドラフトヘッドを使用して複数の将来トークンを予測し、ターゲットモデルが一度のフォワードパスで検証する投機的デコード手法です。
  • トレーニングでは、トークン分布を一致させるためにターゲットモデルで出力を再生成する必要があります。データセットの品質が重要です。
サイト内本文

ハーネスがすべてだ。最適化する方法はこちら。

AIハーネスを最適化するための3つの汎用パターンを紹介:.mdファイルを簡潔に保ち人手で書くこと、R.P.I.(調査・計画・実装)フレームワークでプロンプトを構造化すること、サブエージェント(並列ファンアウトとパイプライン)を使ってコンテキストをクリーンに保つこと。モデルだけでなくハーネスこそがエンジニアリング判断の差を生むと強調し、頻繁に切り替えるのではなく一つのハーネスにコミットして反復改善することを勧めている。

  • .mdファイルは簡潔に保ち、人手で書く。LLM生成のシステムプロンプトはパフォーマンスを低下させコストを増加させる。
  • CLI、スキル、MCPツールにはプログレッシブ・ディスクロージャーを適用し、コンテキストオーバーヘッドを削減する。
サイト内本文

NVIDIA Nemotron 3 Nano Omni:Baseten上でマルチモーダルエージェントを構築する

NVIDIA Nemotron 3 Nano Omni は、オーディオ、画像、ビデオ、テキストを単一のコンテキストに統合するオープンなマルチモーダル基盤モデルです。Nemotron 3 Nano バックボーンを基盤に、エージェントワークフロー内のサブエージェントを高い効率と精度で駆動します。Basetenはこのモデルを初日からサポートし、高性能推論、マルチクラウドキャパシティ管理、エンタープライズセキュリティを提供します。

  • Nemotron 3 Nano Omni はオープンな統一マルチモーダルモデルで、音声、画像、動画、テキストを統合。
  • 潜在MoE、3D畳み込み層、効率的なビデオサンプリングにより効率性を向上。
サイト内本文

Baseten Frontier Gateway の発表:AI ラボ向け本番グレード推論APIゲートウェイ

Baseten は Frontier Gateway を発表。これは Baseten Dedicated Inference 上に構築されたマネージド API ゲートウェイで、AI ラボが独自ドメインでモデルを提供できるようにする。自前構築やサードパーティ製ゲートウェイの必要がなく、エンジニアリング負荷を軽減しパフォーマンスを向上させる。

  • Frontier Gateway は Baseten 推論基盤上のマルチテナント API ゲートウェイで、認証、レート制限、課金、ホワイトレーベルをサポート。
  • 自社構築の複雑さやサードパーティのレイテンシ問題を解消し、推論と同一ロケーションで動作。
サイト内本文

DFlash:LLM推論を3倍高速化

DFlashはブロック拡散を用いた投機的デコーディング手法で、並列トークン予測によりEAGLEの約2倍の速度向上限界を打破します。Basetenの実装ではQwen3-8Bで約3倍の高速化を達成し、vLLMより10~30%高速です。

  • DFlashは双方向アテンションで1フォワードパスに8~16トークンを並列予測し、EAGLEの自己回帰ボトルネックを克服。
  • BasetenのDFlash実装はQwen3-8B上でGSM8k、MATH-500、Nemotronデータセットで約3倍の高速化。
サイト内本文

Qwen3-TTSによる低コスト・高性能テキスト読み上げ

BasetenはvLLM-Omniを使ってQwen3-TTSを最適化し、100万文字あたり3~4ドルのコストを実現。クローズドソースの代替品と比較して90%低コストで、高い音声忠実度を維持します。分離型音響トークン生成・復号、CUDAグラフ、話者埋め込みキャッシュ、動的フレーム蓄積、単語タイムスタンプなどの最適化技法を詳述します。

  • 最適化後のQwen3-TTSは100万文字あたり3~4ドルで、クローズドソース比90%のコスト削減。
  • 主要な最適化:分離型アーキテクチャ、CUDAグラフ、話者埋め込みキャッシュ、動的フレーム蓄積。
サイト内本文

全ソース