AI News HubLIVE
公開記事 21収集記事 21信頼度 88更新頻度 5 分
稼働状態 正常ソース種別 公式全文利用権限 公式全文最終取り込み 2026-06-23ID together-ai-blog状態 有効

Official source; confirm reuse terms before enabling full body display.

最新公開記事

ParallelKernelBench:最先端LLMはまだ高速マルチGPUカーネルを書けない

ParallelKernelBenchは、LLMが87の実ワークロードに対して高速なマルチGPU CUDAカーネルを書けるかをテストするベンチマークです。最高のモデルでも3分の1未満しか解けず、ベースラインを上回ったのはさらに少ないですが、生成されたカーネルの中には既存の公開実装を凌ぐものもあります。

  • ParallelKernelBench(PKB)は実コードベースから抽出した87のマルチGPUカーネル生成問題で構成される。
  • 最高性能モデル(GPT-5.5)はゼロショット設定で28問を正解し、うち22問がベースラインより高速。
サイト内本文

Kimi K2.7 Code vs Claude Fable 5:ランディングページのコストを94%削減

Kimi K2.7 CodeとClaude Fable 5で12のランディングページを生成しました。Kimiのコストは94%低く、ほぼすべてのページで数ポイント以内のスコアでした。オープンソースモデルは単に安いだけでなく、品質でも競争力があり、その差は急速に縮まっています。

  • Kimi K2.7 CodeはClaude Fable 5と比較してランディングページ生成コストが約94%低い。
  • 品質スコアではKimiとFableの差は小さく、特にデザインインスピレーションMCPを使用した後は顕著。
サイト内本文

エンタープライズAIにおける信頼構築:Together AIがISO 27001:2022認証を取得

Together AIはISO 27001:2022認証を取得し、エンタープライズグレードのAIワークロード向けに情報セキュリティ管理システムを実証しました。既存のSOC 2準拠を補完します。

  • A-LIGNコンプライアンス&セキュリティよりISO 27001:2022認証を取得
  • 認証範囲はグローバルプラットフォーム、本社、サードパーティデータセンター
サイト内本文

MiniMax-M3の効率的な推論サービス:100万トークンコンテキストとマルチモーダルを後悔なく実現

Together AIは、KVブロックメジャースパースアテンション、ページ化MSAデコード、最適化されたインデックススコアリングカーネル、およびRustベースのマルチモーダル前処理ゲートウェイにより、MiniMax M3の効率的なサービスを実現し、同時実行レベル全体で81~125%のスループット向上を達成しました。

  • MiniMax M3は、コーディング、エージェントワークフロー、マルチモーダル推論を統合し、100万トークンのコンテキストウィンドウをサポートします。
  • Together AIの推論およびカーネルチームは、KVブロックメジャースパースアテンションカーネルやページ化アテンション統合などの革新的な最適化を実装しました。
サイト内本文

Together AIが世界最速の音声認識スタックを構築した方法

Together AIは、ASRを単なるGPU推論問題ではなく、システム全体の問題として捉えることで、Artificial Analysisで最速の音声認識スタックを実現しました。本記事では、実際の音声形状に対応したTensorRTマルチプロファイルエンジン、条件付きCUDAグラフによるCPU往復の排除、共有メモリによるデータコピー削減、イベント駆動I/O、そしてgc.freeze()によるGCテールレイテンシの除去など、最適化の詳細を解説します。

  • Together AIはGPU推論だけでなくシステム全体の最適化により最速の音声認識を達成。
  • 主要技術:TensorRTマルチプロファイルエンコーダ、条件付きCUDAグラフ、ゼロコピー共有メモリ、イベント駆動I/O。
サイト内本文

大規模推論ベンチマーク:コーディングエージェント

本番コーディングエージェントワークロードにおいて、Together Inference Engine は同一ハードウェア上で次に高速なOSSエンジンより31%高いTPSを実現し、飽和状態では2倍優れたTTFTを維持します。この改善は、ThunderMLA、カスタムカーネル書き換え、実トラフィックでのエンドツーエンドプロファイリングに基づくフルスタック最適化によるものです。

  • コーディングエージェント向け実世界推論ベンチマーク:TensorRT-LLMより31%高いTPS、飽和時2倍のTTFT、Claude Opus 4.6比76%低コスト。
  • フルスタック最適化:ThunderMLA融合カーネル、カスタムカーネル書き換え、エンドツーエンドプロファイリング。
サイト内本文

Together AIとPearl Research Labsが提携し、AI推論のコストを削減

Together AIはPearl Research Labsと提携し、Pearlネットワークを活用したGemma-4-31B-it-pearl用の割引推論エンドポイントを発表。有用な作業の証明(Proof of Useful Work)を利用して、AIワークロードを暗号資産の排出に変換することでコストを相殺します。

  • Together AIがPearl Research Labsと提携し、割引推論エンドポイントを提供。
  • 有用な作業の証明(Proof of Useful Work)技術により、AI推論と同時に暗号通貨をマイニング。
サイト内本文

Violin:言語の壁を破るオープンソースの動画翻訳スキル

Violinは、音声認識、大規模言語モデル翻訳、音声合成を組み合わせた完全オープンソースのAI動画翻訳ツールです。ウェブアプリ、CLI、エージェントスキルを提供し、動画コンテンツに関する質問応答やパーソナライズされた音声選択が可能です。Together APIを基盤とし、Whisper、DeepSeek、Cartesiaなどのモデルを利用し、MITライセンスで公開されています。

  • ViolinはASR、LLM翻訳、TTSを統合したオープンソースの動画翻訳ツール。
  • ウェブアプリ、CLI、エージェントスキルをサポート。
サイト内本文

ボイスファインダー — 600以上のボイスからアプリに最適な声を素早く見つける新ツール

ボイスファインダーは、自然言語プロンプトやアップロードした音声サンプルを使用して、Together AIのTTSモデルが提供する600以上のボイスを検索、マッチ、フィルタリング、試聴できるツールです。

  • 600以上のボイスを検索・フィルタリング・試聴可能
  • テキスト説明や音声サンプルで類似ボイスを検索
サイト内本文

HuggingFaceからあらゆるモデルをデプロイして推論する

GooseとTogetherの専用コンテナ推論を使って、1つのセッションで任意のHuggingFaceモデルをデプロイする方法を学びます。複雑なセットアップをスキップし、1つのプロンプトでモデルをリリース日に本番環境で実行できます。

  • GooseとTogetherの専用コンテナ推論により、リリース日にゼロ遅延でモデルをデプロイ可能。
  • 著者はNetflixのvoid-modelを公開日に1つのセッションでデプロイ。
サイト内本文

DeepSeek-V4の提供:なぜ100万トークンコンテキストが推論システムの問題なのか

DeepSeek-V4はハイブリッドアテンション設計(CSA、HCA、SWA)によりKVキャッシュを圧縮し、100万トークンコンテキストをモデルの課題から推論システムの課題へと変えました。Together AIのNVIDIA HGX B200における初期導入経験は、キャッシュポリシー、プレフィックスキャッシング、エンドポイント設定が長コンテキストワークロードのパフォーマンスにどのように影響するかを示しています。

  • DeepSeek-V4の圧縮スパースアテンション(CSA)と強圧縮アテンション(HCA)はKVキャッシュサイズを削減するが、推論エンジンは複数のキャッシュレイアウトを管理する必要がある。
  • スライディングウィンドウアテンション(SWA)は長コンテキストでボトルネックとなり、慎重なストレージ戦略が必要。
サイト内本文

大規模推論を効率化する基礎研究

AIが研究から生産へ移行するにつれ、AIネイティブチームの課題はモデル構築から、効率的で信頼性が高く大規模なモデル運用へとシフトしています。推論コストは生産AIシステムの総ライフタイムコストの80~90%を占めます。Together AIはFlashAttention-4やATLASなどの研究と、フルスタックのハードウェア最適化、インテリジェントなスケジューリングにより、効率的な推論を実現し、顧客のユニットエコノミクスを改善します。

  • 推論コストはAIシステム経済の大部分を占め、総ライフタイムコストの80~90%に達する。
  • Together AIがFlashAttention-4(cuDNN比最大1.3倍高速)とATLAS(適応型投機的復号により推論を4倍高速化)を発表。
サイト内本文

Together AIとAdaptionのパートナーシップを発表

Together AIとAdaptionは、Together Fine-TuningをAdaptive Dataにネイティブ統合する提携を発表。チームはデータセットの最適化、ファインチューニング、評価、デプロイを効率的に行えるようになります。

  • Together AIがAdaptionと提携し、ファインチューニングをAdaptive Dataに統合。
  • データ最適化からモデルデプロイまでのワークフローを簡素化。
サイト内本文

732バイトから無へ:Copy Failの本番環境でのシャットダウン

Together AIは、Linuxカーネルの脆弱性Copy Fail(CVE-2026-31431)への迅速な対応を詳述しています。この脆弱性は、ローカルの特権のないユーザーがAF_ALGインターフェースを介して正確な4バイト書き込みプリミティブを可能にし、権限昇格を引き起こします。チームは脆弱なカーネルモジュールをアンロードし、パッチを適用し、検出を強化することでAIインフラストラクチャの安全を確保しました。

  • Copy Fail(CVE-2026-31431)はLinuxカーネルの暗号サブシステムの論理バグで、読み取り可能なファイルのページキャッシュに4バイトの書き込みを可能にします。
  • Together AIはalgif_aeadモジュールをアンロードし、ファイルを数時間以内に削除して、再起動なしでエクスプロイトを阻止しました。
サイト内本文

DeepSeek-V4 Pro が Together AI で利用可能に

1.6兆パラメータのMoE推論モデルDeepSeek-V4 ProがTogether AIで利用可能になりました。512Kコンテキストウィンドウ、制御可能な推論モード、キャッシュ入力価格設定を備え、コードエージェント、ドキュメントインテリジェンス、研究合成などの長文脈推論ワークロードに最適です。

  • 1.6TパラメータMoE、アクティブパラメータ49B、Together AI上で512Kコンテキスト(モデルは1M対応)
  • 3つの推論モード:Non-Think、Think High、Think Maxでタスクの難易度に応じて推論の深さを選択可能
サイト内本文

Together AI が NVIDIA Nemotron 3 Nano Omni を Day 0 で開発者に提供

NVIDIA Nemotron 3 Nano Omni が Together AI プラットフォームで利用可能になりました。動画、画像、音声、テキストを横断して推論する単一のオープンモデルで、大規模なエージェント向けワークロード向けに設計されています。Together AI は研究最適化、マネージドインフラ、セキュアなAPIにより、このモデルを展開する最速のパスを提供します。

  • Nemotron 3 Nano Omni は Mamba-Transformer MoE アーキテクチャを採用し、トークンあたり約 30 億パラメータのみを活性化するマルチモーダルモデルです。
  • 一緒にAI の FlashAttention-4 などの研究最適化により、効率的な推論と低レイテンシを実現します。
サイト内本文

分散認識型投機的復号でRLロールアウトを最大50%高速化

ロールアウトはRLポストトレーニングにおける隠れたボトルネックです。DASは適応型投機的復号でこれを解決し、最大50%高速化、報酬品質の低下はゼロです。

  • DASは報酬品質を損なうことなくRLロールアウト時間を最大50%削減します。
  • 適応型サフィックスツリードラフターを使用し、ロールアウト履歴から自己進化します。
サイト内本文

競合のない容量:AIネイティブチームのためのマルチテナントGPUクラスタ設計ガイド

マルチテナントGPUクラスタにより、AIネイティブ企業はチーム間でコンピューティング容量を共有しつつ、分離性と制御を維持できます。このガイドでは、コア設計原則、一般的な障害モード、およびTogether AIが実際にマルチテナンシーを実装する方法について説明します。

  • マルチテナントGPUクラスタは容量をプールしながら、各チームに専用ノード、ストレージ、セルフサービススケジューリングを提供します。
  • 3つのコア要件:プールされた容量、テナント分離、セルフサービスアクセス。
サイト内本文

Parcae: 安定したループ型モデルでより少ないパラメータで多くの成果を

Parcaeは安定したループ型言語モデルで、2倍のサイズのTransformerと同等の品質を達成——770Mモデルが1.3Bレベルの性能を発揮。ループに関する初のスケーリング則を導入し、データだけでなく再帰の増加が計算効率の良い性能向上経路であることを示す。

  • Parcaeは安定したループ型アーキテクチャで、訓練が安定し予測可能。
  • 770MパラメータのParcaeモデルは1.3B Transformerと同等の性能をパラメータ半分で実現。
サイト内本文

EinsteinArena:野外エージェントの集合知を活用して科学を前進させる

EinsteinArenaは、AIエージェントがオープンな数学問題に協力・競争するプラットフォームです。エージェントはすでに11件の新たなSOTAを達成し、11次元のキス数下限を593から604に押し上げました。

  • AIエージェントがEinsteinArena上で協力し、未解決数学問題に挑む。
  • 11次元キス数問題で下限を593から604に改善するなどの成果。
サイト内本文

AIネイティブクラウドとは?

AIネイティブクラウドは、製品がモデルであるAIネイティブ企業向けに特別に設計されたクラウドインフラストラクチャです。従来のクラウドの欠点に対処し、5つの主要な特性を備えています:フルAIスタック統合、研究から本番への迅速なパイプライン、大規模な信頼性、ビルダー中心の設計、AIネイティブな速度でのパートナーシップ。Together AIはそのようなクラウドを構築しています。

  • AIネイティブ企業は、モデル中心のワークフロー向けに構築されたインフラを必要としています。
  • CPUワークロード向けに最適化された従来のクラウドでは、AIのGPU集約型で急速に反復するニーズに対応できません。
サイト内本文

全ソース