推論コスト AI News

推論コストの最新ニュース

OS -> プロッド調査

2026-07-15 03:53 UTC+9

オープンソースAIは、クローズドモデルとの能力格差を縮め、推論コストは36か月で50倍低下し、オープンウェイトがAPIトラフィックの過半数を占めるに至った。開発者の79%がオープンモデルを採用する一方、本番展開に成功するのは51%にとどまる。オープンは、単なるコスト選択ではなく、主権選択として世界中で推進されている。

オープンソースAIとトップクローズドモデルの能力格差は3.3%に縮小、コーディングでは同等。
GPT-4クラスの推論コストは36か月で1Mトークンあたり20ドルから0.40ドルへ50倍低下。

本番環境でのLLMレイテンシと推論コストを削減する12の方法

2026-07-14 21:00 UTC+9

LLMのスケーリングはGPUを追加することではなく、各リクエストから無駄な処理を取り除くことです。この記事では、レイテンシとコストを削減する12の実践的な方法を紹介します。

キュー時間、TTFT、トークン間レイテンシ、キャッシュヒット率を測定する。
出力トークンを削減するために、現実的なmax_tokens制限を設定し、簡潔な回答を求める。

LangChainとNVIDIA、NemoClaw Deep Agents Blueprintを発表

2026-07-09 00:04 UTC+9

LangChainとNVIDIAが協業し、LangChain Deep Agents Code、NVIDIA Nemotron 3 Ultra、OpenShellを組み合わせた、オープンでガバナンスが効くエンタープライズエージェント向けブループリント「NemoClaw」を発表。評価では、リーディングパフォーマンスを約10分の1の推論コストで実現。

NemoClawブループリントは、LangChainのエージェントフレームワーク、NVIDIAのオープンモデルNemotron 3 Ultra、セキュアなランタイムOpenShellを統合。
LangChainのエージェント評価スイートでスコア0.86、コスト4.48ドルを達成。競合モデルの43.48ドルに対し、推論コストを約10分の1に削減。

NVIDIA Nemotron、LangChain Deep Agents Harnessでベンチマーク首位を達成

2026-07-09 00:00 UTC+9

NVIDIA Nemotron 3 Ultraは、最も広く採用されているAIエージェントオーケストレーションプラットフォームにおいて、トップクローズドモデルよりも低コストでリーディングパフォーマンスを提供。LangChainがNemotron 3 Ultra向けにDeep Agentsハーネスをチューニングした結果、オープンモデルで最高の精度を達成し、より多くのタスクを高いスループットで完了、実行あたりの推論コストは主要クローズドモデルの10分の1に抑えられました。

LangChainがNVIDIA Nemotron 3 Ultra向けにチューニングしたDeep Agentsハーネスは、オープンモデルで最高精度を達成。推論コストはクローズドモデルの10分の1。
パフォーマンス向上は全てモデル周辺環境のエンジニアリングによるもので、モデルの再トレーニングは不要。

AIはバーゲンハンターの市場になりつつあり、一部の高級モデルが頂点に

2026-07-08 16:47 UTC+9

AI推論コストが二極化：コモディティモデルは価格低下、フロンティアモデルは高騰。企業のAI支出は労働コストの10～20%に達するが、効率の転換点が存在。オープンウェイトモデルはフロンティアに迫る性能で大幅に低コスト。

GPT-4クラスの推論コストは4年で55分の1に低下、フロンティアモデルは逆に上昇。
市場はコモディティ推論とフロンティア推論に分裂、企業支出は労働コストの10～20%。

オープンで便利、予測可能：Provisioned Throughputのご紹介

2026-07-08 09:00 UTC+9

Together AIは、MiniMax M3やGLM-5.2などのフロンティアオープンモデル向けに、トークンベースの料金設定と99%のアップタイムSLAを備えた予約推論容量「Provisioned Throughput」を発表。専有APIと比較して最大90%のコスト削減を実現します。

予約推論容量を提供し、GPU時間の計算やインフラ管理は不要。
トークンベースの料金設定で、1 PTUあたり1分間0.05ドル。

熱力学AIモデルのスケーリング

2026-07-02 13:00 UTC+9

イジングモデルに基づく熱力学計算デバイスは、低消費電力AI推論とエッジコンピューティングに大きな可能性を示していますが、大規模モデルのトレーニング方法は限られています。本研究は、高温ギブスサンプリングされたイジングシステムの時間平均挙動とニューラルネットワーク推論の理論的対応関係を、イジングマシンハードウェア上での熱力学推論用の深層畳み込みネットワークをトレーニングするためのスケーラブルな逆伝播アルゴリズムに変換します。CIFAR-10で94.9%、CIFAR-100で76.0%の精度を達成しました。さらに、推論コストと精度のトレードオフに関する数学的理論を開発し、最適な推論スケジュールを計算するアルゴリズムを示します。最後に、ハードウェア開発と高温熱力学AIモデルの未来への影響を議論します。

イジングマシンハードウェア上の深層畳み込みネットワークのためのスケーラブルな逆伝播アルゴリズムを提案。
CIFAR-10で94.9%、CIFAR-100で76.0%の精度を達成。

インシデントレポート：CVE-2026-LGTM

2026-06-27 02:58 UTC+9

アンドリュー・ネスビットによる仮想的なインシデントレポート。競合ベンダーの2つのAIレビューエージェントがパッケージの悪意性をめぐって意見の相違ループに陥り、莫大な推論コストとプレスリリースを引き起こす様子を描く。

2つのAIレビューエージェントがソフトウェアパッケージの評価をめぐり無限の議論ループに陥る。
議論により340件のコメントと41,255ドルの推論コストが発生。

Solビデオ推論エンジン：効率的なビデオ生成のためのエージェントネイティブフルスタック高速化フレームワーク

2026-06-24 13:00 UTC+9

現代のビデオ拡散モデルはスケーリングにより生成品質を向上させるが、推論コストが増大する。Solビデオ推論エンジンは、トレーニング不要のエージェント型高速化フレームワークであり、キャッシュ、スパースアテンション、トークンプルーニング、量子化、カーネル融合の5つの技術を組み合わせる。3つの異なる規模のビデオモデルで検証し、2倍以上のエンドツーエンド高速化を達成し、VBench品質をほぼ維持した。

ビデオ拡散モデルの推論高速化は、モデル、ハードウェア、構成ごとに最適な戦略が異なるという課題がある。
Solエンジンはエージェントアーキテクチャを採用し、5種類の高速化技術を並列最適化し、統合器で全体スタックを構成する。

拡散言語モデルのための共有プレフィックスのKVキャッシングの実現

2026-06-09 13:00 UTC+9

拡散言語モデル（DLM）では双方向注意機構により既存のKVキャッシュ手法が機能せず、精度がほぼゼロになる。本論文は双方向プレフィックスキャッシュ（bicache）を提案し、安全なレイヤー深さを動的に特定して共有プレフィックスKVを再利用することで、スループットを36.3%～98.3%向上させ、精度低下はわずか0～1.8%に抑える。

既存のLLM用プレフィックスキャッシュはDLMの双方向注意機構により共有プレフィックスKVを破壊し、精度が崩壊する。
Bicacheは浅いレイヤーで共有プレフィックスKVが安定していることを発見し、リクエスト内の共有トークン割合に応じて安全な深さを動的に決定する。

Mate SecurityのAsaf Wienerは、すべてのバックエンドエンジニアをモデルルーターにしました。彼は正しい。

2026-06-05 00:23 UTC+9

Mate SecurityのCEOであるAsaf Wienerは、AI推論コストの高騰に直面し、単なるコスト削減ではなく、すべてのバックエンドエンジニアが自身のワークロードのモデル選択、評価、ルーティングを担当するように会社を再構築しました。ワークロードレベルでのコスト可視化により、品質とコストの最適化が可能となり、特定のタスクではオープンソースモデルがフロンティアAPIを凌駕することもあります。Wienerは、AIネイティブ企業の唯一の構造的優位性は、その日に利用可能な最良のモデルに対して出荷することであり、それを可能にするのは、法的ポリシーのレビューサイクルを回避し、適応性を重視する「実行モード」の文化であると主張しています。

WienerはAI推論コストを約10のサブラインに分解し、機能ごとのトークンコストを出荷前に見積もるようにした。
Mateのバックエンドエンジニアは全員、自身のワークロードの評価を実行し、品質とコストに基づいてモデルを選択し、継続的に更新する。

DAStatFormer：統計的特徴統合を備えたハイブリッドマルチブランチTransformerによるDASベースのパターン認識

2026-06-02 13:00 UTC+9

本論文では、DAStatFormerを提案する。これは、マルチドメイン統計的特徴を抽出し、ゲート付き注意機構で融合するハイブリッドマルチブランチTransformerであり、DASイベント分類において99.4%の精度を達成し、パラメータ数と推論コストを大幅に削減する。

ANOVAで選択された24の統計的特徴を各チャネルから抽出し、データ次元を削減。
ステップ単位およびチャネル単位の注意ブランチを適応的ゲーティングで融合。

AIハードウェア市場分析：メモリボトルネックと各層のソリューション

2026-05-31 08:18 UTC+9

本記事では、AIハードウェア市場におけるメモリボトルネックの問題を深く掘り下げる。GPUのテンソル演算速度はメモリ帯域幅をはるかに上回り、デコードフェーズではほとんどの演算ユニットがアイドル状態になる。チップ層（Groq、Cerebrasなど）、推論エンジン層（RadixArk、Inferact）、KVキャッシュ基盤（TensorMesh/LMCache）、パッケージング・相互接続層（CoWoS）など、各層の異なるアプローチを分析し、持続可能な企業はスタック内の他の部分に内部化できないコントロールポイントを掌握する必要があると指摘する。

現代のGPUはLLM推論においてメモリ帯域幅がボトルネックとなり、演算ユニットが遊休状態になる
各企業はチップ、エンジン、キャッシュ、パッケージングなど様々なレベルでメモリ問題に取り組む

GEM-4D：ロボット操作のための幾何学的強化ビデオワールドモデル

2026-05-25 13:00 UTC+9

GEM-4Dは、高密度な4D対応関係の監視を注入することでロボット操作を向上させる幾何学的に基づいたビデオワールドモデルです。事前学習済みの幾何学基盤モデルから蒸留されたこの監視により、追加の推論コストなしで外観と幾何学的構造を同時に捉えます。逆動力学モジュールにより、一貫性のあるビデオ展開を実行可能なロボット軌道に変換します。GEM-4Dはビデオ予測と幾何学的整合性で最先端の性能を達成し、実世界の操作成功率を61%から81%に向上させます。

GEM-4Dは高密度4D対応監視によりビデオワールドモデルの幾何学的整合性を強化。
追加推論コストなしで単一ストリームアーキテクチャを維持。

Tensor Cache: トランスフォーマー向け排除条件付き連想メモリ

2026-05-25 13:00 UTC+9

Tensor Cacheは、スライディングウィンドウソフトマックスアテンション（L1）と、ウィンドウから排除されたKVペアで満たされる固定サイズの外積高速重みメモリ（L2）を組み合わせた2レベルキャッシュです。最小限のメモリオーバーヘッドでウィンドウ外の長いコンテキストへのアクセスを可能にし、メモリと品質のフロンティアを改善します。

Tensor Cacheを提案。正確なローカルアテンションと圧縮連想メモリを組み合わせた2レベルキャッシュ。
L2は外積高速重みメモリを使用し、スライディングウィンドウから排除されたKVペアのみを入力とする。

潜在キャッシュフロー：テキスト不要のモデル間通信

2026-05-25 13:00 UTC+9

潜在キャッシュフロー（LCF）は、キーとバリューを共同で翻訳・圧縮し、アダプタサイズをCache-to-Cache（C2C）の4%に削減。異なるコンテキストにも対応可能。実験では、共有コンテキストで13MBのLCFアダプタが956MBのC2Cより高精度、異なるコンテキストではテキストベース通信より23%高精度で8.5倍高速。

LCFはキーとバリューを共同翻訳・圧縮し、アダプタサイズをC2Cの4%に削減。
アダプタは新情報の要約を送信し、異なるコンテキストでの通信を可能に。

UCCI：費用最適なLLMカスケードルーティングのための校正された不確実性

2026-05-20 13:00 UTC+9

UCCIは、アイソトニック回帰を用いてトークンレベルのマージン不確実性をクエリごとの誤差確率にマッピングし、制約付きコスト最小化によってエスカレーションしきい値を選択する校正優先ルーターです。NER本番ワークロードにおいて、UCCIはmicro-F1=0.91で推論コストを31%削減し、ECEを0.12から0.03に低減します。

UCCIはアイソトニック回帰で不確実性を校正し、ワークロードごとのしきい値調整が不要。
75,000件のNERクエリの本番環境で、コストを31%削減しつつ高パフォーマンスを維持。

マルチモーダル言語モデルにはいくつの視覚トークンが必要か？F^3Aによる視覚トークンプルーニングのスケーリング

2026-05-19 13:00 UTC+9

視覚言語モデルは、言語バックボーンにますます長い視覚トークンシーケンスを入力することで知覚を改善しますが、その結果生じる推論コストは基本的なスケーリング問題を提起します：マルチモーダルモデルが成長するにつれて、実際に必要な視覚トークンの数はいくつか、固定予算の下でどのように割り当てるべきか？既存のトレーニング不要のプルーニング手法は、デコーダ注意、視覚的類似性、条件付き多様性などのワンショットプロキシでこれに答えることが多い。著者らは、視覚トークンプルーニングはタスク条件付き証拠探索として捉えるべきだと主張し、特に積極的な圧縮とモデルスケール全体で考慮する。彼らはF^3Aを提案する。これは言語モデルが画像トークンを消費する前に動作するトレーニング不要のルーターである。F^3Aは軽量な質問条件付きキューを構築し、凍結されたスパースセンシングヘッドを介して視覚グリッドトークンとマッチングし、粗い証拠の位置特定、局所的な洗練、カバレッジ保存競争、未カバー領域の回復を通じて固定の視覚トークン予算を割り当てる。モデルトレーニングや追加のLLMフォワードパスは不要で、元のマルチモーダルプロンプトとデコードパイプラインを保持する。

マルチモーダル言語モデルは長い視覚トークンシーケンスを使用し、推論コストが課題となる。
既存のトレーニング不要プルーニング手法はワンショットプロキシを使用し効果が限定的。

TTE-Flash: 思考-そして-埋め込みトークンによる推論ベースのマルチモーダル表現の高速化

2026-05-19 13:00 UTC+9

最近の研究では、ユニバーサルマルチモーダル埋め込み（UME）がチェーン・オブ・ソート（CoT）推論から大きな利益を得ることが示されていますが、明示的なCoTトレースの生成は計算コストが高くなります。本論文では、明示的なCoTを潜在的な思考トークンに置き換えることを提案します。これらのトークンは潜在変数として解釈され、観測変数として明示的なCoTトレースを生成できます。CoT生成損失で思考トークンを最適化し、コントラスト損失で埋め込みトークンを最適化することで、一定の推論コストで高性能な推論認識表現を実現します。導入されたTTE-Flash-2Bモデルは、MMEB-v2ベンチマークで明示的なCoTモデルを上回り、思考トークンはテキストおよび視覚的に解釈可能です。15のビデオデータセットでのゼロショット評価では、思考トークン数の増加に伴うスケーリング動作が示され、タスク要件に基づく適応的な思考予算配分のパイロット研究が動機付けられました。

明示的なCoT推論を潜在的な思考トークンに置き換え、計算コストを削減
TTE-Flash-2BはMMEB-v2ベンチマークで明示的CoTモデルを凌駕

EpiCache: リソース制約環境での長期対話のためのエピソード的KVキャッシュ管理

2026-05-19 09:00 UTC+9

最新の大規模言語モデル（LLM）は数百万トークンのコンテキストを処理できるようになったが、Key-Value（KV）キャッシュは対話履歴に比例して線形に増加し、メモリがデバイス制限を超える原因となる。既存の圧縮手法はコンテキスト全体を処理した後にキャッシュ退避を行うため、ピークメモリ使用量が制御不能になり、クエリ依存の退避はキャッシュセマンティクスを単一クエリに絞り込み、マルチターン対話で失敗する。本稿では、固定メモリ予算下での長期対話型質問応答（LongConvQA）のための、学習不要のKVキャッシュ管理フレームワークEpiCacheを提案する。EpiCacheはブロック単位のプリフィルによりキャッシュ成長を制限し、エピソード的KV圧縮によりトピック関連コンテキストを保持する。3つのベンチマークで、EpiCacheは最大30%の精度向上、4-6倍圧縮下でフルキャッシュに近い精度を達成し、レイテンシとピークメモリをそれぞれ最大2.4倍、3.7倍削減した。

EpiCacheは固定メモリ予算下での長期対話QAのための学習不要のKVキャッシュ管理フレームワーク。
ブロック単位のプリフィルとエピソード的KV圧縮により、キャッシュ成長を制限しトピックコンテキストを保持。

Cloud Storage Rapid：AIと分析のためのターボチャージされたオブジェクトストレージ

2026-05-12 06:54 UTC+9

Google CloudはNext '26でCloud Storage Rapidファミリーを発表。Rapid BucketとRapid Cacheにより、AIおよび分析ワークロード向けに超低レイテンシ、高スループットのオブジェクトストレージを提供する。

Rapid Bucketはサブミリ秒レイテンシ、最大2000万QPS、15+ TB/sの読み取りスループットを実現。
Rapid Cacheはコード変更不要で既存バケットの読み取りを高速化し、モデルロードを2.1倍高速化。

フローマッチングにおける数値積分誤差に対するひずみと渦度の役割

2026-05-11 13:00 UTC+9

フローマッチングは学習された速度場を積分してデータを生成し、NFEが推論コストを決定する。本論文では速度ヤコビアンをひずみ速度と渦度に分解し、ひずみは指数関数的誤差増幅を、渦度は線形寄与をすることを証明。重み付きヤコビアン正則化を提案し、低NFEで誤差を大幅に低減する。

ひずみ速度はフローマッチング積分における指数関数的誤差増幅を制御する
渦度は局所打ち切り誤差に線形にしか寄与しない

SuperhumanとDatabricksが200K QPSの推論プラットフォームを共同構築

2026-05-09 06:10 UTC+9

SuperhumanはDIY vLLMスタックからDatabricks FMAPI Provisioned Throughputに移行し、カスタムLLMを200K+ QPS、サブ秒P99レイテンシで提供しています。共同最適化により、FP8量子化、CPUボトルネック解消、Hopperアーキテクチャのアテンションカーネル最適化を通じて、GPUあたりのスループットが60%向上（H100ポッドあたり750 QPSから1,200 QPS）し、品質の低下はありません。Databricks FMAPIは、本番グレードの負荷分散、オートスケーリング、高速コンテナ起動により、250以上のGPUに確実にスケールします。

SuperhumanはDIY vLLMからDatabricks FMAPIに移行し、200K+ QPS、サブ秒P99レイテンシを達成。
共同最適化により、FP8量子化、CPUボトルネック解消、カーネル最適化でGPUあたりスループットが60%向上。

いくつかの優れた条項：LLMとドメイン訓練された小規模言語モデルによる構造化契約抽出の比較

2026-05-08 13:00 UTC+9

ドメイン訓練された小規模言語モデルOlava Extractと最先端の大規模言語モデルを構造化契約抽出で比較した研究。OlavaのマクロF1は0.812、マイクロF1は0.842、推論コストは78～97%削減され、幻覚が少なく、大規模モデルの必要性に疑問を投げかける。

ドメイン訓練された小規模モデルOlava Extractが、契約抽出においてマクロF1 0.812、マイクロF1 0.842で最先端LLMを上回る。
推論コストは大規模モデルと比較して78%から97%削減。

Zero Latency、分散型AI推論グリッド「Zerogrid」のクローズドベータ版を開始

2026-05-08 01:17 UTC+9

Zero Latency（旧Hyphastructure）は、AI推論ワークロードをレイテンシ、データグラビティ、バースト制約に基づいて適切なエッジ容量にルーティングする分散型AI推論グリッド「Zerogrid」のクローズドベータ版を発表した。ベータ版はフォーチュン1000企業、一次通信事業者、ファイバーオペレーター、エンタープライズDevOpsプラットフォームに提供される。Zerogridのアーキテクチャは分散型仮想発電所をモデルとしており、米国内のエッジコンピューティングクラスタを統合し、前日およびリアルタイムでワークロードをディスパッチする。共同設立者Michael Huertaは、エネルギー分野での分散型インフラ経験をAI推論に応用し、クラウドやオンプレミスでは解決できない制約に対処すると述べている。

Zero LatencyがZerogridクローズドベータ版を開始。レイテンシ、データグラビティ、バースト制約に基づいてAI推論ワークロードをルーティングする分散型グリッド。
ベータ版はフォーチュン1000企業、一次通信事業者、ファイバーオペレーター、エンタープライズDevOpsプラットフォームが対象。管理ダッシュボードとCLI（後日導入）を提供。

AWS Inferentia2 上でのペット行動検出のための視覚言語モデルのコスト効率的なデプロイ

2026-05-07 00:37 UTC+9

Tomofun 社は、GPU インスタンスから AWS Inferentia2 ベースの EC2 Inf2 インスタンスに移行することで、Furbo ペットカメラの推論コストを 83% 削減し、高精度と低レイテンシを維持しました。この記事では、BLIP モデルの適応、アーキテクチャ、ストレステストを含む移行プロセスを詳しく説明します。

Tomofun はペット行動検出モデルを GPU から AWS Inferentia2 の EC2 Inf2 インスタンスに移行し、コストを 83% 削減しました。
BLIP モデルはイメージエンコーダ、テキストエンコーダ、テキストデコーダに分解され、各コンポーネントは軽量ラッパーでコンパイルおよびデプロイされました。

大規模推論を効率化する基礎研究

2026-05-04 09:00 UTC+9

AIが研究から生産へ移行するにつれ、AIネイティブチームの課題はモデル構築から、効率的で信頼性が高く大規模なモデル運用へとシフトしています。推論コストは生産AIシステムの総ライフタイムコストの80～90%を占めます。Together AIはFlashAttention-4やATLASなどの研究と、フルスタックのハードウェア最適化、インテリジェントなスケジューリングにより、効率的な推論を実現し、顧客のユニットエコノミクスを改善します。

推論コストはAIシステム経済の大部分を占め、総ライフタイムコストの80～90%に達する。
Together AIがFlashAttention-4（cuDNN比最大1.3倍高速）とATLAS（適応型投機的復号により推論を4倍高速化）を発表。

シーケンス知識 #850：RNNの予期せぬカムバック

2026-04-28 21:03 UTC+9

Transformerは系列モデリングを支配しているが、長いコンテキストではO(N²)のKVキャッシュコストが問題となる。新しいRNNは、より大きな状態、データ依存のゲーティング、LLM時代のトレーニングレシピを採用し、O(1)の推論コストでTransformerのパープレキシティに匹敵する。

TransformerのKVキャッシュは系列長に応じて二次的なメモリと計算コストを生む。
新しいRNNはより大きな隠れ状態、データ依存のゲーティング、現代的な訓練手法を特徴とする。

GLM 5.2 Fast で1か月分のエンジニアリング作業を4日間でリリースした方法

2026-07-09 09:52 UTC+9

著者は、FireConnect 経由で Claude Code 上で GLM 5.2 Fast を使用し、通常1か月相当の GPU スケジューラのリクレーム機能を、わずか4日間と218ドルの推論コストで実装しました。記事では、高速推論によるコンテキストスイッチの排除、低コストによるトークン使用の制限からの解放、複雑な並行処理ロジックを扱えるモデルの品質について詳述しています。

FireConnect 経由で Claude Code 上で GLM 5.2 Fast を使用し、GPU スケジューラのリクレーム機能を4日間で実装。4つのPR、約3000行のコード、34のテストを全てパスし、推論コストは218ドル。
高速推論（毎秒約400トークン）によりリアルタイムな設計コラボレーションが可能になり、設計フェーズが数週間から1日に短縮。

推論コスト

関連トピック

推論コストの最新ニュース

OS -> プロッド調査

本番環境でのLLMレイテンシと推論コストを削減する12の方法

LangChainとNVIDIA、NemoClaw Deep Agents Blueprintを発表

NVIDIA Nemotron、LangChain Deep Agents Harnessでベンチマーク首位を達成

AIはバーゲンハンターの市場になりつつあり、一部の高級モデルが頂点に

オープンで便利、予測可能：Provisioned Throughputのご紹介

熱力学AIモデルのスケーリング

インシデントレポート：CVE-2026-LGTM

Solビデオ推論エンジン：効率的なビデオ生成のためのエージェントネイティブフルスタック高速化フレームワーク

拡散言語モデルのための共有プレフィックスのKVキャッシングの実現

Mate SecurityのAsaf Wienerは、すべてのバックエンドエンジニアをモデルルーターにしました。彼は正しい。

DAStatFormer：統計的特徴統合を備えたハイブリッドマルチブランチTransformerによるDASベースのパターン認識

AIハードウェア市場分析：メモリボトルネックと各層のソリューション

GEM-4D：ロボット操作のための幾何学的強化ビデオワールドモデル

Tensor Cache: トランスフォーマー向け排除条件付き連想メモリ

潜在キャッシュフロー：テキスト不要のモデル間通信

UCCI：費用最適なLLMカスケードルーティングのための校正された不確実性

マルチモーダル言語モデルにはいくつの視覚トークンが必要か？F^3Aによる視覚トークンプルーニングのスケーリング

TTE-Flash: 思考-そして-埋め込みトークンによる推論ベースのマルチモーダル表現の高速化

EpiCache: リソース制約環境での長期対話のためのエピソード的KVキャッシュ管理

Cloud Storage Rapid：AIと分析のためのターボチャージされたオブジェクトストレージ

フローマッチングにおける数値積分誤差に対するひずみと渦度の役割

SuperhumanとDatabricksが200K QPSの推論プラットフォームを共同構築

いくつかの優れた条項：LLMとドメイン訓練された小規模言語モデルによる構造化契約抽出の比較

Zero Latency、分散型AI推論グリッド「Zerogrid」のクローズドベータ版を開始

AWS Inferentia2 上でのペット行動検出のための視覚言語モデルのコスト効率的なデプロイ

大規模推論を効率化する基礎研究

シーケンス知識 #850：RNNの予期せぬカムバック

GLM 5.2 Fast で1か月分のエンジニアリング作業を4日間でリリースした方法

その他の成長タグ

AI コーディング

MCP

オープンソースモデル

Agent フレームワーク

中国 AI

GPU インフラ

モデル価格

DeepSeek

Qwen