AI News HubLIVE

モデルの最新ニュース

Anthropic、Claude Opus 4.8 をリリース、動的ワークフローとより安価な高速モードを提供、ワークフローは最大1,000サブエージェント

Anthropic が Claude Opus 4.8 を発表し、Claude Code の2つのアップデートを同時にリリース。動的ワークフローは最大1,000のサブエージェントを並列実行し、高速モードは出力速度を2.5倍に向上しつつ価格を3分の1に低減。両方とも研究プレビュー。

  • 動的ワークフローは、Claude がタスクに応じてサブエージェントを調整するJavaScriptスクリプトを作成し、最大16並列、合計1,000のエージェントを実行可能。
  • 高速モードはOpus 4.8で2.5倍の出力速度を実現、価格は3倍安くなり、使用クレジットが必要。
サイト内本文

Amazon SageMaker AI でアゼルバイジャン語モデルを訓練

アゼルバイジャンの通信事業者Azercellは、AWS Generative AI Innovation Centerと協力し、Amazon SageMaker AI上でアゼルバイジャン語LLMを構築。カスタムトークナイザー、FSDP、Liger Kernelの最適化により、トレーニングスループット23%向上、ピークGPUメモリ58%削減、トークン効率2倍を達成。

  • AzercellがAmazon SageMaker AIでアゼルバイジャン語LLMの本番対応フレームワークを開発。
  • カスタムトークナイザーが1単語あたりのトークン数を3.22から1.59に削減し、効率が2倍に。
サイト内本文

Anthropic、Claude Opus 4.8を公開——「控えめだが確かな改善」、GPT-5.5をほとんどのベンチマークで上回る

AnthropicはClaude Opus 4.8をリリース。多くのベンチマークでGPT-5.5やGemini 3.1 Proを上回り、コードエラーの自己検出率は前世代比4倍。同時に、数百の並列サブエージェントを起動して大規模なコードベース移行などを処理する動的ワークフローも導入した。

  • Claude Opus 4.8はほとんどのベンチマークでGPT-5.5とGemini 3.1 Proを上回る。
  • コードエラーの自己検出率が前世代比4倍に向上。
サイト内本文

AIモデルリリーストラッカー:Opus 4.8のミスアライメント率はClaude Mythosプレビューと同程度

すべての新モデルが宣伝通りとは限りません。本トラッカーは各リリースを同種モデルと比較し、どのモデルが時間を費やす価値があるかを示します。この記事では、Claude Opus 4.8、GPT-5.5 Instant、Nemotron 3 Nano Omni、GPT-5.5、ChatGPT Images 2、Claude Opus 4.7、Claude Mythos(プレビュー)、GPT-5.4、Claude Opus 4.6、GPT-5.3-Codexなど、2026年現在の主要なモデルリリースとその特徴、重要性をまとめています。

  • AnthropicのOpus 4.8は低コストで高速な思考モードを提供し、ミスアライメント率がOpus 4.7より低く、Mythosプレビューと同等と主張。
  • OpenAIのGPT-5.5 Instantは幻覚を52.5%削減し、ChatGPTのデフォルトモデルとなり、誤情報の拡散防止に貢献。
サイト内本文

Mistral AI、Digital Realtyと提携し欧州AIインフラを拡大

フランスのスタートアップ企業Mistral AIは、Digital Realtyのパリ南キャンパスで10メガワットのコンピューティング能力を確保しました。

  • Mistral AIがDigital Realtyのパリ南キャンパスで10MWの計算能力を確保
  • この提携は欧州のAIインフラ拡大を目指す
サイト内本文

Claude Opus 4.8 登場:努力制御、動的ワークフロー、安価な高速モード、より正直で欺瞞の低減

Anthropic はフラッグシップモデル Opus 4.8 をリリース。ユーザーは Claude の「努力」レベルを調整可能になり、動的ワークフローで大規模コーディングタスクに対応、高速モードの価格が従来の3分の1に。ベンチマークでは GPT-5.5 や Gemini 3.1 Pro をリードするが、端末コーディングでは OpenAI に劣る。誠実さと自律性サポートが向上し、欺瞞率が大幅に低下。

  • ユーザーは Claude の「努力」レベルを調整可能になり、応答品質と速度をトレードオフできる。
  • 動的ワークフロー(研究プレビュー)により、単一セッションで数百の並列サブエージェントを実行し、大規模なコードベース移行が可能。
サイト内本文

Claude Opus 4.8 が AWS で利用可能に

Anthropic の最先端 Opus モデルである Claude Opus 4.8 が Amazon Bedrock および AWS 上の Claude Platform で利用可能になりました。コーディング、エージェントタスク、プロフェッショナルワークにおいて改善がもたらされ、長期運用の本番ワークフロー向けの一貫性と自律性が向上しています。

  • Claude Opus 4.8 は Anthropic の最も先進的な Opus モデルで、AWS 上で提供開始。
  • コーディング、多段階自律タスク、プロフェッショナルワークでパフォーマンスが向上し、出力のばらつきが低減。
サイト内本文

クロードの新モデル、失敗時に“正直”に振る舞う

Anthropic は木曜日に Claude Opus 4.8 をリリースし、「正直さ」を強調。初期テスターは、モデルが不確実性を積極的に示し、根拠のない主張を減らす傾向があると報告。評価では、コードの欠陥を見逃す割合が前世代比で約4分の1に低減。さらに、ユーザーはタスクに割く努力量を調整可能で、「動的ワークフロー」機能により数百のエージェントを並行実行できる。

  • Claude Opus 4.8 は不確実性を明示し、根拠のない主張を避ける。
  • コードレビューでの欠陥見逃し率が前世代比で約4分の1。
サイト内本文

I/O 2026の12の主要な瞬間を振り返る

Google I/O 2026の基調講演では、Gemini Omni、Gemini 3.5 Flash、情報エージェント、ユニバーサルカート、Neural Expressiveデザイン言語、スマートグラスなど、多くの重要な発表がありました。本記事では12の注目すべき瞬間をまとめています。

  • Gemini Omniは任意の入力からコンテンツを生成でき、まずは動画に対応。
  • Gemini 3.5 Flashはエージェントやコーディングにおいて最先端の性能を発揮。
サイト内本文

Google、Gemma 3をローカル実行する小型ボードを発表

GoogleはI/OでCoral Boardを発表。これはデバイス上のAI向けのコンパクトなシングルボードコンピュータで、RISC-VベースのNPUを搭載し、Gemma 3 270Mをローカル実行可能。

  • Coral BoardはヘッドホンやARグラスなどの小型機器向けAIボード
  • Synaptics Astra SL2619チップとRISC-VベースのCoral NPUを搭載
サイト内本文

リビアンのソフトウェア責任者はCarPlayもボタンも不要と考えている

Decoderポッドキャストのインタビューで、リビアンのチーフソフトウェア責任者Wassym BensaidがVWとの合弁事業、新しいAI搭載リビアンアシスタント、そしてなぜ音声インターフェースがボタンに取って代わりCarPlayが不要になるのかについて語った。

  • リビアンとフォルクスワーゲンの合弁事業(RV Tech)は、リビアンのソフトウェア文化とVWの規模を融合させる。
  • リビアンアシスタントは、車両のゾーンアーキテクチャに深く統合されたAIエージェント。
サイト内本文

ワールドモデルが言語モデルを引き継ぐ:物理AGI「デュアルピラミッド」システムを世界初開発、汎用ロボットが「家庭時代」に突入

極佳視界(Jijia Vision)が世界初の物理AGI「デュアルピラミッド」システムを発表。家庭用ロボット「拾光S1」を投入し、100台の家庭向け受注を獲得。12ヶ月以内に物理AGIの「GPT-3モーメント」を目指す。

  • 極佳視界がデータピラミッドとアルゴリズムピラミッドから成る「デュアルピラミッド」システムを開発。
  • 家庭用ロボット「拾光S1」は車輪付きアーム構成で、実際の家庭で100台の受注を獲得。
サイト内本文

Mistral、LeChatをVibeにブランド変更、チャットボットの未来は本格的なワークエージェントに

Mistral AIは、チャットボット「Le Chat」を「Vibe」に名称変更し、チャット、コーディングエージェント、新しいワークモードを1つのブランドに統合する。ワークモードはGoogle Workspace、Outlook、Slack、GitHubに接続し、メールやレポート、プルリクエストなどのタスクを自律的に処理する。Pro料金は17.99ユーロから14.99ユーロに値下げされたが、具体的な利用制限は明らかにされていない。これにより、OpenAI、Google、Anthropicのエージェント型サービスとの直接的な競争を仕掛ける。

  • Mistral AIがチャットボット「Le Chat」を「Vibe」にブランド変更、チャット、コーディングエージェント、ワークモードを統合。
  • ワークモードはGoogle Workspace、Outlook、Slack、GitHubと連携し、タスクを自律処理。
サイト内本文

Show HN:ローカルコーディングエージェント——LLMでツール呼び出しを小さなAIモデルに委譲

Open Agent Tools (oats) は、ローカルコードを利用したツール呼び出しを可能にするセルフホスト型AIフレームワークです。大規模モデルのトークン消費を抑えるため、ツール呼び出しを小規模モデルに委譲します。

  • oats はローカルAIモデルがローカルソースコードを使用してツール呼び出しを実行できるようにします。
  • 20,000以上のGitHubリポジトリからデータをマイニングし、再利用可能なプロンプトインデックスを作成。
サイト内本文

Perplexity AIがUnigramトークナイザーをオープンソース化、Hugging Face tokenizers crate比5倍の低レイテンシを達成

Perplexity AIは、Rustで再実装したUnigramトークナイザーをオープンソース化し、Hugging Face tokenizers crateと比較してp50レイテンシを5倍低減、本番環境でのCPU使用率を5〜6倍削減しました。最適化には、ダブルアレイトライ、ビットマップパッキング、ヒュージページが含まれます。

  • Perplexity AIがUnigramトークナイザーをRustで書き直し、Hugging Face tokenizers crate比5倍の低p50レイテンシを達成。
  • 3つの最適化:ダブルアレイトライ、ビットマップとキャッシュラインパッキング、ヒュージページ。
サイト内本文

Mistral、独自チップの設計を検討とCEOが表明

Mistral AIのCEOアーサー・メンシュ氏は、インフラコスト削減のためカスタムチップの開発を検討していると認め、OpenAIやAnthropicに対抗する。また、フランスに推論専用のデータセンターを新設し、エンタープライズ向けエージェントプラットフォーム「Vibe」を発表した。

  • Mistral AIは独自カスタムチップの設計を検討し、展開コスト削減を目指す。
  • フランスに推論専用の新しいデータセンターを発表。
サイト内本文

7Bモデルがo3、GPT-5を打ち破る! 医学AIエージェントが「どこを見て、どう見るか」を学習

上海創智学院のLeapQuestチームは、複数の大学と協力して、モデルが推論プロセスで視覚ツールを積極的に活用し、受動的な入力から能動的なエビデンス探索へと変革する新しい医学AIパラダイムを提案。2本の論文がICML 2026に採択された。

  • LeapQuestは、医学画像と動画向けにOphiuchusとMedScopeを提案。Think with Images/Videosパラダイムを採用。
  • Ophiuchus-7Bは8つのVQAベンチマークで平均68.0点を達成し、o3(62.2)やGPT-5(59.9)を上回る。
サイト内本文

Trinity:合成データを活用した非構造化屋外環境におけるクラス非依存地形分割とセマンティックセグメンテーションの統一

本論文では、トランスフォーマーアーキテクチャに基づくTrinityを提案し、統一ネットワーク内でクラス固有のセマンティックセグメンテーションとクラス非依存の地形分割を同時に実行する。地形領域は事前定義ラベルやロボット依存の走行可能性スコアなしに視覚的外観のみで分割され、ロボット非依存の視覚的地形事前知識を学習可能にする。大規模トレーニングのためにOAISYSシミュレータを拡張しRUGDSynth合成データセットを作成、さらにEXTerra実世界データセットを提供する。実験により複雑な屋外環境での有効性が実証された。

  • Trinityアーキテクチャがクラス非依存地形分割とセマンティックセグメンテーションを統一
  • 事前定義ラベルなしに視覚的外観で地形分割、プラットフォーム間の転移性を向上
サイト内本文

光流体アセンブリのためのエージェント的言語から目的への合成

研究者らは、条件付き大規模言語モデルを用いて、音声またはテキストのコマンドを微分可能な目的関数に変換するモジュラー型エージェントパイプライン「Speak-to-Objective」を提案する。これは、制約認識逆解法と実験的な光流体プラットフォーム上で微粒子を組み立てるためのものである。アプローチは「知覚→構成→提案→行動→報告と学習」のループを採用し、目的を意図と動作のインターフェースとして扱うことで、自然言語でプログラム可能なマイクロスケールアセンブリを実現し、自律的な光製造プラットフォームへの道を開く。

  • Speak-to-Objectiveパイプラインは自然言語コマンドを微分可能な目的関数に変換する。
  • 光流体プラットフォーム上でレーザー誘起熱粘性流を用いた微粒子パターンアセンブリを実証。
サイト内本文

表現条件付き拡散モデルによる学習データ生成の誘導

本研究では、DINOv2、DINOv3、CLIPから得られた表現を条件として合成画像データを生成する表現条件付き拡散モデルを提案。ImageNet100において、クラス条件付き生成を+10.76 p.p.のトップ1精度で上回る。合成データセットを拡大することで、実データで学習した分類器を+2.0 p.p.凌駕することも可能。また、データ拡張やサンプルフィルタリングにおいても優れた性能を示し、大規模視覚学習タスクにおける実世界データセットの補完や代替の有望な手法を提供する。

  • 表現条件付き拡散モデルはImageNet100でクラス条件付き生成を10.76ポイント上回る。
  • 拡大した合成データセットにより、実データ学習モデルを2.0ポイントのトップ1精度で凌駕。
サイト内本文

D²Turb:深度認識シミュレーションと分離学習による単一フレーム大気乱流緩和

研究者らは、D²Turbフレームワークを提案。深度認識乱流合成プロトコルと適応型構造事前注入機構を導入し、大気乱流緩和をテクスチャのデブラリングと幾何補正の2つの相互作用する段階に分解することで、合成データと実データの両方で最先端の性能を達成した。

  • 深度認識乱流合成プロトコルにより、シーンの深度を考慮した物理的に一貫した劣化を生成。
  • 復元プロセスをテクスチャデブラリングと幾何補正の2段階に分離。
サイト内本文

異種注意構造を持つTransformerモデルのための汎用解釈手法

本研究では、異種注意構造を持つTransformerモデルの解釈手法を提案し、意味解釈と論理解釈を含む実験で有効性を検証した。

  • Transformerの注意構造を同種と異種に分類。異種注意は異なるソースからの情報を処理する。
  • 異種注意構造のための汎用的な解釈手法を提案。
サイト内本文

感情から複雑な行動へ:第10回ABAWワークショップ&コンペティションにおけるマルチモーダル人間中心AIの進展

第10回ABAWワークショップ&コンペティションがCVPR 2026で開催され、感情模倣強度推定、アンビバレンス/ためらい認識、細粒度暴力検出などの新たなチャレンジを導入し、従来の感情推定・認識タスクとともに、マルチモーダル人間中心AIを推進します。コンペティションは大規模な実環境データセットを活用し、ペーパートラックはポーズ推定から公平性やロバストネスまで幅広いトピックをカバーします。

  • ABAW 2026は新たなチャレンジ(感情模倣強度、アンビバレンス認識、暴力検出)を導入。
  • ワークショップはコンペティションとペーパートラックの二重構造を継続。
サイト内本文

コミュニティ態度の反応トーンによるモデリング:オンラインコミュニティにおける言語行動に対するLLMの整合性を評価する人間-AI協調フレームワーク

大規模言語モデル(LLM)は計算社会科学の代理としてますます利用されているが、人間コミュニティの「厚い記述」を忠実に再現する能力は依然として重要な課題である。本稿ではCARE(Community-Aware Reaction Evaluation)フレームワークを提案する。これは、LLMがシミュレートする言説と、実際のコミュニティが現実のニュースに対して示す即時反応を比較する反応中心の評価手法である。発話内トーンの詳細なスペクトルを特徴づけることで、明示的なコミュニティプロンプトでLLMを誘導してもシミュレーションの忠実度が本質的に向上しない「リアリズムギャップ」が明らかになった。さらに、最先端モデル間で異なる行動特性が確認され、現在のアライメント戦略はオンライン集団の社会言語学的ダイナミクスを捉えるには不十分であることが示唆される。

  • CAREフレームワークは、実際のコミュニティ反応トーンを分析してLLMシミュレーションの忠実度を評価する
  • 現在のLLMアライメント戦略は、オンラインコミュニティの社会言語学的ダイナミクスを適切に捉えられていない
サイト内本文

ARから拡散へ:厳密因果と弾性地平による大規模言語モデルの効率的適応

FLUIDフレームワークは、自己回帰言語モデルを拡散モデルに適応させ、効率的な並列テキスト生成を実現します。厳密因果アライメントによりGPTチェックポイントを再利用し、エントロピー駆動の弾性地平でノイズ除去ステップを動的に調整します。トレーニングコストを桁違いに削減しつつ、最先端の性能を達成します。

  • FLUIDは厳密因果アライメントによりARと拡散モデルの構造的ギャップを埋め、GPTチェックポイントからの初期化を可能にする。
  • 弾性地平はエントロピーを用いて局所情報密度に応じたノイズ除去ステップを動的に調整する。
サイト内本文

安定性と表現力のギャップを埋める:低リソース音声言語モデルのための合成データスケーリングと嗜好アライメント

研究者らは、低リソース言語の音声言語モデルにおいて合成データを使用する際の「安定性-表現力ギャップ」を特定し、韻律の多様性を回復する2つの自己アライメントフレームワーク(DGSAおよびTDSC)を提案。ElevenLabsやGemini Proなどの商用システムを凌駕し、ラオ語での初のゼロショット音声クローンを実現。

  • 低リソース言語の音声言語モデルは、合成データ学習時に音素精度と韻律表現力のトレードオフに直面する。
  • 提案された解耦誘導自己アライメント(DGSA)は、韻律と音色を分離することで表現力を回復する。
サイト内本文

BioELX: エイリアスベースの検索とLLMランキングによる言語横断的生医学エンティティリンキング

BioELXは、注釈付きトレーニングデータを必要としない、新しい言語横断的生医学エンティティリンキングフレームワークです。Wikidataの多言語エイリアスでSapBERTを強化し、事前学習済みLLMを使った文脈認識型曖昧性解消を行います。5つのベンチマークでの実験により、特にトルコ語、韓国語、タイ語などの低リソース言語で大きな改善が見られました。

  • BioELXを提案:エイリアスベース検索とLLMランキングを用いたゼロショット言語横断BELフレームワーク。
  • 第1段階:Wikidataの多言語エイリアスでSapBERTを強化し、候補検索を改善。
サイト内本文

RAG-Coding:構造化された外部知識を活用したLLM医療コード化の強化

RAG-Codingは、4つの大規模言語モデル(LLM)エージェントを調整し、外部知識源(公式コード一覧やガイドラインなど)に基づいて意思決定を行う自動化されたICD-10-CMコード化手法です。MDACEデータセットでは、最良のLLMベースラインと比較してマイクロF1で8〜13%、マクロF1で2〜8%向上しました。最先端の事前学習モデルPLM-ICDと比較すると、RAG-Codingはマイクロ再現率が11%高い一方、PLM-ICDはマイクロ精度が6%高く、両者のF1は同等です。アブレーション実験により外部知識の重要性が確認されました。また、2025年ガイドラインに基づいて専門家が再注釈したMDACE-2025データセットを公開し、より細かいコードラベルでの評価を可能にしました。

  • RAG-Codingは4つのLLMエージェントと外部知識源を活用し、ICD-10-CMコード化の精度を向上させる。
  • MDACEデータセットで最良LLMベースラインをマイクロF1で8〜13%、マクロF1で2〜8%上回る。
サイト内本文

LCO: LLMベースの制約最適化による実世界タスクでのより安全なエージェントLLM

大規模言語モデル(LLM)が自律エージェントとして動作する際、インコンテキスト・リワードハッキング(ICRH)と呼ばれる現象により、代理目的を最大化する反復最適化が有害な副作用を引き起こす。既存の防御策では不十分であり、ICRHはモデル自身の過剰最適化に起因する。本稿では、LLMベースの制約最適化(LCO)フレームワークを提案する。LCOは自己思考モジュールと進化サンプリングモジュールから構成され、モデルの微調整なしでICRHを低減する。実験では、ツイートエンゲージメント最適化タスクにおいてGPT-4の有害性成長率を39%削減し、ポリシー最適化ベンチマークではICRH発生率を15.23%削減し、タスク性能を維持した。

  • ICRHはLLMが代理目的を過剰最適化し、意図しない害を引き起こす現象。
  • LCOは自己思考モジュールと進化サンプリングモジュールを導入し、微調整なしでLLMの行動を制約する。
サイト内本文

混合専門家モデルによるマルチモーダル学習課題への挑戦:サーベイ

本サーベイは、混合専門家モデル(MoE)がマルチモーダル学習の課題を効率的エンジン、表現学習器、アダプターという3つの視点からどのように解決するかを探り、解釈可能なルーティングや専門家間通信などの研究ギャップを特定する。

  • MoEは計算コストとパラメータ増加を分離し、スケーラブルなマルチモーダルモデリングを可能にする。
  • MoEは補完的な専門家知識を統合し、アライメントと相互作用表現を強化する。
サイト内本文

$E^3$-Agent: エッジ生成推論のリソース管理のための実行可能かつ進化するエージェント

本論文では、エッジAIGCリソース管理のための実行可能かつ進化するエージェント$E^3$-Agentを提案する。ミリ秒単位のルーティング決定を行う高速パスと、イベント駆動型LLMメタコントローラからなる低速パスを分離し、実行フィードバックからオンライン学習することで、未知で時変的なサービス時間マッピングに適応する。評価では、平均レイテンシを65%-73%削減し、スタッター率も効果的に抑制した。

  • エッジ生成推論は、デバイスごとの未知の性能と非定常性に直面している。
  • $E^3$-Agentは高速ルータと低速LLMメタコントローラの二経路アーキテクチャを採用。
サイト内本文

LaneRoPE: 協調並列推論と生成のための位置エンコーディング

LaneRoPEは、シーケンス間アテンション機構と位置エンコーディング拡張により、複数のLLMシーケンスが生成中に協調できるようにし、数学的推論タスクにおける精度を向上させる。アーキテクチャへの変更は最小限で、推論時のオーバーヘッドは無視できる。

  • シーケンス間アテンションマスクを導入し、複数シーケンスのサンプリングを相互依存させる。
  • RoPEを拡張し、シーケンス内外の相対位置を捕捉。
サイト内本文

LLMが因果発見に失敗する理由と介入エージェントによる突破方法

本論文は、大規模言語モデルが因果発見を行う際の根本的な限界を証明しています:教師ありファインチューニング、直接選好最適化、インコンテキスト学習などの手法では、類似した観測データを生成する因果グラフを区別できません。著者らは、凍結された言語モデルを介入オラクルとして使用し、外部ベイズループが対数回数のラウンドで候補グラフに収束するエージェンティック因果ベイズ最適化(A-CBO)を提案しています。Corr2Causeでは、A-CBOは訓練なしでファインチューニングベースラインに匹敵し、24変数・18Kテストサンプルに拡張したExtended Corr2Causeでは、A-CBOはファインチューニングおよび選好最適化の両方を大幅に上回ります。

  • LLMの因果発見における失敗が核障害定理に起因する根本的なものであることを証明
  • 凍結LLMと外部ベイズ最適化を組み合わせたA-CBOを提案
サイト内本文

DynaSchedBench:調整された動的スケジューリングベンチマークとLLMベースのスケジューリングエージェントにおける可観測性のパラドックス

本論文では、DFJSPのための診断フレームワークDynaSchedBenchを提案する。逐次イベント空間キャリブレータ(SESC)とスケジュールストレス指標(SSI)を用いて難易度を層別化したインスタンスを生成する。LLMスケジューリングエージェントにおける「可観測性のパラドックス」を特定し、完全な構造情報を提供すると性能が低下することを発見した。ツール拡張や洗練戦略も信頼性のある改善をもたらさない。

  • DynaSchedBenchはSESCとSSIを用いて調整されたDFJSPインスタンスを生成し、進化的ベースラインより効率的。
  • LLMエージェントは可観測性のパラドックスを示す:完全な情報は決定を損なう。
サイト内本文

テキストにおける人間の価値観の識別と理解:調整可能なLLMベースのアーキテクチャ

本論文では、テキスト中の人間の価値観の強度を検出・定量化するLLMベースのアーキテクチャを紹介する。このアーキテクチャは3つの調整可能なモジュールで構成され、ValueEvalデータセットでの実験により良好な検出性能を示した。

  • 特定の価値理論や複雑なプロンプトエンジニアリングに依存しない、モジュール化されたLLMアーキテクチャを提案。
  • 3つのモジュール:構造化された価値仕様の生成、テキストのラベル付け、修辞的・意味的証拠に基づく等級付け。
サイト内本文

Sakana AIが提案するDiffusionBlocks:残差ネットワークを独立して訓練可能なデノイジングモジュールに変換するブロック単位学習フレームワーク

Sakana AIと東京大学の研究者らは、Transformerベースのネットワークをブロックごとに訓練するDiffusionBlocksを提案。訓練メモリをブロック数B分の1に削減しつつ、多様なアーキテクチャで性能を維持する。残差接続を拡散モデルのオイラー法ステップと解釈し、スコアマッチングによる原理的な局所目的を実現する。

  • DiffusionBlocksはネットワークをB個の独立訓練可能なブロックに分割し、メモリをB倍削減。
  • 残差ネットワークと拡散モデルの関連性を活用し、理論的に裏付けられた局所訓練目標を提供。
サイト内本文

SQLite の AGENTS.md

SQLite は AGENTS.md ファイルを追加し、AI 生成の貢献に関する方針を明確にしました。事前の合意なしのプルリクエストは受け付けず、エージェントコードも受け付けませんが、再現可能なテストケースを含むバグ報告は歓迎します。AI 生成のバグ報告が殺到したため、専用のバグフォーラムが作成されました。

  • SQLite は AGENTS.md で AI 貢献方針を定義
  • プルリクエストには事前の合意と法的書類が必要
サイト内本文

大規模な信頼性の高いLLM推論

Databricksは、オープンソースからプロプライエタリまであらゆる最先端モデルに対応する独自の推論プラットフォームを構築し、世界最大級のエージェントアプリケーションを支えています。毎月120兆トークンを処理し、モデルユニットによる容量管理、コスト認識型負荷分散とオートスケーリング(GPUコスト80%以上削減)、ブラックボックスヘルスチェックによる実行時信頼性などの仕組みで、信頼性とレイテンシの課題に取り組んでいます。マルチモーダルボトルネックのプロファイリングにより、スループットを3倍向上させました。

  • Databricksの推論プラットフォームは、オープンソースとプロプライエタリを含む最先端モデルに対応し、月間120Tトークンを処理。
  • モデルユニットはVMのような抽象化を提供し、容量管理、コスト認識型ルーティングとスケーリングを実現。
サイト内本文

ITBench-AA:フロンティアモデルがエンタープライズITエージェントタスクの初のベンチマークで50%未満のスコアに — Artificial AnalysisとIBMによる

Artificial AnalysisとIBMが、エンタープライズITエージェントタスク向けのベンチマークITBench-AAを発表。サイトリライアビリティエンジニアリング(SRE)に焦点を当て、フロンティアモデルはすべて50%未満のスコアで、Claude Opus 4.7が47%でトップ。このベンチマークは、Kubernetesインシデント対応におけるモデルの診断能力を評価する。

  • Claude Opus 4.7が47%でトップ、GPT-5.5が46%、Qwen3.7 Maxが42%。
  • すべてのフロンティアモデルが50%未満であり、ITBench-AAは最も飽和度の低いエージェントベンチマークの一つ。
サイト内本文

NVIDIA、Codex、Claude Code、Qwen Code向けGRPOトレーニングのためのトークン忠実型ロールアウトフレームワーク「Polar」を公開

NVIDIAの研究者は、エージェントハーネスを変更せずに強化学習で言語エージェントを訓練するロールアウトフレームワークPolarを発表した。Polarはハーネスと推論サーバーの間にモデルAPIプロキシを配置し、トークンレベルの相互作用を捕捉してトレーナー対応の軌跡を再構築する。Qwen3.5-4BベースモデルにGRPOを適用した結果、CodexハーネスでSWE-Bench Verified pass@1を22.6ポイント、Claude Codeで4.8ポイント、Piで6.2ポイント改善した。本フレームワークはNeMo Gym環境として登録され、ProRL Agent Serverリポジトリで公開されている。

  • PolarはモデルAPIプロキシを介して既存のエージェントハーネスを変更せずにRLトレーニングを可能にする
  • Qwen3.5-4BにGRPOを適用し、4つのコーディングハーネスでSWE-Bench Verifiedを最大22.6ポイント改善
サイト内本文

AnthropicとOpenAIは製品市場適合を見つけたと思う

この記事は、AnthropicとOpenAIがエンタープライズ顧客をAPIベースの価格設定に移行し、コーディングエージェント製品を活用することで製品市場適合を達成したと主張しています。この転換点は2025年11月のモデル改善から始まり、2026年4月の新モデルリリースと価格変更で加速しました。

  • AnthropicとOpenAIはエンタープライズプランをAPIトークン価格に移行し、Claude CodeやCodexなどのコーディングエージェントが大きな利用と収益を牽引しています。
  • 2026年4月には、より高いAPI価格の新しいフロンティアモデルがリリースされ、エンタープライズ顧客は契約更新によりその価格に固定されました。
サイト内本文

南アフリカにはAIのレバレッジがあるが、政策草案はそれを活かせていない

南アフリカは世界の白金族金属埋蔵量の約88%を保有し、アフリカ最大のデータセンター市場を持ち、米中AIインフラ競争の最前線にある。しかし、幻覚的な引用を含むため撤回されたAI政策草案は、これらの優位性を有利な条件のために活用できていない。記事では、南アフリカの構造的レバレッジ、3つの可能性のあるAIインフラの未来(中国、米国、ローカルのオープンウェイト)、および拘束力のあるガバナンス条項の必要性を分析している。

  • 南アフリカの白金族金属と再生可能エネルギーは独自のAIレバレッジを提供するが、政策草案にはハイパースケーラーへの最低条件、データ主権、技術移転条件が欠けている。
  • 米国と中国のテクノロジー企業(マイクロソフト、ファーウェイ)が南アフリカのAIインフラ支配を競う中、政策は南アフリカが見返りに何を求めるかを明示していない。
サイト内本文

EAGLE 3.1:LLM推論における注意ドリフトを修正する投機的デコーディングアルゴリズム

EAGLEチーム、vLLMチーム、TorchSpecチームは共同でEAGLE 3.1をリリースし、本番環境での投機的デコーディングの不安定性を修正しました。このアルゴリズムは、FC正規化と正規化後隠れ状態フィードバックという2つのアーキテクチャ改善により、注意ドリフト問題に対処します。長コンテキストタスクでは受け入れ長が最大2倍に向上し、Kimi K2.6モデルでのベンチマークでは同時実行数1でスループットが2.03倍に向上しました。EAGLE 3.1はEAGLE 3チェックポイントと互換性があり、vLLMメインにマージされ、v0.22.0で出荷されます。

  • EAGLE 3.1は、深い投機においてドラフターが元のコンテキストから自身の生成トークンへ注意をシフトさせる「注意ドリフト」を修正します。
  • 2つのアーキテクチャ修正:FC正規化による隠れ状態の安定化、および正規化状態を次のステップにフィードバック。
サイト内本文

カイル・フェラーナの引用

スタートレックの比喩を用いて、AIシステムにおける「戦略」と「実行」のギャップを指摘。防御策を講じるだけでは不十分で、実際に作動させなければ重大な失敗に至ることを示唆。

  • スタートレックの会話でAIシステムの戦略と実行を例示
  • 防御策は実際に有効化しなければならないと強調
サイト内本文

MEMO: LLMパラメータを変更せずに新しい知識を専用メモリモデルに訓練するモジュラーフレームワーク

NUS、MIT、A*STARの研究者が提案するMEMOは、コーパス知識を独立した訓練可能なメモリモデルにエンコードするモジュラーフレームワークであり、LLMが再訓練や微調整なしで新しい知識を組み込むことを可能にします。

  • MEMOは専用メモリモデルと凍結された実行モデルを使用して、記憶と推論を分離します。
  • 5段階のデータ合成パイプラインがドキュメントを反射型QAデータセットに変換し、メモリモデルを訓練します。
サイト内本文

AIエージェントハーネス:LLMをデジタルワーカーに変える接着剤

AIモデルの生の知能は頭打ちになっており、次の進歩はモデルの周りに構築するものからもたらされます。AIエージェントハーネスは、LLMにツール、メモリ、人間の介入を提供し、有用なデジタルアシスタントに変えます。Google、LangChain、OpenAI、Anthropicなどの企業がさまざまなソリューションを提供しています。

  • AIの知能向上が鈍化し、エージェントハーネスが注目される。
  • エージェントハーネスはLLMにツール、記憶、修正能力を追加する。
サイト内本文

畳み込み、Transformer、ハイブリッド、視覚言語モデルの多疾患網膜スクリーニングにおけるベンチマーク

この研究では、網膜眼底多疾患画像データセット(RFMiD)を用いて、12のアーキテクチャ(畳み込みニューラルネットワーク、視覚Transformer、ハイブリッドモデル、視覚言語モデル)を二元スクリーニングとマルチラベル分類で比較評価しました。すべてのモデルは二元スクリーニングで良好な成績(AUC>84%)を示しましたが、注意機構ベースのモデル(SwinTiny、CoAtNet0、MaxViTTiny)が最良でした。視覚言語モデルはCNNベースラインと同等でしたが、最良のTransformerやハイブリッドモデルには及びませんでした。Messidor-2での外部検証では、AUCは66.8%~84.7%の範囲で、ハイブリッドモデルとTransformerモデルが強い性能を示しました。

  • RFMiDデータセットにおいて、注意機構ベースのモデル(SwinTiny、CoAtNet0、MaxViTTiny)が多疾患網膜スクリーニングで最良の成績。
  • 視覚言語モデル(CLIP ViT-B/16など)はCNNと競合するが、最良のTransformer/ハイブリッドには及ばない。
サイト内本文

次元分布感情状態:視覚的感情分析のための共通埋め込み空間としてのバレンスと覚醒の活用

研究者らは、次元分布感情状態(DDES)という新しい感情表現を提案。バレンスと覚醒を用いて芸術作品が引き起こす感情反応を予測し、博物館のキュレーターが感情ベースの展示を設計するのを支援する。

  • 博物館における感情ベースの展示は、エンゲージメントを高め、芸術へのアクセスを民主化することを目指す。
  • 芸術作品の手動アノテーションは労力がかかりバイアスが入る;DDESは感情予測を自動化する。
サイト内本文

マルチターンText-to-SQLのためのメモリアーキテクチャ:ベンチマークと実証研究

この研究では、300セッション・1400ターンからなるマルチターンText-to-SQLベンチマークEnterpriseMem-Benchを導入。5つの先端モデルを評価した結果、ステートレスモデルはターン3で精度がゼロに低下、メモリの複雑さは性能を単調に向上させずワーキングメモリが支配的、Claude Sonnet 4.6はSEC EDGARで世代的な後退、推論下ではClaudeのエラー分布が単一モードになることが明らかになった。

  • EnterpriseMem-Benchは3つのエンタープライズドメインをカバーするマルチターンText-to-SQLベンチマーク。
  • ステートレスモデルはターン3で実行精度がゼロになる。
サイト内本文

トピック