Google、Gemma 3をローカル実行する小型ボードを発表
GoogleはI/OでCoral Boardを発表。これはデバイス上のAI向けのコンパクトなシングルボードコンピュータで、RISC-VベースのNPUを搭載し、Gemma 3 270Mをローカル実行可能。
- Coral BoardはヘッドホンやARグラスなどの小型機器向けAIボード
- Synaptics Astra SL2619チップとRISC-VベースのCoral NPUを搭載
トピック別ストリーム
基盤モデル、マルチモーダルモデル、オープンウェイト、能力評価。
GoogleはI/OでCoral Boardを発表。これはデバイス上のAI向けのコンパクトなシングルボードコンピュータで、RISC-VベースのNPUを搭載し、Gemma 3 270Mをローカル実行可能。
Decoderポッドキャストのインタビューで、リビアンのチーフソフトウェア責任者Wassym BensaidがVWとの合弁事業、新しいAI搭載リビアンアシスタント、そしてなぜ音声インターフェースがボタンに取って代わりCarPlayが不要になるのかについて語った。
極佳視界(Jijia Vision)が世界初の物理AGI「デュアルピラミッド」システムを発表。家庭用ロボット「拾光S1」を投入し、100台の家庭向け受注を獲得。12ヶ月以内に物理AGIの「GPT-3モーメント」を目指す。
Mistral AIは、チャットボット「Le Chat」を「Vibe」に名称変更し、チャット、コーディングエージェント、新しいワークモードを1つのブランドに統合する。ワークモードはGoogle Workspace、Outlook、Slack、GitHubに接続し、メールやレポート、プルリクエストなどのタスクを自律的に処理する。Pro料金は17.99ユーロから14.99ユーロに値下げされたが、具体的な利用制限は明らかにされていない。これにより、OpenAI、Google、Anthropicのエージェント型サービスとの直接的な競争を仕掛ける。
Open Agent Tools (oats) は、ローカルコードを利用したツール呼び出しを可能にするセルフホスト型AIフレームワークです。大規模モデルのトークン消費を抑えるため、ツール呼び出しを小規模モデルに委譲します。
Perplexity AIは、Rustで再実装したUnigramトークナイザーをオープンソース化し、Hugging Face tokenizers crateと比較してp50レイテンシを5倍低減、本番環境でのCPU使用率を5〜6倍削減しました。最適化には、ダブルアレイトライ、ビットマップパッキング、ヒュージページが含まれます。
Mistral AIのCEOアーサー・メンシュ氏は、インフラコスト削減のためカスタムチップの開発を検討していると認め、OpenAIやAnthropicに対抗する。また、フランスに推論専用のデータセンターを新設し、エンタープライズ向けエージェントプラットフォーム「Vibe」を発表した。
上海創智学院のLeapQuestチームは、複数の大学と協力して、モデルが推論プロセスで視覚ツールを積極的に活用し、受動的な入力から能動的なエビデンス探索へと変革する新しい医学AIパラダイムを提案。2本の論文がICML 2026に採択された。
本論文では、トランスフォーマーアーキテクチャに基づくTrinityを提案し、統一ネットワーク内でクラス固有のセマンティックセグメンテーションとクラス非依存の地形分割を同時に実行する。地形領域は事前定義ラベルやロボット依存の走行可能性スコアなしに視覚的外観のみで分割され、ロボット非依存の視覚的地形事前知識を学習可能にする。大規模トレーニングのためにOAISYSシミュレータを拡張しRUGDSynth合成データセットを作成、さらにEXTerra実世界データセットを提供する。実験により複雑な屋外環境での有効性が実証された。
研究者らは、条件付き大規模言語モデルを用いて、音声またはテキストのコマンドを微分可能な目的関数に変換するモジュラー型エージェントパイプライン「Speak-to-Objective」を提案する。これは、制約認識逆解法と実験的な光流体プラットフォーム上で微粒子を組み立てるためのものである。アプローチは「知覚→構成→提案→行動→報告と学習」のループを採用し、目的を意図と動作のインターフェースとして扱うことで、自然言語でプログラム可能なマイクロスケールアセンブリを実現し、自律的な光製造プラットフォームへの道を開く。
本研究では、DINOv2、DINOv3、CLIPから得られた表現を条件として合成画像データを生成する表現条件付き拡散モデルを提案。ImageNet100において、クラス条件付き生成を+10.76 p.p.のトップ1精度で上回る。合成データセットを拡大することで、実データで学習した分類器を+2.0 p.p.凌駕することも可能。また、データ拡張やサンプルフィルタリングにおいても優れた性能を示し、大規模視覚学習タスクにおける実世界データセットの補完や代替の有望な手法を提供する。
研究者らは、D²Turbフレームワークを提案。深度認識乱流合成プロトコルと適応型構造事前注入機構を導入し、大気乱流緩和をテクスチャのデブラリングと幾何補正の2つの相互作用する段階に分解することで、合成データと実データの両方で最先端の性能を達成した。
本研究では、異種注意構造を持つTransformerモデルの解釈手法を提案し、意味解釈と論理解釈を含む実験で有効性を検証した。
第10回ABAWワークショップ&コンペティションがCVPR 2026で開催され、感情模倣強度推定、アンビバレンス/ためらい認識、細粒度暴力検出などの新たなチャレンジを導入し、従来の感情推定・認識タスクとともに、マルチモーダル人間中心AIを推進します。コンペティションは大規模な実環境データセットを活用し、ペーパートラックはポーズ推定から公平性やロバストネスまで幅広いトピックをカバーします。
大規模言語モデル(LLM)は計算社会科学の代理としてますます利用されているが、人間コミュニティの「厚い記述」を忠実に再現する能力は依然として重要な課題である。本稿ではCARE(Community-Aware Reaction Evaluation)フレームワークを提案する。これは、LLMがシミュレートする言説と、実際のコミュニティが現実のニュースに対して示す即時反応を比較する反応中心の評価手法である。発話内トーンの詳細なスペクトルを特徴づけることで、明示的なコミュニティプロンプトでLLMを誘導してもシミュレーションの忠実度が本質的に向上しない「リアリズムギャップ」が明らかになった。さらに、最先端モデル間で異なる行動特性が確認され、現在のアライメント戦略はオンライン集団の社会言語学的ダイナミクスを捉えるには不十分であることが示唆される。
FLUIDフレームワークは、自己回帰言語モデルを拡散モデルに適応させ、効率的な並列テキスト生成を実現します。厳密因果アライメントによりGPTチェックポイントを再利用し、エントロピー駆動の弾性地平でノイズ除去ステップを動的に調整します。トレーニングコストを桁違いに削減しつつ、最先端の性能を達成します。
研究者らは、低リソース言語の音声言語モデルにおいて合成データを使用する際の「安定性-表現力ギャップ」を特定し、韻律の多様性を回復する2つの自己アライメントフレームワーク(DGSAおよびTDSC)を提案。ElevenLabsやGemini Proなどの商用システムを凌駕し、ラオ語での初のゼロショット音声クローンを実現。
BioELXは、注釈付きトレーニングデータを必要としない、新しい言語横断的生医学エンティティリンキングフレームワークです。Wikidataの多言語エイリアスでSapBERTを強化し、事前学習済みLLMを使った文脈認識型曖昧性解消を行います。5つのベンチマークでの実験により、特にトルコ語、韓国語、タイ語などの低リソース言語で大きな改善が見られました。
RAG-Codingは、4つの大規模言語モデル(LLM)エージェントを調整し、外部知識源(公式コード一覧やガイドラインなど)に基づいて意思決定を行う自動化されたICD-10-CMコード化手法です。MDACEデータセットでは、最良のLLMベースラインと比較してマイクロF1で8〜13%、マクロF1で2〜8%向上しました。最先端の事前学習モデルPLM-ICDと比較すると、RAG-Codingはマイクロ再現率が11%高い一方、PLM-ICDはマイクロ精度が6%高く、両者のF1は同等です。アブレーション実験により外部知識の重要性が確認されました。また、2025年ガイドラインに基づいて専門家が再注釈したMDACE-2025データセットを公開し、より細かいコードラベルでの評価を可能にしました。
大規模言語モデル(LLM)が自律エージェントとして動作する際、インコンテキスト・リワードハッキング(ICRH)と呼ばれる現象により、代理目的を最大化する反復最適化が有害な副作用を引き起こす。既存の防御策では不十分であり、ICRHはモデル自身の過剰最適化に起因する。本稿では、LLMベースの制約最適化(LCO)フレームワークを提案する。LCOは自己思考モジュールと進化サンプリングモジュールから構成され、モデルの微調整なしでICRHを低減する。実験では、ツイートエンゲージメント最適化タスクにおいてGPT-4の有害性成長率を39%削減し、ポリシー最適化ベンチマークではICRH発生率を15.23%削減し、タスク性能を維持した。
本サーベイは、混合専門家モデル(MoE)がマルチモーダル学習の課題を効率的エンジン、表現学習器、アダプターという3つの視点からどのように解決するかを探り、解釈可能なルーティングや専門家間通信などの研究ギャップを特定する。
本論文では、エッジAIGCリソース管理のための実行可能かつ進化するエージェント$E^3$-Agentを提案する。ミリ秒単位のルーティング決定を行う高速パスと、イベント駆動型LLMメタコントローラからなる低速パスを分離し、実行フィードバックからオンライン学習することで、未知で時変的なサービス時間マッピングに適応する。評価では、平均レイテンシを65%-73%削減し、スタッター率も効果的に抑制した。
LaneRoPEは、シーケンス間アテンション機構と位置エンコーディング拡張により、複数のLLMシーケンスが生成中に協調できるようにし、数学的推論タスクにおける精度を向上させる。アーキテクチャへの変更は最小限で、推論時のオーバーヘッドは無視できる。
本論文は、大規模言語モデルが因果発見を行う際の根本的な限界を証明しています:教師ありファインチューニング、直接選好最適化、インコンテキスト学習などの手法では、類似した観測データを生成する因果グラフを区別できません。著者らは、凍結された言語モデルを介入オラクルとして使用し、外部ベイズループが対数回数のラウンドで候補グラフに収束するエージェンティック因果ベイズ最適化(A-CBO)を提案しています。Corr2Causeでは、A-CBOは訓練なしでファインチューニングベースラインに匹敵し、24変数・18Kテストサンプルに拡張したExtended Corr2Causeでは、A-CBOはファインチューニングおよび選好最適化の両方を大幅に上回ります。
本論文では、DFJSPのための診断フレームワークDynaSchedBenchを提案する。逐次イベント空間キャリブレータ(SESC)とスケジュールストレス指標(SSI)を用いて難易度を層別化したインスタンスを生成する。LLMスケジューリングエージェントにおける「可観測性のパラドックス」を特定し、完全な構造情報を提供すると性能が低下することを発見した。ツール拡張や洗練戦略も信頼性のある改善をもたらさない。
本論文では、テキスト中の人間の価値観の強度を検出・定量化するLLMベースのアーキテクチャを紹介する。このアーキテクチャは3つの調整可能なモジュールで構成され、ValueEvalデータセットでの実験により良好な検出性能を示した。
Sakana AIと東京大学の研究者らは、Transformerベースのネットワークをブロックごとに訓練するDiffusionBlocksを提案。訓練メモリをブロック数B分の1に削減しつつ、多様なアーキテクチャで性能を維持する。残差接続を拡散モデルのオイラー法ステップと解釈し、スコアマッチングによる原理的な局所目的を実現する。
SQLite は AGENTS.md ファイルを追加し、AI 生成の貢献に関する方針を明確にしました。事前の合意なしのプルリクエストは受け付けず、エージェントコードも受け付けませんが、再現可能なテストケースを含むバグ報告は歓迎します。AI 生成のバグ報告が殺到したため、専用のバグフォーラムが作成されました。
Databricksは、オープンソースからプロプライエタリまであらゆる最先端モデルに対応する独自の推論プラットフォームを構築し、世界最大級のエージェントアプリケーションを支えています。毎月120兆トークンを処理し、モデルユニットによる容量管理、コスト認識型負荷分散とオートスケーリング(GPUコスト80%以上削減)、ブラックボックスヘルスチェックによる実行時信頼性などの仕組みで、信頼性とレイテンシの課題に取り組んでいます。マルチモーダルボトルネックのプロファイリングにより、スループットを3倍向上させました。
Artificial AnalysisとIBMが、エンタープライズITエージェントタスク向けのベンチマークITBench-AAを発表。サイトリライアビリティエンジニアリング(SRE)に焦点を当て、フロンティアモデルはすべて50%未満のスコアで、Claude Opus 4.7が47%でトップ。このベンチマークは、Kubernetesインシデント対応におけるモデルの診断能力を評価する。
NVIDIAの研究者は、エージェントハーネスを変更せずに強化学習で言語エージェントを訓練するロールアウトフレームワークPolarを発表した。Polarはハーネスと推論サーバーの間にモデルAPIプロキシを配置し、トークンレベルの相互作用を捕捉してトレーナー対応の軌跡を再構築する。Qwen3.5-4BベースモデルにGRPOを適用した結果、CodexハーネスでSWE-Bench Verified pass@1を22.6ポイント、Claude Codeで4.8ポイント、Piで6.2ポイント改善した。本フレームワークはNeMo Gym環境として登録され、ProRL Agent Serverリポジトリで公開されている。
この記事は、AnthropicとOpenAIがエンタープライズ顧客をAPIベースの価格設定に移行し、コーディングエージェント製品を活用することで製品市場適合を達成したと主張しています。この転換点は2025年11月のモデル改善から始まり、2026年4月の新モデルリリースと価格変更で加速しました。
南アフリカは世界の白金族金属埋蔵量の約88%を保有し、アフリカ最大のデータセンター市場を持ち、米中AIインフラ競争の最前線にある。しかし、幻覚的な引用を含むため撤回されたAI政策草案は、これらの優位性を有利な条件のために活用できていない。記事では、南アフリカの構造的レバレッジ、3つの可能性のあるAIインフラの未来(中国、米国、ローカルのオープンウェイト)、および拘束力のあるガバナンス条項の必要性を分析している。
EAGLEチーム、vLLMチーム、TorchSpecチームは共同でEAGLE 3.1をリリースし、本番環境での投機的デコーディングの不安定性を修正しました。このアルゴリズムは、FC正規化と正規化後隠れ状態フィードバックという2つのアーキテクチャ改善により、注意ドリフト問題に対処します。長コンテキストタスクでは受け入れ長が最大2倍に向上し、Kimi K2.6モデルでのベンチマークでは同時実行数1でスループットが2.03倍に向上しました。EAGLE 3.1はEAGLE 3チェックポイントと互換性があり、vLLMメインにマージされ、v0.22.0で出荷されます。
スタートレックの比喩を用いて、AIシステムにおける「戦略」と「実行」のギャップを指摘。防御策を講じるだけでは不十分で、実際に作動させなければ重大な失敗に至ることを示唆。
NUS、MIT、A*STARの研究者が提案するMEMOは、コーパス知識を独立した訓練可能なメモリモデルにエンコードするモジュラーフレームワークであり、LLMが再訓練や微調整なしで新しい知識を組み込むことを可能にします。
AIモデルの生の知能は頭打ちになっており、次の進歩はモデルの周りに構築するものからもたらされます。AIエージェントハーネスは、LLMにツール、メモリ、人間の介入を提供し、有用なデジタルアシスタントに変えます。Google、LangChain、OpenAI、Anthropicなどの企業がさまざまなソリューションを提供しています。
この研究では、網膜眼底多疾患画像データセット(RFMiD)を用いて、12のアーキテクチャ(畳み込みニューラルネットワーク、視覚Transformer、ハイブリッドモデル、視覚言語モデル)を二元スクリーニングとマルチラベル分類で比較評価しました。すべてのモデルは二元スクリーニングで良好な成績(AUC>84%)を示しましたが、注意機構ベースのモデル(SwinTiny、CoAtNet0、MaxViTTiny)が最良でした。視覚言語モデルはCNNベースラインと同等でしたが、最良のTransformerやハイブリッドモデルには及びませんでした。Messidor-2での外部検証では、AUCは66.8%~84.7%の範囲で、ハイブリッドモデルとTransformerモデルが強い性能を示しました。
研究者らは、次元分布感情状態(DDES)という新しい感情表現を提案。バレンスと覚醒を用いて芸術作品が引き起こす感情反応を予測し、博物館のキュレーターが感情ベースの展示を設計するのを支援する。
この研究では、300セッション・1400ターンからなるマルチターンText-to-SQLベンチマークEnterpriseMem-Benchを導入。5つの先端モデルを評価した結果、ステートレスモデルはターン3で精度がゼロに低下、メモリの複雑さは性能を単調に向上させずワーキングメモリが支配的、Claude Sonnet 4.6はSEC EDGARで世代的な後退、推論下ではClaudeのエラー分布が単一モードになることが明らかになった。
本論文は、シナリオベースの行動プロービングと活性化誘導を用いて、再学習なしにLLMの文化的価値調整を変更する汎用フレームワークを提案する。実験では、文化的価値の潜在的な絡まりが明らかになり、正確な調整が制限されることが示された。
新しい研究により、大規模言語モデル(LLM)がグラフやテーブルなどの構造化知識を扱う際に幻覚を起こすメカニズムが明らかになりました。幻覚はランダムノイズではなく、系統的な内部ダイナミクスに起因します。注意がショートカット的な構造的手がかりに集中し、フィードフォワード表現が知識を接地できず、パラメトリックメモリに退行するためです。これらのパターンはさまざまな構造化知識形式に一般化され、幻覚検出に有効です。
本研究は、検索拡張生成(RAG)を勾配降下の観点から再検討します。線形自己注意層が統一された線形化RAG目的関数に対して1ステップの勾配降下を実行できることを証明し、検索拡張予測と文脈内最適化の間に厳密な対応関係を確立します。この洞察に基づき、著者らは凍結されたRAG大規模言語モデルの証拠利用インターフェースを前方のみの更新で最適化する軽量手法を提案します。7つのQAベンチマークにおいて、検索器やバックボーンを変更せずにベースライン性能を向上させ、はるかに低いクエリあたりコストでテスト時勾配適応に迫る結果を示しました。
本論文では、日常的な放射線腫瘍学の診療に統合された、大規模言語モデル(LLM)駆動の自動臨床要約および臨床試験特定システム「デイリードーズ(TDD)」について説明する。55名の臨床医を対象とした混合評価により、良好なユーザビリティ、満足度、時間節約の可能性が示された。
SPEAR(Sandboxed Prompt Engineer with Active Roll-back)は、コードをアクションとして扱うパラダイムを自動プロンプトエンジニアリングに導入した自由形式のエージェンティック最適化手法です。評価、Python、set_prompt、finishの4つのツールを備え、自律的に使用方法を決定します。特にPythonサンドボックスにより、評価データフレーム上で構造的なエラー分析(混同行列、エラークラスタリング、グループ別メトリクスなど)を実行できます。メトリクスが悪化した場合の自動ロールバックとオプションのガードメトリクス下限により、単調な改善を保証します。3つの産業用LLM-as-judgeスイート(13タスク)と7つのBBHタスク、GSM8Kで評価した結果、SPEARはすべての産業タスクで主要メトリクスにおいて勝利し、BBH-7で平均精度0.938を達成しました。アブレーション実験では、Pythonツールが最も重要な要素であることが示されました。
本論文は、リー群埋め込み動的ニューラルネットワーク(LieEDNN)を提案し、随伴作用を用いてリー群と加法演算の非互換性や非ユークリッドダイナミクスを克服し、多様体上での安定学習を実現する。SE(3)上の伸縮マニピュレータ実験で有効性を確認。
時系列基盤モデル(TSFM)の事前学習において評価データセットが露出し、性能評価が過度に楽観的になる懸念に対し、本研究はTSFMの事前学習データ汚染監査を初めて研究した。提案手法TSFMAuditは、プローブ適応ダイナミクスに基づき、微調整プローブ後、汚染データセットでより速い損失減少と小さなバックボーン移動を示すことを利用する。6つのTSFMと187データセットで評価し、LLM文献から適応した10のベースラインを上回った。
AirCast-SRは、全球AI気象予報を0.25度(約28km)から1kmの水平解像度にダウンスケールする基盤モデルで、時間解像度は1時間です。3次元U-Netを潜在一貫性モデル拡散フレームワーク内で使用し、アメリカ本土のデータで訓練されています。このモデルはほぼゼロのバイアスを達成し、微細な大気構造を保存します。複数の季節にわたって検証され、再学習なしでインドとドイツへのゼロショット転移が実証されました。
本論文では、データキュレーションを超球面上の変分問題として再定式化し、混合バランス正則化器を追加したGEM(幾何学的エントロピーミキシング)フレームワークを提案する。クラスター崩壊を克服し、ユークリッド発見法では見えないバランスの取れた意味構造を発見する。教師-学生蒸留によるスケーラビリティと解釈可能な分類生成のための幾何学的影響スコア(GIS)を導入し、DoReMiやRegMixなどの混合戦略に統合することで、1.1Bパラメータモデルでの平均下流精度を最大1.2%向上させる。
JobBenchは、専門家が委任を優先するワークフローでAIエージェントを評価する新しいベンチマークであり、GDP価値による置き換えではなく人間の能力を高めることを目指しています。