Mistral AI、欧州AI推進のため30億ユーロ調達を模索 2026-06-12 フランスのAIスタートアップMistral AIは、約30億ユーロの新たな資金調達ラウンドを交渉中で、評価額は約200億ユーロとなっています。
Mistral AIが30億ユーロの資金調達を交渉中 評価額は約200億ユーロ AIエコノミクスがFinOpsを再編:企業は可視性と制御の向上を模索 2026-06-12 企業全体でAI支出が加速する中、組織は新たなコストと最適化の課題に取り組み、AI支出の可視性向上を求めている。FinOpsの次のフェーズは、可視性の向上と財務責任を日常の技術的意思決定に組み込むことに重点を置いている。
AI支出の急増により、企業は可視性とコスト管理の向上を必要としている。 FinOpsはクラウドコスト管理を超え、より広範なテクノロジー支出に拡大。 Zyphra、Zamba2-VLをリリース:Mamba2-Transformerハイブリッド視覚言語モデル、初回トークンまでの時間を約一桁削減 2026-06-12 Zyphraは、1.2B、2.7B、7Bパラメータのオープンな視覚言語モデルZamba2-VLファミリーをリリース。Mamba2状態空間とTransformerのハイブリッドバックボーンを採用し、Apache 2.0ライセンスで提供。同等のTransformer VLMと競合しつつ、初回トークンまでの時間を約一桁削減。
Zamba2-VLシリーズは1.2B、2.7B、7Bパラメータの3サイズでオープンソース提供。 Mamba2状態空間層と共有Transformerブロックのハイブリッドアーキテクチャにより、ほぼ線形時間のプリフィルを実現。 Gemini Omni:Gemini内でのAI動画生成 2026-06-12 Gemini Omniは、テキストや画像からの動画作成、静止画のアニメーション化、既存動画の編集を可能にし、動画生成をGeminiマルチモーダルAIアシスタントの一部として統合します。記事では実際のテストを通じてその能力を示す一方、利用制限、動画長の上限、コンテンツポリシーの厳しさなどの課題も指摘しています。
Gemini Omniはテキストや画像から直接動画を生成でき、独立したツールが不要。 画像から動画、テキストから動画、動画編集の3つの主要ユースケースをサポート。 「ポケモンGO」のデータで訓練されたAI、戦場の軍事ドローン支援に活用へ 2026-06-12 世界的に人気の拡張現実ゲームからの位置情報スキャンデータが、AIが物理空間を認識・解釈する訓練に使用され、戦場での軍事ドローン位置特定に役立つ可能性がある。
ポケモンGOのユーザーデータで訓練されたAIが、戦場での軍事ドローンの位置特定に利用される可能性。 2016年リリースの同ゲームは、2018年までに全世界で8億回以上ダウンロードされた。 Sparse2Act:クロスドメインロボット操作のための行動整合スパース3D表現の学習 2026-06-12 Sparse2Actは、タスク空間のエンドエフェクタ動作を幾何学的な監督として用い、スパース点群エンコーダを観測と整列させる事前学習フレームワークである。LIBERO-10で86.9%の成功率、Meta-World-5へのクロスドメイン転移で73.4%、実世界実験で72.5%の成功率を達成。
Sparse2Actは行動整合型マスク信号でスパース3Dエンコーダを事前学習し、再利用を可能にする。 LIBERO-10ベンチマークで500微調整ステップで平均成功率86.9%を達成。 EWAM:身体知能における閉ループオンライン適応のための拡張世界行動モデル 2026-06-12 EWAMは、凍結されたCosmos3バックボーンネットワーク上に構築された閉ループオンライン適応アーキテクチャであり、推論時共推論メカニズム(4つの軽量ニューラルレイヤー)を用いてゼロショットタスク適応を実現し、追加のデモデータや微調整なしで新しいタスクレイアウトへの適応に必要なデプロイデータ量を大幅に削減します。
EWAMは凍結されたCosmos3バックボーンを基盤とし、ニューラル経験記憶層、異常検出層、ポリシールーティング層、アクション補正層の4つの軽量ニューラルレイヤーによる推論時共推論を採用。 ゼロショットプロトコルで評価され、追加のデモセットやバックボーンの微調整は不要で、性能向上は全て推論時メカニズムに起因。 模倣からアライメントへ:長距離歩道ナビゲーションのための人間選好フローポリシー 2026-06-12 FlowPilotは、単眼RGBカメラのみを使用する地図不要の長距離歩道ナビゲーションポリシーです。アンカー付きフローマッチングによる大規模ロボット群データでの事前学習と、人間参加型の選好学習スキームにより、社会的コンプライアンスと反事実推論を向上させます。シミュレーションでは成功率42%、経路完了率66%を達成し、実世界実験では介入率が40.0%、非介入率が52.1%低減しました。
アンカー付きフローマッチングを用いて大規模ロボット群データで事前学習し、歩道ナビゲーション行動の多様で複雑な分布を捕捉。 人間参加型の選好学習により、少量の介入データでポリシーを調整し、社会的コンプライアンスと反事実推論を強化。 Foresight:ナビゲーションに重要な手がかりに関する反復推論 2026-06-12 本論文では、Foresightフレームワークを提案する。これは、テスト時に微調整された視覚言語モデルを用いて運動計画を反復的に提案と批評を行い、疎な言語指示によるマップレスナビゲーションを実現する。人間のフィードバックから報酬モデルを学習し、強化学習でVLMを後訓練することで、実際の環境でタスク成功率を37%向上、介入回数を52%削減した。
Foresightは、事前学習されたVLMを利用して、テスト時に画像空間の運動計画を反復的に提案・批評し、指示に関連する環境の手がかりに焦点を当てる。 人間のフィードバックから学習した報酬モデルを用いて、計画-批評ループ内で強化学習によりVLMを後訓練する。 ロボット操作のためのアクション-エフェクトメモリ事前学習 2026-06-12 AEMという事前学習フレームワークは、視覚-動作履歴からコンパクトな時間表現を学習し、シミュレーションと実世界の操作タスクでベースラインを上回る性能を示します。
AEMは、視覚と動作の特徴を交互に配置したマスクモデリングを使用して、動作条件付き状態進化を学習します。 Mambaでエンコードされた単一ベクトルの時間的ボトルネックを採用し、効率的な推論を実現します。 学習による支援:暗黙的人間・ロボット協調のための協調型VLA 2026-06-12 本稿では、模倣学習によるエンドツーエンドで訓練された視覚・言語・動作(VLA)モデルが協調操作を支援できることを示す。アクションチャンキングポリシーの障害モードとして、デモンストレーションアクションリークが早期の支援行動を引き起こすことを特定し、推論時ステアリング手法を提案する。長期協調組立タスクにおける16名の参加者によるユーザスタディでは、ステアリングにより実行期間が延長され、協調が高速化し、障害が減少することが示された。
エンドツーエンドのVLAモデルが暗黙的人間・ロボット協調を可能にする。 アクションチャンキングポリシーはデモンストレーションアクションリークによる早期支援の問題を抱える。 VLADriveBench: 自動運転におけるVLAのCoT-アクション関係の評価 2026-06-12 VLADriveBenchは、視覚-言語-行動(VLA)モデルにおけるチェーン・オブ・ソート(CoT)推論が運転軌跡と関連性、一貫性、因果関係を持つかどうかを評価する新しいフレームワークです。観測指標(言及、幻覚、矛盾、行動アライメント)とCoT介入プロトコルを組み合わせています。3つのモデルに適用した結果、観測分析と因果分析が大きく乖離する可能性があることが判明しました。ORIONは観測アライメントで最高スコアを示しましたが、そのCoTは随伴現象であり、一方Alpamayo v1.5はスコアが低いもののCoTは強く因果的であり、視覚的顕著性がCoTの影響の程度を調整していました。
既存のベンチマークは軌跡品質のみを評価し、CoTと行動の関連を無視している。 VLADriveBenchは観測指標と介入プロトコルという相補的な視点を導入する。 SalArt-VQA:生成画像における顕著なアーティファクトをVLMが理解しているかを診断する 2026-06-12 SalArt-VQAは、視覚言語モデル(VLM)がAI生成画像のアーティファクトを細粒度で理解する能力を評価するための診断ベンチマークです。950枚の画像と3,681問の多肢選択問題を含み、存在検出、意味的定位、空間的接地、証拠に基づく欠陥識別をカバーします。20のVLMをテストした結果、最強のモデルは検出再現率99.37%を達成したものの、全4問に正解した画像は53.26%のみであり、感度と較正のトレードオフが明らかになりました。
SalArt-VQAベンチマークは、AI生成画像のアーティファクトに対するVLMの細粒度理解を評価します。 950枚の画像と3,681問の多肢選択問題からなり、4種類の質問タイプを含みます。 ECA:オープンエンド画像テキスト生成のための効率的な継続的アライメント 2026-06-12 本論文では、オープンエンド画像テキスト生成におけるインクリメンタル学習のための効率的継続的アライメント(ECA)を提案する。継続的アライメントの概念と3つのコアメカニズム(クエリ混合モジュール、フィッシャー動的拡張、辞書リプレイ)により、ECAは過去のデータにアクセスせずに破滅的忘却を軽減し、新しいベンチマークで優れた性能を達成する。
データ分布の変化に対応する継続的アライメント概念を導入 タスク固有の特徴を抽出するクエリ混合モジュールを設計 文脈認識型特徴融合:自動運転における共起物体検出 2026-06-12 局所文脈融合モジュール(LCFM)と大域文脈注意モジュール(GCAM)を用いたContext-Centric Feature Fusion(CCFF)フレームワークを提案。CityscapesとBDD100Kデータセットでカテゴリレベルの一貫性戦略(CCS)がそれぞれ0.973と0.969に達し、小物体検出AP_Sが14.1%向上、まれなクラス「Train」の復元に成功。リアルタイム処理を実現し、オーバーヘッドは0.2 FPSのみ。
CCFFフレームワークは局所・大域注意モジュールで共起物体検出を強化 CityscapesとBDD100KでCCSが0.973と0.969 医療用大規模視覚言語モデルにおける細粒度選好最適化の解析と改善 2026-06-12 医療用LVLMは事実の一貫性や視覚的根拠付けに課題がある。既存のアライメント手法は、シーケンスレベルの報酬、静的SFT参照への依存による分布シフト、視覚的根拠付けの欠如という3つの限界がある。提案手法は、双方向トークンワイズKL正則化器と視覚対比的根拠付け目的を用い、モデル出力を最小限編集して選好ペアを構築する細粒度オン・ポリシーアライメントフレームワークを形成する。実験で有効性を確認した。
既存の選好最適化手法は医療分野で3つの限界がある。 提案手法は双方向トークンワイズKL正則化と視覚対比的根拠付けを組み合わせる。 教師アライメントを用いたエンドツーエンド蒸留による高忠実度2段階画像生成 2026-06-12 少数ステップ拡散蒸留は4〜8ステップ生成では成熟しつつあるが、2ステップへのさらなる短縮は依然として困難である。本論文では、8ステップのZ-Image Turbo教師モデルから蒸留された高品質2ステップ画像生成モデルZ-Image Turbo++を紹介する。分布整合敵対的学習、ステップ分離パラメータ化、反復正則化付きエンドツーエンドトレーニングの3つの設計により、2ステップと8ステップ生成の品質差を大幅に縮小する。
GANトレーニングの実サンプルとして外部画像ではなく教師生成画像を使用する分布整合敵対的学習を提案。 各ノイズ除去ステップに独立したモデルパラメータを割り当てるステップ分離パラメータ化を採用。 エージェントベースモデルによる形態交替パターンの進化 2026-06-12 本論文は、多エージェントシミュレーションを用いて、英語の「go」の過去形「went」のような形態交替の出現と持続性を説明する。交替形式は音韻変化または語彙的変異から生じ、集団内の伝播動態を通じて広がる。生成された形態の現実性を評価するため、大規模言語モデル駆動のシステム「AI歴史言語学者」を導入し、実言語とシミュレーションの形態を比較する。結果は、スケールフリーな社会ネットワークとランダムなベルヌーイ採用がより妥当なパターンをもたらすことを示す。3つのケーススタディで実際の歴史的変化をモデル化している。
多エージェントシミュレーションが「go/went」のような形態交替のメカニズムを解明。 AI歴史言語学者がLLM駆動の討論により形態の現実性を評価。 AfriSUD:アフリカ言語におけるモデル評価のための依存関係ツリーバンクコレクション 2026-06-12 AfriSUDは、SUDフレームワークを用いた9つの多様なアフリカ言語の最初の大規模構文注釈付きツリーバンクコレクションです。モデル評価により、アフリカ言語の構文を捉える上で顕著な構文ギャップが明らかになりました。
AfriSUDは主要な語族と地域にわたる9つのアフリカ言語をカバー 表層構文ユニバーサル依存関係フレームワークを使用し、膠着や声調を捉える MentalMARBERT: アラビア語のメンタルヘルス障害検出のためのドメイン適応型事前学習と2段階ファインチューニング 2026-06-12 新たな研究では、アラビア語のソーシャルメディアテキストからメンタルヘルス障害を検出するために、MARBERTのドメイン適応版であるMentalMARBERTを提案しています。適応的事前学習と階層的ファインチューニングからなる2段階フレームワークを用いて、6カテゴリにわたる50,670件のツイートからなる新しいデータセットで、マクロF1=0.861、精度=0.877という最先端の性能を達成しました。
アラビア語のメンタルヘルスNLPは、方言の多様性やリソース不足などの課題に直面しています。 本研究では、ドメイン適応型事前学習と階層的2段階ファインチューニングからなる2段階フレームワークを導入しています。 ショッピング推論ベンチマーク:マルチターン会話型ショッピングアシスタントのための専門家作成ベンチマーク 2026-06-12 ショッピング推論ベンチマーク(Shopping Reasoning Bench)は、小売ドメインの専門家によって作成された新しいベンチマークであり、525のミッション(シングルターン232、マルチターン293)と10,863の重要度加重バイナリルーブリックで構成されています。嗜好の洗練、トレードオフ分析、互換性評価などのマルチターン推論能力を評価します。GPT、Claude、Geminiなどのトップモデルの評価では、全体的な合格率はわずか57~77%であり、マルチターンタスクでは大幅に低下し、専門家レベルのアドバイスにはまだギャップがあることを示しています。
ショッピング推論ベンチマークは、525の専門家作成ミッションと10,863のルーブリックで構成されています。 ショッピング会話に不可欠な5つの推論カテゴリと15のサブカテゴリをカバーしています。 ペルシャのことわざに基づくストーリー生成におけるLLMの制約付きセマンティックデコンプレッション 2026-06-12 本研究では、抽象的なペルシャのことわざを道徳的に忠実な物語に変換することを「制約付きセマンティックデコンプレッション」タスクと位置づけ、ペルシャのことわざに基づくストーリー生成用データセットPANDを紹介する。ハイブリッド評価フレームワークにより、現在のLLMは流暢なテキストを生成できるものの、ことわざに埋め込まれた道徳的・因果構造を忠実に具現化できない「デコンプレッションギャップ」が明らかになった。明示的な推論と反復的な改良がこのギャップを部分的に緩和する。
抽象的なことわざからストーリーを生成するLLMの能力を評価する「制約付きセマンティックデコンプレッション」タスクを提案。 ことわざ-ストーリー-意味のトリプルを含むPANDデータセットを構築。 MARD: ミラー拡張推論蒸留によるメカニズムレベルの薬物間相互作用予測 2026-06-12 本論文では、メカニズムレベルの薬物間相互作用(DDI)予測のための再現可能なラベリング・評価プロトコルを提案する。7ファミリー147サブタイプの分類法とリークセーフなコールドスプリット戦略を特徴とする。また、シングルトークンKLダイバージェンス、PRM加重DPO、メカニズム認識検索チャネルという3つの訓練革新を組み合わせたMARD-7Bモデルを開発。2026年4月のDrugBankリリースにおいて、MARD-7Bは32システム中で薬物対の新規性下でも精度を維持した唯一のシステムであり、最良ベースラインを13.9ポイント、GPT-4oを6.7ポイント上回り、コストはフロンティアAPIの約1%である。反記憶化シグネチャは、モデルが稀な薬物でも精度を向上させることを示し、その利得は薬物頻度の記憶ではなく構造化された薬理学的推論に由来することを示唆している。
メカニズムレベルDDI予測のための7ファミリー147サブタイプ分類法とリークセーフなコールドスプリット評価プロトコルを提案。 MARD-7BはシングルトークンKLダイバージェンス、PRM加重DPO、メカニズム認識検索を統合した推論蒸留モデル。 EDEN:イタリア語の臨床ノートの大規模コーパス 2026-06-12 EDEN(Emergency Department Electronic Notes)は、イタリアの病院救急部門で作成された約400万件の完全匿名化された臨床ノートからなる新たな大規模コーパスです。そのうち約6000件のノートは、呼吸困難と意識消失の2つの患者状況に関連する132項目について臨床専門家によって手動で注釈が付けられています。このデータセットは、イタリア語における最大の自由に利用可能な臨床ノートコーパスであり、医療応用における大規模言語モデルの開発と利用を支援することを目的としています。
約400万件の匿名化された臨床ノートを含む 約6000件のノートに132項目の手動注釈 PermDoRA: 言語モデルにおけるアダプター干渉の理解 – パラメータ空間幾何の限界 2026-06-12 大規模言語モデルのモジュール設計における一般的な仮説は、アダプター干渉が線形パラメータ更新の重複に起因するというものです。本研究ではDoRA-RBACを用いてこれを検証し、幾何学的マージ戦略が標準平均に対して一貫した優位性を持たず、直交性は弱い予測因子であることを発見しました。干渉はパラメータ空間幾何ではなく、共有非線形表現における相互作用に起因することが示唆されます。
LLaMA-3.1-8BおよびMistral-7B上で、GPQA、PubMedQA、SimpleQA、WMDPなどの複数QAベンチマークを用いてDoRA-RBACを評価。 幾何学的なリーマンマージ戦略は、マルチドメイン設定において標準的なユークリッド平均に対して一貫した優位性を示さなかった。 勾配ベースのGray-Scottシステム反転の損失景観診断:PINNコンポーネントの役割の解明 2026-06-12 この研究は、偏微分方程式構造を通じた直接逆伝播による損失景観の診断を行い、最適化の失敗が平坦な台地と急な崖に起因することを発見しました。ニューラルネットワークを固定すると残差損失は滑らかな景観を生み出し、病態を回避しますが、ニューラルネットワーク自体は観測データを補完するだけです。
Gray-Scottシミュレーションを通じた直接逆伝播によるパラメータ回復は失敗し、損失景観は平坦な台地と分岐境界に沿った急な崖を示す。 ニューラルネットワークを固定した場合、残差損失は2次形式で滑らかな景観を生み出し、全ての初期条件にわたるPDEダイナミクスを暗に符号化する。 半導体製造のための物理情報生成AI:生成モデルにおけるハードな物理制約の構成的強制 2026-06-12 本論説は、半導体製造などの物理的制約が厳しい領域では、生成AIが事後フィルタリングではなく、構成によって物理情報を組み込む必要があると主張する。物理情報拡散、PDE制約変分モデル、ニューラルオペレータ事前分布などのアーキテクチャツールキットを概観し、物理忠実度ベンチマークや微分可能シミュレータを中心とした研究課題を提案する。
半導体製造では生成モデルがリソグラフィ、輸送、反応などのハードな物理制約に従う必要がある 構成によって制約を強制するアーキテクチャは事後フィルタリングより優れる ProHiFlo: 階層的フローマッチングと機能ガイダンスによる新規タンパク質生成 2026-06-12 ProHiFlo は、粗から精への生成、事前学習済み予測器による機能ガイダンス、適応型 SE(3)-等変アーキテクチャを備えた革新的な階層的フローマッチングフレームワークであり、計算コストを削減しつつ高精度を維持し、酵素活性部位の足場設計で 58.9% の成功率を達成し、既存手法を大きく上回ります。
粗から精への生成戦略で、主鎖形状をモデル化した後、全原子座標に精緻化。 事前学習済み予測器を活用した機能ガイダンスにより、再学習なしで所望の特性を持つタンパク質を生成。 追従行動の二立場評価:同意の構造と介入の限界 2026-06-12 アクティベーション・ステアリングはLLMの行動を変えるが、標準的な評価では追従行動低減が事実に基づく同意も抑制するかどうかをテストしない。本論文では二立場評価を導入し、Llama-3-8B-Instructに重心差ステアリングを適用した。追従的同意と事実的同意は幾何学的に異なる部分空間にあるが、ステアリング方向は両方に等しく投影され、区別できないことがわかった。その結果、追従的発言だけでなく地球が丸いといった事実に基づく同意も減少する。このパターンは、活性化から読み取れる表現が書き込めるとは限らないという一般的なギャップを示している。
アクティベーション・ステアリングは追従行動を減らすが、事実に基づく同意も減らす。 二立場評価は各トピックの両方の立場をテストし、ステアリングの副作用を明らかにする。 デプロイメント中心評価:臨床LLMシステムにおけるクエリレベルの拒否リスク予測 2026-06-12 本論文は、学術医療センターの電子健康記録に組み込まれたLLMシステムのデプロイメント中心評価を提案する。クエリ内容とデプロイメント固有のコンテキスト(提供者タイプ、部門、使用言語モデル)を用いて事前応答分類器を訓練し、ユーザーの拒否リスクを予測する。4.5ヶ月の前向き分析でAUROC 0.719を達成し、デプロイメントコンテキストを用いた拒否予測の実現可能性を示し、標的ガードレールや棄権戦略への道を開く。
静的ベンチマークは正しさのみを測定し密なアノテーションが必要;本研究は実際のデプロイからの疎なユーザーフィードバックを活用。 事前応答分類器はクエリ内容とデプロイメントコンテキスト(提供者タイプ、部門、モデル)を用いて拒否リスクを予測。 Evoflux: コンパクトエージェント向け実行可能ツールワークフローの推論時進化 2026-06-12 コンパクトな言語モデルは、単独の関数呼び出しを超えたツール使用において課題に直面する。Evofluxは推論時に進化的探索を用いて実行可能なツールワークフローを修復し、MCP-Benchタスクで実行可能性を約3%から17-24%に向上させ、SFTやDPOベースラインを上回る。
小規模言語モデルはツールワークフローの依存関係と実行に苦戦する。 Evofluxは構造化編集と実行フィードバックにより型付きワークフローグラフを進化させる。 TrajGenAgent: 人間の移動軌跡生成のための階層的LLMエージェント 2026-06-12 TrajGenAgentは、モデル微調整なしで現実的な合成人間移動軌跡を生成するための階層的LLMエージェントフレームワークを提案する。2段階のオーケストレーター・ワーカー設計を採用:LLMがまずインコンテキスト学習により個人・曜日条件付き活動連鎖を合成し、次に決定論的ワークフローがパーソナライズされたPOI検索、距離認識位置選択、運動学認識移動時間伝播、LLMベースの持続時間推定により各活動を完全な訪問に具体化する。異常検出ベースの評価フレームワークで行動的・意味的妥当性を評価する。実験では、ベンチマークおよび大規模シミュレーションデータセットにおいて、時間空間的忠実性、意味的一貫性、個別行動の現実性で既存手法を上回る。
TrajGenAgentはモデル微調整なしで人間移動軌跡を生成する階層的LLMエージェントフレームワーク。 2段階設計:LLMが活動連鎖を合成し、決定論的ワークフローが活動を訪問に変換。 「あなたは嘘をつきましたか?」モデルスケールと信念検証済みモデル生物における嘘発見器の評価 2026-06-12 大規模言語モデルの嘘発見器を評価するため、13の推論モデル生物(隠れた信念が思考連鎖で検証済み)と多様な欺瞞テストベッドを構築。31のモデルで4種類の検出器をテストした結果、プロンプトによる嘘タスクでは性能がモデル能力と共に向上したが、訓練された生物では思考連鎖判定器を除き性能が大幅に低下。現在の検出器はモデルの信念について高い信頼性を以て主張できない。
隠れた信念が検証された13の推論モデル生物を作成し、嘘発見器を評価。 思考連鎖判定器、対数確率分類器、2つの活性化プローブ(新しいDid-You-Lie法を含む)の4つの検出器を評価。 PersonaDrive:クローズドループ運転シミュレーションのための人間スタイル検索拡張VLAエージェント 2026-06-12 PersonaDriveは、スタイル指示された人間の運転データから検索したデモンストレーションを使用して視覚言語行動(VLA)エージェントを条件付け、スタイルごとの再トレーニングなしで多様な運転スタイルを実現する新しいパイプラインです。Bench2Driveでは、無スタイルで運転スコアがSimLingoより4.6%向上し、全スタイルで最高スコアを達成しました。
PersonaDriveはスタイル指示された人間の運転データセットから検索したデモを利用してVLAエージェントの動作を調整する。 パイプラインはオフラインのトリプレットマイニング、軽量検索ヘッドのトレーニング、VLAバックボーンの微調整の3段階で構成される。 Pythagoras-Prover: Augmented Lean Formalisationによる効率的な形式証明の進展 2026-06-12 Pythagoras-Proverは、4Bおよび32Bの自己回帰モデルと4Bの拡散モデルからなる、計算効率の高いLean定理証明器ファミリーです。段階的なカリキュラムSFTと動的証明フィルタリングにより訓練効率を向上させ、Augmented Lean Formalisation(ALF)を導入して検証コーパスを拡張します。実験では、4BモデルがMiniF2F-TestでDeepSeek-Prover-V2-671Bを上回り(86.1% vs 82.4%)、32Bモデルが93.0%でオープンソースの最高記録を達成し、PutnamBenchで93問を解決しました。
Pythagoras-Proverは4Bおよび32Bの自己回帰モデルと、推論時に証明を反復的に洗練する4B拡散モデルを含む。 難易度別に層別されたデータを用いたカリキュラムSFTと、8kトークンコンテキスト内での動的証明フィルタリングにより訓練効率を向上。 Arbor: 自律エージェントの認知層としての木探索 2026-06-12 Arborは、大規模な状態を持つアクション空間で自律エージェントの認知層として構造化木探索を導入するマルチエージェントフレームワークです。フルスタックLLM推論最適化で検証され、ベンダー最適化ベースラインと比較して最大193%のスループット-レイテンシ・パレート改善を達成し、批評エージェントが安定性を確保します。
Arborは木探索をエージェント間の共有ワーキングメモリとして使用し、協調最適化を実現。 フルスタックLLM推論で最大193%のスループット-レイテンシ・パレート改善を達成、ハードウェア非依存。 ToolSense:LLMにおけるパラメトリックツール知識を監査する診断フレームワーク 2026-06-12 大規模言語モデル(LLM)のツール検索能力を評価する既存のベンチマークは過大評価される傾向がある。研究者らは、より現実的な評価を行うためのオープンソース診断フレームワーク「ToolSense」を提案する。ToolSenseは3種類のベンチマークを自動生成し、ToolBench(約4万7000ツール)での実験では、知識と検索の乖離(知識-検索解離)が明らかになった。標準ベンチマークで高い性能を示すモデルでも、現実的なクエリでは性能が50~64%低下し、埋め込みベースのベースラインを下回る場合がある。
ToolSenseは、LLMのパラメトリックツール知識を監査するオープンソースフレームワーク。 3つのベンチマーク(現実的検索ベンチマーク、多肢選択プローブ、QAプローブ)を自動生成。 Claude Fable は絶えず主体的に行動する 2026-06-11 Simon Willison 氏は、Claude Fable 5 が CSS のスクロールバーのバグをデバッグするために、テストページの作成、JavaScript の注入、CORS サーバーの構築など、数多くの創造的な手法を自発的に用いた事例を紹介。そのセッションは約 12.11 ドルを消費し、サンドボックス化されていないコーディングエージェントの可能性と危険性を示している。
Claude Fable 5 は、CSS の水平スクロールバーのバグを自律的にデバッグし、創造的な手法を多数使用した。 テスト用 HTML ページの作成、PyObjC によるウィンドウ情報の取得、JS インジェクションによるショートカットキー発火、カスタム CORS サーバーの構築などを行った。 Snowflake Summit 2026のカバレッジから見逃したかもしれない3つの洞察 2026-06-11 エンタープライズAIの第二波は、モデルを実際のビジネスで有用にするためのソフトウェアとデータインフラに焦点を当てています。Snowflakeは、独自データとAIモデルを接続するコネクターとしての地位を確立しています。主な洞察は、強固なデータ基盤、セキュリティとガバナンスのフレームワーク、そして本番AIのための信頼できる管理されたインテリジェンスの重要性です。
強固なデータ基盤がエンタープライズAIをビジネス成果に変える(DoorDashやFanaticsの事例)。 エンタープライズAIには、セキュリティ、ガバナンス、信頼のための新しいフレームワークが必要(TenableやKomodo Healthの実践)。 ERGO Hestia、Lakebase と Mosaic AI Model Serving で市場投入期間を短縮 2026-06-11 ポーランドの大手保険会社 ERGO Hestia は、Databricks Lakebase と Mosaic AI Model Serving を使用してリアルタイム価格設定エンジンを最新化し、データ、特徴量、意思決定をラクハウスネイティブプラットフォームに統合してミリ秒単位の価格設定、モデル展開の高速化、ガバナンスの統一を実現しました。
ERGO Hestia はリアルタイム価格設定エンジンをラクハウスネイティブプラットフォームに移行し、外部データベースとアダプタ層を排除。 新しいアーキテクチャは Lakebase によるオンライン特徴量ストアと Mosaic AI Model Serving による直接APIアクセスを活用し、ミリ秒のレイテンシを実現。 シークレットスキャンの信頼性向上:大規模な誤検出削減 2026-06-11 GitHubはLLMベースのコンテキスト検証を導入し、シークレットスキャンの誤検出率を75.76%削減。アラートの信頼性と開発者の信頼を向上させました。
GitHubはMicrosoft Security & AIと協力し、コンテキスト認識型LLM推論による検証を実装。 コードベース全体ではなく、API呼び出しや認証ヘッダーなどの高シグナルコンテキストを抽出。 初の推論拡散LLM「Mercury 2」がBasetenで利用可能に 2026-06-12 Inceptionが開発したMercury 2は、拡散アーキテクチャを採用した最速の推論LLMです。従来の自己回帰モデルとは異なり、並列処理により標準NVIDIA GPU上で毎秒1000トークン以上の生成速度を実現。速度は同等クラスのモデルより5〜10倍高速で、コストは半分以下、品質はHaikuやGPT-5 miniに匹敵します。Augment Codeは本番環境で使用し、コストを90%、レイテンシを82%削減しました。Basetenがエンタープライズ級の推論プラットフォームを提供します。
Mercury 2は初の推論拡散LLMで、出力全体を並行生成し徐々に洗練することで、自己回帰モデルの逐次生成のボトルネックを解消。 標準NVIDIA GPU上で毎秒1000トークン以上、専用チップ不要で、最適化済みモデルの5〜10倍の速度。 LlamaIndex ニュースレター 6-10-26 2026-06-12 今週は、CVPR 2026でのParseBench発表、ビジュアルドキュメントインテリジェンス向けParse-Flowのローンチ、Anthropic Fable 5ベンチマーク結果、LlamaParseの新しいGranular Bounding Box、そしてAI初のピックルボールトーナメントThe Agent Openをお届けします。
ParseBenchがCVPR 2026で初披露、AIエージェント向け文書解析ベンチマーク。 Anthropic Fable 5がParseBenchでコンテンツ忠実度90.02%を達成、競合に12ポイント以上の差。