AI News HubLIVE
公開記事 27収集記事 27信頼度 90更新頻度 30 分
稼働状態 正常ソース種別 研究全文利用権限 公式全文最終取り込み 2026-06-23ID apple-ml-research状態 有効

Official research source; confirm reuse terms before enabling full body display.

最新公開記事

9人の審査員、実質2票:相関エラーがLLM評価パネルの信頼性を損なう

複数のLLMからなる評価パネルは、モデル間の相関エラーのため、独立投票の理想から大きく乖離することが判明。9つの最先端モデルをテストした結果、実質的な情報量は独立投票約2票分に過ぎず、精度は理想よりも8~22ポイント低かった。最良の単一モデルはパネル全体と同等以上の性能を示し、審査員の追加や集約アルゴリズムの改良では改善が限られる。

  • 9つのLLMからなるパネルは実質的に約2票分の情報しか提供せず、名目上の独立性の約75%が同じ項目での誤りの相関によって失われる。
  • 実際の精度は独立投票の理想より8~22ポイント低く、最良の単一審査員がパネル全体に匹敵またはそれを上回る。
サイト内本文

ラベル分布からの学習におけるメトリック依存アノテーション飽和

アノテータがラベルについて意見を異にする場合、その不一致自体がシグナルを運びますが、それを捉えるために必要なアノテータ数は評価メトリックに依存します。本研究では、ChaosNLIからサブサンプリングしたラベル分布でNLIモデルを微調整し、エントロピー相関は20~50人のアノテータで収束する一方、KLダイバージェンスは約10人で飽和することを発見しました。ソフトラベルはラベル平滑化では再現できない項目固有のシグナルを持ちます。

  • ラベル分布でNLIモデルを微調整すると、メトリック依存の飽和が明らかになる。
  • エントロピー相関は20~50アノテータで収束、KLダイバージェンスは10で飽和。
サイト内本文

Appleの第3世代Foundation Modelsの紹介

Appleは、5つのモデルからなる第3世代Foundation Modelsファミリーを発表しました。Googleとの協力で開発され、オンデバイスモデルとサーバーベースモデルを含み、プライバシーと新しいアーキテクチャに重点を置いています。これらのモデルは新しいSiriやインテリジェントツールを駆動し、評価で大幅な品質向上を示しています。

  • Appleは5つの新しいFoundation Modelsを導入:2つのオンデバイスモデル(AFM 3 CoreとAFM 3 Core Advanced)と3つのサーバーベースモデル(AFM 3 Cloud、ADM 3 Cloud画像モデル、AFM 3 Cloud Pro)。
  • AFM 3 Core Advancedは、ほとんどの重みをフラッシュメモリに保存する新しいスパース活性化アーキテクチャを採用し、デバイス上でより大きな実効モデルサイズを実現。
サイト内本文

AppleがCVPR 2026で最新の研究成果を発表

Appleは2026年6月3日から7日までデンバーで開催されるCVPRにスポンサーとして参加し、ビデオ生成、マルチモーダル理解、画像圧縮などの分野での研究を展示します。

  • AppleはCVPR 2026でSTARFlow-V、AToken、Veloxなどの革新的な研究を発表します。
  • 基調講演、招待講演、ポスターセッション、ブース展示を実施します。
サイト内本文

VSAS-Bench: ビジュアルストリーミングアシスタントモデルのリアルタイム評価

ストリーミング視覚言語モデル(VLM)は、指示プロンプトと入力フレームのオンラインストリームに基づいて応答を継続的に生成し、リアルタイム視覚アシスタントの核となる。既存のベンチマークは主にオフライン設定で評価するが、VSAS-Benchはプロアクティブネスや一貫性などの指標を導入し、18,000以上の密なアノテーションを備え、同期・非同期評価プロトコルを提供する。大規模評価により、従来のVLMは追加トレーニングなしでストリーミング設定に適応でき、専用のストリーミングVLMを上回ることが示された。

  • VSAS-Benchは、ストリーミングVLMのリアルタイム性能を包括的に評価する初のベンチマークであり、プロアクティブネスと一貫性を重視する。
  • 18,000以上の密なアノテーションを持ち、多様な入力ドメインとタスクをカバーする。
サイト内本文

EpiCache: リソース制約環境での長期対話のためのエピソード的KVキャッシュ管理

最新の大規模言語モデル(LLM)は数百万トークンのコンテキストを処理できるようになったが、Key-Value(KV)キャッシュは対話履歴に比例して線形に増加し、メモリがデバイス制限を超える原因となる。既存の圧縮手法はコンテキスト全体を処理した後にキャッシュ退避を行うため、ピークメモリ使用量が制御不能になり、クエリ依存の退避はキャッシュセマンティクスを単一クエリに絞り込み、マルチターン対話で失敗する。本稿では、固定メモリ予算下での長期対話型質問応答(LongConvQA)のための、学習不要のKVキャッシュ管理フレームワークEpiCacheを提案する。EpiCacheはブロック単位のプリフィルによりキャッシュ成長を制限し、エピソード的KV圧縮によりトピック関連コンテキストを保持する。3つのベンチマークで、EpiCacheは最大30%の精度向上、4-6倍圧縮下でフルキャッシュに近い精度を達成し、レイテンシとピークメモリをそれぞれ最大2.4倍、3.7倍削減した。

  • EpiCacheは固定メモリ予算下での長期対話QAのための学習不要のKVキャッシュ管理フレームワーク。
  • ブロック単位のプリフィルとエピソード的KV圧縮により、キャッシュ成長を制限しトピックコンテキストを保持。
サイト内本文

BalCapRL:マルチモーダル大規模言語モデルの画像キャプショニングのためのバランスの取れた強化学習フレームワーク

Appleの研究チームは、マルチモーダル大規模言語モデル(MLLM)の画像キャプショニングにおいて、正確性、カバレッジ、言語品質を共同最適化するバランスの取れた強化学習フレームワーク「BalCapRL」を提案しました。GDPOスタイルの報酬分離正規化と長さ条件付き報酬マスキングを導入し、LLaVA-1.5およびQwen2.5-VLモデルでDCScore+13.6、CaptionQA+9.0、CapArena+29.0の向上を達成しました。

  • 既存の強化学習キャプショニング手法は実用性、カバレッジ、言語品質のトレードオフを抱える
  • BalCapRLは三つのコア次元を共同最適化する多目的フレームワーク
サイト内本文

RVPO: バリアンス正則化によるリスクセンシティブなアライメント

現行の批評家なしRLHF手法は、多目的報酬を算術平均で集約するため、制約無視に対して脆弱です。ある目的で高い数値が得られると、他の目的の重大な失敗(安全性やフォーマットなど)を相殺し、多目的アライメントに不可欠な低パフォーマンスの「ボトルネック」報酬を隠蔽します。本稿では、アドバンテージ集約時に報酬間のバリアンスをペナルティするリスクセンシティブなフレームワーク、Reward-Variance Policy Optimization (RVPO) を提案します。テイラー展開により、LogSumExp (SoftMin) 演算子が滑らかなバリアンスペナルティとして機能することを示します。医療・科学推論(最大17のLLM判定報酬信号、Qwen2.5-3B/7B/14B)とツール呼び出し(ルールベース制約、Qwen2.5-1.5B/3B)で評価し、RVPOが困難な制約を無視して簡単な目的を利用することを防ぐことで、HealthBenchでGDPOを上回るスコア(0.261 vs 0.215、14B、p<0.001)を達成し、GPQA-Diamondでも競争力のある精度を維持することを示します。

  • 現行の多目的RLHFは算術平均を用いるため、制約無視が発生しやすい。
  • RVPOはSoftMin演算子で報酬バリアンスをペナルティし、一貫性を最大化する。
サイト内本文

Velox:4Dジオメトリと外観の表現学習

Veloxは、非構造化動的点群から4Dオブジェクトの潜在表現を学習するフレームワークです。時空間カラーポイントクラウドを動的形状トークンに圧縮し、4Dサーフェスデコーダで幾何、ガウシアンデコーダで外観を再構築します。動画から4D生成、3D追跡、布シミュレーション等のタスクで優れた性能を示しました。

  • Veloxフレームワークは非構造化動的点群から4Dオブジェクトの圧縮表現を学習可能。
  • 動的形状トークンを用い、4Dサーフェスデコーダで幾何、ガウシアンデコーダで外観を学習。
サイト内本文

Apple プライバシー保護機械学習&AI ワークショップ 2026

Appleは2026年初頭、プライバシー保護機械学習とAIに関する2日間のワークショップを開催し、Apple内外の研究者がフェデレーテッドラーニング、基盤モデルのプライバシー、攻撃とセキュリティなどの最新動向について議論しました。

  • Appleはプライバシーを基本的人権とし、AIの発展に伴いプライバシー保護研究の重要性を強調。
  • ワークショップは3つの主要分野に焦点:プライベート学習と統計、基盤モデルとプライバシー、攻撃とセキュリティ。
サイト内本文

マルチビューキャプチャからの大規模高品質3Dガウシアンヘッド再構成

我々はHeadsUpを提案する。これは大規模マルチカメラセットアップから高品質な3Dガウシアンヘッドを再構成するスケーラブルなフィードフォワード手法である。本手法は、入力ビューをコンパクトな潜在表現に圧縮する効率的なエンコーダ-デコーダアーキテクチャを採用し、その潜在表現をニュートラルヘッドテンプレートにアンカーされたUVパラメータ化された3Dガウシアンのセットにデコードする。このUV表現により、3Dガウシアンの数が入力画像の数や解像度から切り離され、多数の高解像度入力ビューを用いたトレーニングが可能となる。10,000人以上の被験者からなる内部データセット(既存のマルチビューヘッドデータセットよりも一桁大きい)でトレーニングおよび評価を行い、HeadsUpは最先端の再構成品質を達成し、テスト時最適化なしで未知の個人に一般化する。また、モデルのスケーリング挙動を詳細に分析し、潜在空間の強みを活かした新しい3D個人の生成や表情ブレンドシェイプによるアニメーションといったダウンストリームアプリケーションを示す。

  • HeadsUpはUVパラメータ化された3Dガウシアン表現を用いて、マルチビュー画像からヘッドを効率的に再構成する。
  • エンコーダ-デコーダアーキテクチャがビューを潜在コードに圧縮し、テンプレート上のガウシアンにデコードする。これによりガウシアン数と入力解像度が切り離される。
サイト内本文

テキスト条件付きJEPA:意味的に豊かな視覚表現の学習

Apple機械学習研究チームは、画像キャプションを条件としてマスク特徴予測の不確実性を低減し、より意味的な視覚表現を学習するText-Conditional JEPA(TC-JEPA)を提案。多様なタスクで対照学習法を上回り、特に細かい視覚理解と推論を必要とするタスクで優れる。

  • TC-JEPAは画像キャプションを条件としてマスク領域の特徴予測の不確実性を低減し、意味表現を学習する。
  • 細かいテキスト条件付け器が、テキストトークンとのスパース交差注意を計算して予測パッチ特徴を変調する。
サイト内本文

実用的な学習型画像圧縮における重要な要素

Apple機械学習研究チームがCVPR 2026で発表した論文。実用的な学習型画像コーデックの主要なモデリング選択について包括的に研究し、知覚品質と実行時間を共同最適化。性能認識型ニューラルアーキテクチャ探索により、従来のAV1等と比較して2.3~3倍のビットレート削減、最良の学習型コーデックと比較して20~40%削減を達成。iPhone 17 Pro Maxで12MP画像のエンコード230ms、デコード150msを実現。

  • 実用的学習型画像コーデックの主要なモデリング選択を包括的に研究し、新技術も含む。
  • 数百万のバックボーン構成から対象デバイス実行時間を満たすモデルを性能認識型探索。
サイト内本文

SpecMD:投機的エキスパートプリフェッチの包括的研究

SpecMDは、Appleの研究者が開発した、混合エキスパート(MoE)モデルにおけるエキスパートキャッシュポリシーをベンチマークおよび評価するための標準化フレームワークです。この研究により、MoEエキスパートのアクセスパターンは時間的局所性に従わないことが明らかになり、Least-Staleと呼ばれる新しいエビクションポリシーが提案されました。このポリシーは、LRUと比較して衝突ミスを最大85倍削減し、OLMoE上で88%以上のヒット率と34.7%のTTFT削減を達成します。

  • SpecMDは、さまざまなハードウェア構成におけるMoEエキスパートキャッシュポリシーのための標準化ベンチマークフレームワークを提供します。
  • 研究により、MoEエキスパートのアクセスパターンはLRUやLFUなどの時間的局所性の仮定と一致しないことがわかりました。
サイト内本文

反復的デノイジングを伴う正規化フロー

Apple Machine Learning Researchは、画像生成のための正規化フローを強化する反復的デノイジング手法iTARFlowを発表。複数の解像度のImageNetで競争力のある結果を達成。

  • iTARFlowは自己回帰生成と反復的デノイジングを組み合わせる。
  • トレーニング中は拡散モデルとは異なり、尤度ベースの目的を維持。
サイト内本文

「物体がどこにあるか」から「何のためにあるか」へ:マルチモーダル大規模言語モデルのための空間・機能インテリジェンスベンチマーク

真の空間インテリジェンスは低レベルの幾何学的知覚を超え、物体の位置だけでなくその役割を理解することを要求します。Apple機械学習研究チームが提案するSFI-Benchは、一人称視点の室内ビデオから得られた1700以上の質問を用いて、マルチモーダル大規模言語モデルの構造化空間推論と機能的推論の能力を体系的に評価します。実験では、現在のモデルが空間記憶と機能的・外部知識の統合に苦戦していることが明らかになりました。

  • SFI-Benchは従来の幾何学的知覚ベンチマークを超え、高次認知能力に焦点を当てる。
  • 条件付きカウント、マルチホップ関係推論、機能ペアリング、知識に基づくトラブルシューティングなどのタスクを含む。
サイト内本文

確率的KVルーティング:適応的な深さ方向キャッシュ共有の実現

Apple Machine Learning Researchは、トレーニング中に各層が自身または前の層のKV状態にランダムに注意を向ける確率的KVルーティングを提案。これにより、スループットを低下させることなくKVキャッシュのメモリ使用量を大幅に削減し、データ制約のある環境では性能向上も見られる。

  • KVキャッシュのメモリ消費はLLMサービスの大きな課題
  • 既存研究は時間軸に沿った圧縮が中心だが、本手法は深さ次元を活用
サイト内本文

PORTool:報酬ツリーを用いた重要度認識型ポリシー最適化によるマルチツール統合推論

Appleとパデュー大学が共同で開発したPORToolは、報酬展開ツリーとステップ単位の重要度推定を活用し、マルチツール推論におけるクレジット割り当ての曖昧さを解決し、最終回答の精度を向上させると同時にツール呼び出し回数を削減します。

  • PORToolは報酬展開ツリーを生成し、同一コンテキスト内の異なるツール使用決定を直接比較します。
  • 正解支配信号と補助実行成功信号を用いて各ステップの重要度を推定します。
サイト内本文

強化エージェント:ツール呼び出しエージェントのための推論時フィードバック

Appleの研究チームは、推論時に評価を実行ループに組み込み、専用のレビューエージェントがツール呼び出しを事前評価することでリアルタイムにエラーを修正する手法を提案。BFCLおよびτ2-Benchでそれぞれ5.5%、7.1%の改善を達成し、修正のトレードオフを定量化する有用性・有害性指標を導入した。

  • 評価を事後分析から推論時の実行ループに移し、リアルタイム修正を実現。
  • レビューアのフィードバックの純便益を定量化する有用性・有害性指標を導入。
サイト内本文

国際音響・音声・信号処理会議(ICASSP)2026

Appleは、2026年5月4日から8日にスペイン・バルセロナで開催されるICASSP 2026で新たな研究成果を発表し、同会議をスポンサーします。本稿では、展示ブースの時間、採択論文、およびApple研究者の役割を含む参加概要を紹介します。

  • AppleはICASSP 2026で、多言語自己教師あり音声モデル、オブジェクト認識ステレオ音声生成、音声の投機的デコードに関する3件の研究を発表します。
  • Appleのブース#P2は、5月4日19:00-21:30、および5月5日~8日09:00-17:00(CEST)に開放されます。
サイト内本文

手話モデルによる手話アノテーションのブートストラッピング

Appleとガローデット大学の研究者は、高品質なアノテーション付き手話データの不足に対処するため、疑似アノテーションパイプラインを開発しました。この手法は、指文字認識器、孤立手話認識器(ISR)、およびK-Shot LLMを使用して、手話動画と英語入力から可能性の高いアノテーションを生成します。FSBoardで6.7%の文字誤り率(CER)、ASL Citizenで74%のTop-1精度を達成し、約500の人間によるアノテーション動画と300時間以上の疑似アノテーションデータを公開しています。

  • AI手話解釈はアノテーションデータ不足に制限されており、ASL STEM WikiやFLEURS-ASLなどの新データセットは数百時間のデータを含むが、アノテーションコストの高さから十分に活用されていない。
  • パイプラインは指文字認識器、孤立手話認識器(ISR)、K-Shot LLMを組み合わせ、時間区間付きのランク付けアノテーションを生成する。
サイト内本文

STARFlow-V: 正規化フローを用いたエンドツーエンド動画生成モデリング

Apple機械学習研究チームが提案するSTARFlow-Vは、正規化フローに基づく動画生成器であり、エンドツーエンド学習、ロバストな因果予測、ネイティブな尤度推定を提供する。時空間潜在空間におけるグローバル-ローカルアーキテクチャ、フロースコアマッチング、動画対応ヤコビ反復スキームを採用し、高い視覚的忠実度と時間的一貫性を実現。正規化フローが高品質な自己回帰動画生成に有効であることを初めて示した。

  • STARFlow-Vは拡散モデル優位の動画生成分野に挑む正規化フローベースのモデル。
  • グローバル-ローカルアーキテクチャで誤差蓄積を軽減し、テキスト/画像/動画から動画への生成をサポート。
サイト内本文

DSO:バイアス軽減のための直接ステアリング最適化

Appleの機械学習研究チームは、強化学習を用いてモデルの活性化をステアリングする線形変換を学習するDSO(Direct Steering Optimization)を提案。VLMやLLMにおけるバイアスを効果的に軽減し、公平性と性能の間で最先端のトレードオフを実現するとともに、推論時にユーザーが制御可能。

  • DSOは強化学習を用いて、推論時に活性化をステアリングする線形変換を学習し、バイアスを軽減する。
  • VLMとLLMの両方で、公平性と性能の間で最先端のトレードオフを達成。
サイト内本文

適応的思考:大規模言語モデルが潜在空間で考えるタイミングを認識する

Appleの機械学習研究がSonataを発表。自己整合性予測を用いて推論時の思考予算を動的に割り当て、精度を維持しながら思考トークンを20〜80%削減、または同じトークンコストで最大5%の精度向上を実現。

  • 自己整合性を拡張思考が必要な場合の代理指標として利用。
  • Sonataという軽量アダプターを提案。クエリのプレフィリング段階で自己整合性を予測し、思考予算を動的に割り当てる。
サイト内本文

LaDiR:潜在拡散がLLMのテキスト推論を強化する

LaDiRはVAEと潜在拡散モデルを組み合わせ、ブロック単位の双方向注意機構により推論軌跡の反復的洗練を実現し、数学推論および計画ベンチマークで精度、多様性、解釈可能性を向上させる。

  • LaDiRはVAEを使用して推論ステップを潜在思考ブロックにエンコードする。
  • ブロック単位の双方向注意マスクを備えた潜在拡散モデルにより、全体的な反復洗練が可能。
サイト内本文

StereoFoley:映像からオブジェクト認識ステレオオーディオを生成

Appleの機械学習研究チームがICASSP 2026で発表したStereoFoleyは、映像から意味的に整合し、時間的に同期し、空間的に正確な48kHzステレオ音声を生成するフレームワークです。合成データパイプラインとファインチューニングにより、オブジェクト認識ステレオイメージングを実現し、新たな評価指標を導入しました。

  • StereoFoleyは、オブジェクト認識ステレオ映像→音声生成の初のエンドツーエンドフレームワークで、48kHzステレオを出力。
  • 物体追跡とダイナミックパンニングを用いた合成データパイプラインで、専門データセットの不足を克服。
サイト内本文

条件付き拡散モデルにおける構成的一般化の局所的メカニズム

条件付き拡散モデルが、訓練分布外の条件の組み合わせに対して構成的一般化(特に長さ一般化:訓練時よりも多くのオブジェクトを含む画像を生成する能力)を達成するメカニズムを調査。CLEVRデータセットでの実験により、長さ一般化は一部のケースで達成可能だが、常にではないことが判明。局所的條件スコア(local conditional scores)が成功の鍵であり、特定の構成構造と等価であることを証明。さらに、局所性を強制する因果的介入により、失敗したモデルでも一般化が可能になることを示した。SDXLの分析では、ピクセル空間では空間的局所性は存在するが条件局所性はほとんど欠如している一方、特徴空間では局所的條件スコアの証拠が見られた。

  • 条件付き拡散モデルにおける長さ一般化は、一部の設定では達成可能だが普遍的ではない。
  • 局所的條件スコアが構成的一般化の鍵であり、条件付き射影構成と等価。
サイト内本文

全ソース