AI News HubLIVE
公開文章 27採集文章 27可信度 90刷新頻率 30 分鐘
健康狀態 健康來源類型 研究原文權限 官方原文最近入庫 2026-06-23ID apple-ml-research運行狀態 已啟用

Official research source; confirm reuse terms before enabling full body display.

最新公開文章

九位法官,兩張有效票:相關性錯誤削弱LLM評估小組

研究顯示,由多個LLM組成的評估小組因模型間相關錯誤,實際信息量遠低於獨立投票的理想狀態。9個前沿模型僅相當於約2個獨立投票,準確率下降8-22個百分點,最佳單一模型可媲美或超越整個小組。增加法官或改進聚合算法效果有限。

  • 9個LLM評估小組實際只有約2個獨立投票的信息量,約75%的名義獨立性因模型重複錯誤而喪失。
  • 小組實際準確率比獨立投票理想狀態低8-22個百分點,最佳單一模型表現不遜於甚至超越整個小組。
站內正文

用於從標籤分佈學習中度量依賴的標註飽和

當標註者之間存在分歧時,分歧本身攜帶有用信號,但捕捉該信號所需的標註者數量取決於評估指標。本文通過在ChaosNLI數據集上微調NLI模型,發現熵相關性需要20-50個標註者才能收斂,而KL散度在約10個標註者時達到飽和。軟標籤能夠捕捉項目特定的分歧信號,而標籤平滑無法做到這一點。研究建議標註預算應根據目標評估指標來設定,而非統一規定。

  • 在標籤分佈上微調NLI模型揭示了度量依賴的飽和現象。
  • 熵相關性需要20-50個標註者收斂,KL散度在10個標註者處飽和。
站內正文

介紹蘋果第三代基礎模型

蘋果發佈了第三代基礎模型系列,包含五個模型,與谷歌合作開發,涵蓋設備端和服務器端,強調隱私保護和新架構。這些模型驅動全新Siri和智能工具,在評估中展現出顯著質量提升。

  • 蘋果推出五個新基礎模型:兩個設備端模型(AFM 3 Core 和 AFM 3 Core Advanced)和三個服務器端模型(AFM 3 Cloud、ADM 3 Cloud 圖像模型和 AFM 3 Cloud Pro)。
  • AFM 3 Core Advanced 採用新穎的稀疏激活架構,將大部分權重存儲在閃存中,從而在設備上實現更大的有效模型規模。
站內正文

蘋果在CVPR 2026展示最新研究成果

蘋果將在2026年6月3日至7日于丹佛舉行的CVPR大會上贊助並展示多項研究,包括視頻生成、多模態理解、圖像壓縮等領域,並在展位進行海報演示。

  • 蘋果將在CVPR 2026展示STARFlow-V、AToken、Velox等多項創新研究。
  • 活動包括主題演講、邀請演講、海報展示及展位演示。
站內正文

VSAS-Bench:視覺流式助手模型的實時評估

流式視覺語言模型(VLM)根據指令和輸入幀流連續生成響應,用於實時視覺助手。現有基準多評估離線模型,而VSAS-Bench針對流式VLM引入主動性和一致性等指標,擁有超過18,000個密集標註,提供同步和異步評估協議。大規模評估表明,傳統VLM無需額外訓練即可適應流式場景,性能優於專用流式VLM。

  • VSAS-Bench是首個全面評估流式VLM實時性能的基準,包含主動性和一致性等新指標。
  • 基準擁有18,000+密集標註,覆蓋多種輸入領域和任務類型。
站內正文

EpiCache:面向資源受限環境下的長期對話的片段式KV緩存管理

現代大語言模型(LLM)可處理百萬級token的上下文,但鍵值(KV)緩存隨對話歷史線性增長,導致內存不足。現有壓縮方法多在處理完整個上下文後才驅逐緩存,峯值內存不受控,且查詢依賴的驅逐會窄化緩存語義。本文提出EpiCache,一種免訓練的KV緩存管理框架,通過分塊預填充限制緩存增長,並通過片段式KV壓縮保留主題相關上下文。在三個基準測試上,EpiCache準確率提升高達30%,在4-6倍壓縮下接近全緩存準確率,延遲和峯值內存分別降低2.4倍和3.7倍。

  • EpiCache是一種免訓練的KV緩存管理框架,適用於固定內存預算下的長對話問答。
  • 通過分塊預填充和片段式KV壓縮,EpiCache在保留主題上下文的同時限制緩存增長。
站內正文

BalCapRL:面向多模態大語言模型圖像描述的平衡強化學習框架

蘋果研究團隊提出BalCapRL,一個聯合優化正確性、覆蓋率和語言質量的強化學習框架,用於多模態大語言模型的圖像描述生成。通過引入GDPO風格的獎勵解耦歸一化和長度條件獎勵掩碼,BalCapRL在LLaVA-1.5和Qwen2.5-VL等模型上實現了顯著性能提升,例如DCScore提升13.6點,CaptionQA提升9.0點,CapArena提升29.0點。

  • 現有強化學習圖像描述方法在實用性、參考覆蓋和語言質量之間存在權衡
  • BalCapRL提出多目標優化,同時提升三個核心維度
站內正文

RVPO:通過方差正則化實現風險敏感的對齊

當前的無需評論家的RLHF方法通過算術平均聚合多目標獎勵,容易忽視約束條件:一個目標的高分可以掩蓋其他目標的嚴重失敗。我們提出獎勵方差策略優化(RVPO),通過在優勢聚合中懲罰獎勵間方差,將目標從“最大化總和”轉變為“最大化一致性”。泰勒展開表明,LogSumExp(SoftMin)算子可充當平滑的方差懲罰。我們在醫療和科學推理任務(最多17個LLM評判的獎勵信號)以及工具調用任務(基於規則的約束)上評估了RVPO。RVPO通過防止模型忽視困難約束來利用簡單目標,在HealthBench上取得0.261(GDPO為0.215,p<0.001),並在GPQA-Diamond上保持競爭性準確率,沒有出現其他多獎勵方法後期性能下降的現象。

  • 當前多目標RLHF方法使用算術平均聚合獎勵,導致約束忽視問題。
  • RVPO通過軟最小算子(SoftMin)懲罰獎勵方差,鼓勵一致性而非總和最大化。
站內正文

Velox:學習4D幾何與外觀的表示

Velox是一個用於學習4D物體潛在表示的框架,能夠從非結構化的動態點雲中高效壓縮時空彩色點云為動態形狀令牌,並通過4D表面解碼器和高斯解碼器分別重建幾何和外觀。實驗證明其在視頻到4D生成、3D跟蹤和布料模擬等下游任務中表現優異。

  • Velox框架可從非結構化動態點雲中學習4D物體的壓縮表示。
  • 使用動態形狀令牌,通過4D表面解碼器捕捉幾何,高斯解碼器學習外觀。
站內正文

蘋果隱私保護機器學習與AI研討會2026

蘋果於2026年初舉辦了一場為期兩天的隱私保護機器學習與AI研討會,匯聚了蘋果及全球研究社區的研究人員,探討了隱私保護ML和AI的最新進展,涵蓋聯邦學習、基礎模型隱私、攻擊與安全等關鍵領域。

  • 蘋果強調隱私是基本人權,隨着AI發展,隱私保護研究至關重要。
  • 研討會聚焦三大領域:私有學習與統計、基礎模型與隱私、攻擊與安全。
站內正文

大規模多視角捕捉下的高質量3D高斯頭部重建

我們提出了HeadsUp,一種可擴展的前饋方法,用於從大規模多攝像頭設置中重建高質量3D高斯頭部。該方法採用高效的編碼器-解碼器架構,將輸入視圖壓縮為緊湊的潛在表示,然後解碼為UV參數化的3D高斯分佈。該表示將3D高斯數量與輸入圖像的數量和分辨率解耦,支持使用多個高分辨率輸入進行訓練。我們在包含超過10,000個主體的內部數據集上訓練和評估模型,實現了最先進的重建質量,並能泛化到未見身份,無需測試時優化。我們分析了模型在身份、視圖和模型容量上的擴展行為,並展示了潛在空間在生成新3D身份和動畫表情方面的應用。

  • 提出HeadsUp方法,利用UV參數化3D高斯實現高效頭部重建。
  • 架構將輸入編碼為潛在表示,解碼為錨定在模板上的3D高斯,解耦了高斯數量與輸入分辨率。
站內正文

文本條件JEPA:學習語義豐富的視覺表示

蘋果機器學習研究團隊提出了文本條件聯合嵌入預測架構(TC-JEPA),通過引入圖像描述文本作為條件,降低了視覺自監督學習中掩碼特徵預測的不確定性,從而學習到更語義化的視覺表示。該方法在多種下游任務上優於對比學習方法,特別是在需要細粒度視覺理解和推理的任務中。

  • TC-JEPA利用圖像描述文本降低掩碼區域特徵預測的不確定性,促使模型學習語義表示。
  • 通過細粒度文本條件器對預測的塊特徵進行調製,計算稀疏交叉注意力,使特徵更可預測。
站內正文

實際應用中學習型圖像壓縮的關鍵因素

蘋果機器學習研究團隊在CVPR 2026上發表論文,系統研究了實際學習型圖像編解碼器的關鍵建模選擇,聯合優化感知質量和運行時間。通過性能感知的神經架構搜索,提出新型編解碼器,在主觀用户測試中比AV1等傳統編解碼器節省2.3–3倍碼率,比最優學習型編解碼器節省20–40%碼率。在iPhone 17 Pro Max上,編碼1200萬像素圖像僅需230毫秒,解碼150毫秒。

  • 系統研究實際學習型圖像編解碼器的關鍵建模選擇,包括多種新技術。
  • 採用性能感知的神經架構搜索,在數百萬種骨幹配置中尋找最佳模型。
站內正文

SpecMD:投機專家預取的全面研究

SpecMD是蘋果研究人員開發的標準化框架,用於基準測試和評估混合專家(MoE)模型中的專家緩存策略。研究發現MoE專家訪問模式不符合時間局部性,從而提出了一種稱為Least-Stale的新驅逐策略,與LRU相比,該策略將碰撞未命中率降低了85倍,在OLMoE上實現了88%以上的命中率和34.7%的首令牌時間減少。

  • SpecMD提供了一個標準化基準框架,用於在不同硬件配置下評估MoE專家緩存策略。
  • 研究發現MoE專家的訪問模式與LRU和LFU等時間局部性假設不一致。
站內正文

帶迭代去噪的歸一化流

蘋果機器學習研究推出iTARFlow,一種迭代去噪方法,增強了歸一化流在圖像生成方面的能力,在多個分辨率的ImageNet上取得了有競爭力的結果。

  • iTARFlow結合了自迴歸生成與迭代去噪。
  • 訓練時保持基於似然的目標,與擴散模型不同。
站內正文

從“物體在哪裏”到“物體有何用”:多模態大語言模型的空間-功能智能基準測試

真正的空間智能超越了低層幾何感知,要求理解物體不僅“在哪裏”還要“有何用”。蘋果機器學習研究團隊提出的SFI-Bench基準測試,通過超過1700個來自第一人稱室內視頻的問題,系統評估多模態大語言模型在結構化空間推理和功能推理兩個維度的能力。實驗表明,當前模型難以整合空間記憶與功能及外部知識,暴露出關鍵瓶頸。

  • SFI-Bench超越了傳統幾何感知基準,聚焦高級認知能力。
  • 涵蓋條件計數、多跳關係推理、功能配對和知識驅動故障排查等任務。
站內正文

隨機KV路由:實現自適應的深度維度緩存共享

蘋果機器學習研究提出隨機KV路由方法,通過在訓練中讓各層隨機選擇關注自身或前一層的鍵值狀態,實現跨層緩存共享,從而在不增加推理延遲的前提下顯著減少KV緩存內存佔用。實驗表明,該技術適用於多種模型,且在數據受限場景中具有正則化效果,甚至能保持或提升性能。

  • KV緩存內存消耗大,影響大語言模型服務成本
  • 現有方法多沿時間軸壓縮或驅逐緩存,本文利用深度維度優化
站內正文

PORTool:基於重要性感知和獎勵樹的多工具集成推理策略優化

蘋果與普渡大學聯合提出PORTool算法,通過生成獎勵展開樹和步驟級重要性估計,解決多工具推理中信用分配模糊問題,提升最終答案准確率並減少工具調用次數。

  • PORTool利用獎勵樹直接比較同一上下文中的不同工具使用決策。
  • 通過正確性主導信號和輔助執行成功信號估計每步重要性。
站內正文

強化智能體:工具調用智能體的推理時反饋

蘋果研究團隊提出一種在推理時將評估引入執行循環的方法,通過專門的評審智能體在工具調用前進行預評估,從而實時糾正錯誤。實驗表明,該方法在BFCL和τ2-Bench上分別提升5.5%和7.1%,並引入了有用性-有害性指標來量化糾錯帶來的收益與風險。

  • 將評估從事後分析移至推理時執行循環中,實現實時糾錯。
  • 引入有用性-有害性指標,量化評審智能體帶來的淨收益。
站內正文

國際聲學、語音與信號處理大會(ICASSP)2026

蘋果將在2026年5月4日至8日於西班牙巴塞羅那舉行的ICASSP 2026上展示新研究成果,並贊助該會議。本文介紹了蘋果的參與詳情,包括展位時間、論文發表和學術服務。

  • 蘋果將在ICASSP 2026展示三項研究成果,涵蓋多語言語音模型、立體聲音頻生成和推測解碼。
  • 蘋果展位P2將於5月4日19:00-21:30及5月5-8日09:00-17:00開放。
站內正文

用手語模型引導手語標註

蘋果公司和加勞德特大學的研究人員開發了一種偽標註流程,以解決高質量標註手語數據稀缺的問題。該方法使用手指拼寫識別器、孤立手語識別器和K-Shot大型語言模型,從手語視頻和英語輸入生成可能的標註。他們在FSBoard上實現了6.7%的詞錯誤率(CER),在ASL Citizen上實現了74%的Top-1準確率,併發布了近500個人工標註視頻和超過300小時的偽標註數據。

  • 高質量標註數據缺乏限制了AI手語翻譯;ASL STEM Wiki和FLEURS-ASL等新數據集包含數百小時數據,但因標註成本高昂而被未充分利用。
  • 該流程結合手指拼寫識別器、孤立手語識別器(ISR)和K-Shot LLM,生成帶時間區間的排名標註。
站內正文

STARFlow-V:基於歸一化流的端到端視頻生成建模

蘋果機器學習研究團隊提出STARFlow-V,一種基於歸一化流的視頻生成器,具有端到端學習、魯棒因果預測和原生似然估計等優勢。該模型在時空潛空間中採用全局-局部架構,並通過流得分匹配和視頻感知雅可比迭代方案,實現了高視覺保真度和時間一致性,首次證明了歸一化流在高質量自迴歸視頻生成中的潛力。

  • STARFlow-V是基於歸一化流的視頻生成模型,挑戰擴散模型的主導地位。
  • 採用全局-局部架構減少誤差累積,支持文本/圖像/視頻到視頻的多任務生成。
站內正文

DSO:用於偏差緩解的直接轉向優化

蘋果機器學習研究團隊提出DSO(直接轉向優化),利用強化學習學習線性變換來轉向模型激活,在視覺-語言模型(VLM)和大語言模型(LLM)中有效緩解偏差,實現了公平性與性能之間最先進的權衡,並允許用户在推理時控制這一權衡。

  • DSO通過強化學習學習線性變換,在推理時轉向模型激活以緩解偏差。
  • 在VLM和LLM上,DSO實現了公平性與性能之間最先進的權衡。
站內正文

自適應思考:大語言模型知道何時在隱空間中進行思考

蘋果機器學習研究提出 Sonata,一種輕量級適配器,通過自我一致性預測來動態分配推理時的思維預算,在保持準確率的同時將思維令牌減少20%至80%,或同等令牌成本下準確率提升5%。

  • 利用自洽性作為判斷是否需要擴展思考的代理指標。
  • 提出Sonata輕量適配器,在查詢預填充階段預測自洽性,動態分配思維預算。
站內正文

LaDiR:潛在擴散增強LLM的文本推理能力

LaDiR結合變分自編碼器和潛在擴散模型,通過塊級雙向注意力實現推理軌跡的迭代精煉,在數學推理和規劃基準上顯著提升了準確性、多樣性和可解釋性。

  • LaDiR使用VAE將推理步驟編碼為潛在思想塊,保留語義信息。
  • 潛在擴散模型通過塊級雙向注意力掩碼實現全局迭代精煉。
站內正文

StereoFoley:從視頻生成對象感知的立體聲音頻

Apple機器學習研究團隊在ICASSP 2026上提出StereoFoley框架,能夠從視頻中生成語義對齊、時間同步且空間準確的48kHz立體聲音頻。通過合成數據管道和微調技術,解決了現有模型缺乏對象感知立體聲成像的問題,並引入了新的評估指標。

  • StereoFoley是首個端到端對象感知立體聲視頻到音頻生成框架,輸出48kHz立體聲。
  • 利用合成數據管道結合物體跟蹤和動態聲像控制,克服了專業數據集的缺失。
站內正文

條件擴散模型中組合泛化的局部機制

該研究探討了條件擴散模型如何在超出訓練分佈的組合條件下實現組合泛化,特別是長度泛化——生成比訓練時更多對象的圖像。通過在CLEVR數據集上的實驗,發現模型在某些情況下能實現長度泛化,但並非總是如此。研究者提出並證明了局部條件分數與特定組合結構(條件投影組合)之間的等價性,並驗證了局部條件分數是成功泛化的關鍵。因果乾預實驗顯示,強制局部條件分數可使原本失敗的模型實現長度泛化。在SDXL模型中,像素空間存在空間局部性但缺乏條件局部性,然而在特徵空間中發現了局部條件分數的證據。

  • 條件擴散模型在部分情況下能實現長度泛化,但並非普遍。
  • 局部條件分數是組合泛化的關鍵機制,與條件投影組合結構等價。
站內正文

全部來源