Apple Machine Learning Research AI 新聞來源

公開文章 27採集文章 27可信度 90刷新頻率 30 分鐘

健康狀態健康來源類型研究原文權限 官方原文最近入庫 2026-06-23ID apple-ml-research運行狀態 已啟用

Official research source; confirm reuse terms before enabling full body display.

最新公開文章

九位法官，兩張有效票：相關性錯誤削弱LLM評估小組

2026-06-23 08:00 UTC+8

研究顯示，由多個LLM組成的評估小組因模型間相關錯誤，實際資訊量遠低於獨立投票的理想狀態。9個前沿模型僅相當於約2個獨立投票，準確率下降8-22個百分點，最佳單一模型可媲美或超越整個小組。增加法官或改進聚合演算法效果有限。

9個LLM評估小組實際只有約2個獨立投票的資訊量，約75%的名義獨立性因模型重複錯誤而喪失。
小組實際準確率比獨立投票理想狀態低8-22個百分點，最佳單一模型表現不遜於甚至超越整個小組。

用於從標籤分佈學習中度量依賴的標註飽和

2026-06-23 08:00 UTC+8

當標註者之間存在分歧時，分歧本身攜帶有用訊號，但捕捉該訊號所需的標註者數量取決於評估指標。本文透過在ChaosNLI資料集上微調NLI模型，發現熵相關性需要20-50個標註者才能收斂，而KL散度在約10個標註者時達到飽和。軟標籤能夠捕捉專案特定的分歧訊號，而標籤平滑無法做到這一點。研究建議標註預算應根據目標評估指標來設定，而非統一規定。

在標籤分佈上微調NLI模型揭示了度量依賴的飽和現象。
熵相關性需要20-50個標註者收斂，KL散度在10個標註者處飽和。

介紹蘋果第三代基礎模型

2026-06-08 08:00 UTC+8

蘋果釋出了第三代基礎模型系列，包含五個模型，與谷歌合作開發，涵蓋裝置端和伺服器端，強調隱私保護和新架構。這些模型驅動全新Siri和智慧工具，在評估中展現出顯著質量提升。

蘋果推出五個新基礎模型：兩個裝置端模型（AFM 3 Core 和 AFM 3 Core Advanced）和三個伺服器端模型（AFM 3 Cloud、ADM 3 Cloud 影像模型和 AFM 3 Cloud Pro）。
AFM 3 Core Advanced 採用新穎的稀疏啟用架構，將大部分權重儲存在快閃記憶體中，從而在裝置上實現更大的有效模型規模。

蘋果在CVPR 2026展示最新研究成果

2026-05-28 08:00 UTC+8

蘋果將在2026年6月3日至7日于丹佛舉行的CVPR大會上贊助並展示多項研究，包括影片生成、多模態理解、影像壓縮等領域，並在展位進行海報演示。

蘋果將在CVPR 2026展示STARFlow-V、AToken、Velox等多項創新研究。
活動包括主題演講、邀請演講、海報展示及展位演示。

VSAS-Bench：視覺流式助手模型的即時評估

2026-05-22 08:00 UTC+8

流式視覺語言模型（VLM）根據指令和輸入幀流連續生成響應，用於即時視覺助手。現有基準多評估離線模型，而VSAS-Bench針對流式VLM引入主動性和一致性等指標，擁有超過18,000個密集標註，提供同步和非同步評估協議。大規模評估表明，傳統VLM無需額外訓練即可適應流式場景，效能優於專用流式VLM。

VSAS-Bench是首個全面評估流式VLM即時效能的基準，包含主動性和一致性等新指標。
基準擁有18,000+密集標註，覆蓋多種輸入領域和任務型別。

EpiCache：面向資源受限環境下的長期對話的片段式KV快取管理

2026-05-19 08:00 UTC+8

現代大語言模型（LLM）可處理百萬級token的上下文，但鍵值（KV）快取隨對話歷史線性增長，導致記憶體不足。現有壓縮方法多在處理完整個上下文後才驅逐快取，峰值記憶體不受控，且查詢依賴的驅逐會窄化快取語義。本文提出EpiCache，一種免訓練的KV快取管理框架，透過分塊預填充限制快取增長，並透過片段式KV壓縮保留主題相關上下文。在三個基準測試上，EpiCache準確率提升高達30%，在4-6倍壓縮下接近全快取準確率，延遲和峰值記憶體分別降低2.4倍和3.7倍。

EpiCache是一種免訓練的KV快取管理框架，適用於固定記憶體預算下的長對話問答。
透過分塊預填充和片段式KV壓縮，EpiCache在保留主題上下文的同時限制快取增長。

BalCapRL：面向多模態大語言模型影像描述的平衡強化學習框架

2026-05-11 08:00 UTC+8

蘋果研究團隊提出BalCapRL，一個聯合最佳化正確性、覆蓋率和語言質量的強化學習框架，用於多模態大語言模型的影像描述生成。透過引入GDPO風格的獎勵解耦歸一化和長度條件獎勵掩碼，BalCapRL在LLaVA-1.5和Qwen2.5-VL等模型上實現了顯著效能提升，例如DCScore提升13.6點，CaptionQA提升9.0點，CapArena提升29.0點。

現有強化學習影像描述方法在實用性、參考覆蓋和語言質量之間存在權衡
BalCapRL提出多目標最佳化，同時提升三個核心維度

RVPO：透過方差正則化實現風險敏感的對齊

2026-05-08 08:00 UTC+8

當前的無需評論家的RLHF方法透過算術平均聚合多目標獎勵，容易忽視約束條件：一個目標的高分可以掩蓋其他目標的嚴重失敗。我們提出獎勵方差策略最佳化（RVPO），透過在優勢聚合中懲罰獎勵間方差，將目標從“最大化總和”轉變為“最大化一致性”。泰勒展開表明，LogSumExp（SoftMin）運算元可充當平滑的方差懲罰。我們在醫療和科學推理任務（最多17個LLM評判的獎勵訊號）以及工具呼叫任務（基於規則的約束）上評估了RVPO。RVPO透過防止模型忽視困難約束來利用簡單目標，在HealthBench上取得0.261（GDPO為0.215，p<0.001），並在GPQA-Diamond上保持競爭性準確率，沒有出現其他多獎勵方法後期效能下降的現象。

當前多目標RLHF方法使用算術平均聚合獎勵，導致約束忽視問題。
RVPO透過軟最小運算元（SoftMin）懲罰獎勵方差，鼓勵一致性而非總和最大化。

Velox：學習4D幾何與外觀的表示

2026-05-08 08:00 UTC+8

Velox是一個用於學習4D物體潛在表示的框架，能夠從非結構化的動態點雲中高效壓縮時空彩色點云為動態形狀令牌，並透過4D表面解碼器和高斯解碼器分別重建幾何和外觀。實驗證明其在影片到4D生成、3D跟蹤和布料模擬等下游任務中表現優異。

Velox框架可從非結構化動態點雲中學習4D物體的壓縮表示。
使用動態形狀令牌，透過4D表面解碼器捕捉幾何，高斯解碼器學習外觀。

蘋果隱私保護機器學習與AI研討會2026

2026-05-08 08:00 UTC+8

蘋果於2026年初舉辦了一場為期兩天的隱私保護機器學習與AI研討會，匯聚了蘋果及全球研究社群的研究人員，探討了隱私保護ML和AI的最新進展，涵蓋聯邦學習、基礎模型隱私、攻擊與安全等關鍵領域。

蘋果強調隱私是基本人權，隨著AI發展，隱私保護研究至關重要。
研討會聚焦三大領域：私有學習與統計、基礎模型與隱私、攻擊與安全。

大規模多視角捕捉下的高質量3D高斯頭部重建

2026-05-08 08:00 UTC+8

我們提出了HeadsUp，一種可擴充套件的前饋方法，用於從大規模多攝像頭設定中重建高質量3D高斯頭部。該方法採用高效的編碼器-解碼器架構，將輸入檢視壓縮為緊湊的潛在表示，然後解碼為UV引數化的3D高斯分佈。該表示將3D高斯數量與輸入影像的數量和解析度解耦，支援使用多個高解析度輸入進行訓練。我們在包含超過10,000個主體的內部資料集上訓練和評估模型，實現了最先進的重建質量，並能泛化到未見身份，無需測試時最佳化。我們分析了模型在身份、檢視和模型容量上的擴充套件行為，並展示了潛在空間在生成新3D身份和動畫表情方面的應用。

提出HeadsUp方法，利用UV引數化3D高斯實現高效頭部重建。
架構將輸入編碼為潛在表示，解碼為錨定在模板上的3D高斯，解耦了高斯數量與輸入解析度。

文本條件JEPA：學習語義豐富的視覺表示

2026-05-07 08:00 UTC+8

蘋果機器學習研究團隊提出了文本條件聯合嵌入預測架構（TC-JEPA），透過引入影像描述文本作為條件，降低了視覺自監督學習中掩碼特徵預測的不確定性，從而學習到更語義化的視覺表示。該方法在多種下游任務上優於對比學習方法，特別是在需要細粒度視覺理解和推理的任務中。

TC-JEPA利用影像描述文本降低掩碼區域特徵預測的不確定性，促使模型學習語義表示。
透過細粒度文本條件器對預測的塊特徵進行調變，計算稀疏交叉注意力，使特徵更可預測。

實際應用中學習型影像壓縮的關鍵因素

2026-05-07 08:00 UTC+8

蘋果機器學習研究團隊在CVPR 2026上發表論文，系統研究了實際學習型影像編解碼器的關鍵建模選擇，聯合最佳化感知質量和執行時間。透過效能感知的神經架構搜尋，提出新型編解碼器，在主觀使用者測試中比AV1等傳統編解碼器節省2.3–3倍位元速率，比最優學習型編解碼器節省20–40%位元速率。在iPhone 17 Pro Max上，編碼1200萬畫素影像僅需230毫秒，解碼150毫秒。

系統研究實際學習型影像編解碼器的關鍵建模選擇，包括多種新技術。
採用效能感知的神經架構搜尋，在數百萬種骨幹配置中尋找最佳模型。

SpecMD：投機專家預取的全面研究

2026-05-06 08:00 UTC+8

SpecMD是蘋果研究人員開發的標準化框架，用於基準測試和評估混合專家（MoE）模型中的專家快取策略。研究發現MoE專家訪問模式不符合時間區域性性，從而提出了一種稱為Least-Stale的新驅逐策略，與LRU相比，該策略將碰撞未命中率降低了85倍，在OLMoE上實現了88%以上的命中率和34.7%的首令牌時間減少。

SpecMD提供了一個標準化基準框架，用於在不同硬體配置下評估MoE專家快取策略。
研究發現MoE專家的訪問模式與LRU和LFU等時間區域性性假設不一致。

帶迭代去噪的歸一化流

2026-05-06 08:00 UTC+8

蘋果機器學習研究推出iTARFlow，一種迭代去噪方法，增強了歸一化流在影像生成方面的能力，在多個解析度的ImageNet上取得了有競爭力的結果。

iTARFlow結合了自迴歸生成與迭代去噪。
訓練時保持基於似然的目標，與擴散模型不同。

從“物體在哪裡”到“物體有何用”：多模態大語言模型的空間-功能智慧基準測試

2026-05-06 08:00 UTC+8

真正的空間智慧超越了低層幾何感知，要求理解物體不僅“在哪裡”還要“有何用”。蘋果機器學習研究團隊提出的SFI-Bench基準測試，透過超過1700個來自第一人稱室內影片的問題，系統評估多模態大語言模型在結構化空間推理和功能推理兩個維度的能力。實驗表明，當前模型難以整合空間記憶與功能及外部知識，暴露出關鍵瓶頸。

SFI-Bench超越了傳統幾何感知基準，聚焦高階認知能力。
涵蓋條件計數、多跳關係推理、功能配對和知識驅動故障排查等任務。

隨機KV路由：實現自適應的深度維度快取共享

2026-05-05 08:00 UTC+8

蘋果機器學習研究提出隨機KV路由方法，透過在訓練中讓各層隨機選擇關注自身或前一層的鍵值狀態，實現跨層快取共享，從而在不增加推理延遲的前提下顯著減少KV快取記憶體佔用。實驗表明，該技術適用於多種模型，且在資料受限場景中具有正則化效果，甚至能保持或提升效能。

KV快取記憶體消耗大，影響大語言模型服務成本
現有方法多沿時間軸壓縮或驅逐快取，本文利用深度維度最佳化

PORTool：基於重要性感知和獎勵樹的多工具整合推理策略最佳化

2026-05-04 08:00 UTC+8

蘋果與普渡大學聯合提出PORTool演算法，透過生成獎勵展開樹和步驟級重要性估計，解決多工具推理中信用分配模糊問題，提升最終答案准確率並減少工具呼叫次數。

PORTool利用獎勵樹直接比較同一上下文中的不同工具使用決策。
透過正確性主導訊號和輔助執行成功訊號估計每步重要性。

強化智慧體：工具呼叫智慧體的推理時反饋

2026-05-01 08:00 UTC+8

蘋果研究團隊提出一種在推理時將評估引入執行迴圈的方法，透過專門的評審智慧體在工具呼叫前進行預評估，從而即時糾正錯誤。實驗表明，該方法在BFCL和τ2-Bench上分別提升5.5%和7.1%，並引入了有用性-有害性指標來量化糾錯帶來的收益與風險。

將評估從事後分析移至推理時執行迴圈中，實現即時糾錯。
引入有用性-有害性指標，量化評審智慧體帶來的淨收益。

國際聲學、語音與訊號處理大會（ICASSP）2026

2026-04-30 08:00 UTC+8

蘋果將在2026年5月4日至8日於西班牙巴塞羅那舉行的ICASSP 2026上展示新研究成果，並贊助該會議。本文介紹了蘋果的參與詳情，包括展位時間、論文發表和學術服務。

蘋果將在ICASSP 2026展示三項研究成果，涵蓋多語言語音模型、立體聲音訊生成和推測解碼。
蘋果展位P2將於5月4日19:00-21:30及5月5-8日09:00-17:00開放。

用手語模型引導手語標註

2026-04-30 08:00 UTC+8

蘋果公司和加勞德特大學的研究人員開發了一種偽標註流程，以解決高質量標註手語資料稀缺的問題。該方法使用手指拼寫識別器、孤立手語識別器和K-Shot大型語言模型，從手語影片和英語輸入生成可能的標註。他們在FSBoard上實現了6.7%的詞錯誤率（CER），在ASL Citizen上實現了74%的Top-1準確率，併發布了近500個人工標註影片和超過300小時的偽標註資料。

高質量標註資料缺乏限制了AI手語翻譯；ASL STEM Wiki和FLEURS-ASL等新資料集包含數百小時資料，但因標註成本高昂而被未充分利用。
該流程結合手指拼寫識別器、孤立手語識別器（ISR）和K-Shot LLM，生成帶時間區間的排名標註。

STARFlow-V：基於歸一化流的端到端影片生成建模

2026-04-30 08:00 UTC+8

蘋果機器學習研究團隊提出STARFlow-V，一種基於歸一化流的影片生成器，具有端到端學習、魯棒因果預測和原生似然估計等優勢。該模型在時空潛空間中採用全域性-區域性架構，並透過流得分匹配和影片感知雅可比迭代方案，實現了高視覺保真度和時間一致性，首次證明了歸一化流在高質量自迴歸影片生成中的潛力。

STARFlow-V是基於歸一化流的影片生成模型，挑戰擴散模型的主導地位。
採用全域性-區域性架構減少誤差累積，支援文本/影像/影片到影片的多工生成。

DSO：用於偏差緩解的直接轉向最佳化

2026-04-29 08:00 UTC+8

蘋果機器學習研究團隊提出DSO（直接轉向最佳化），利用強化學習學習線性變換來轉向模型啟用，在視覺-語言模型（VLM）和大語言模型（LLM）中有效緩解偏差，實現了公平性與效能之間最先進的權衡，並允許使用者在推理時控制這一權衡。

DSO透過強化學習學習線性變換，在推理時轉向模型啟用以緩解偏差。
在VLM和LLM上，DSO實現了公平性與效能之間最先進的權衡。

自適應思考：大語言模型知道何時在隱空間中進行思考

2026-04-29 08:00 UTC+8

蘋果機器學習研究提出 Sonata，一種輕量級介面卡，透過自我一致性預測來動態分配推理時的思維預算，在保持準確率的同時將思維令牌減少20%至80%，或同等令牌成本下準確率提升5%。

利用自洽性作為判斷是否需要擴充套件思考的代理指標。
提出Sonata輕量介面卡，在查詢預填充階段預測自洽性，動態分配思維預算。

LaDiR：潛在擴散增強LLM的文本推理能力

2026-04-28 08:00 UTC+8

LaDiR結合變分自編碼器和潛在擴散模型，透過塊級雙向注意力實現推理軌跡的迭代精煉，在數學推理和規劃基準上顯著提升了準確性、多樣性和可解釋性。

LaDiR使用VAE將推理步驟編碼為潛在思想塊，保留語義資訊。
潛在擴散模型透過塊級雙向注意力掩碼實現全域性迭代精煉。

StereoFoley：從影片生成物件感知的立體聲音訊

2026-04-28 08:00 UTC+8

Apple機器學習研究團隊在ICASSP 2026上提出StereoFoley框架，能夠從影片中生成語義對齊、時間同步且空間準確的48kHz立體聲音訊。透過合成資料管道和微調技術，解決了現有模型缺乏物件感知立體聲成像的問題，並引入了新的評估指標。

StereoFoley是首個端到端物件感知立體聲影片到音訊生成框架，輸出48kHz立體聲。
利用合成資料管道結合物體跟蹤和動態聲像控制，克服了專業資料集的缺失。

條件擴散模型中組合泛化的區域性機制

2026-04-28 08:00 UTC+8

該研究探討了條件擴散模型如何在超出訓練分佈的組合條件下實現組合泛化，特別是長度泛化——生成比訓練時更多物件的影像。透過在CLEVR資料集上的實驗，發現模型在某些情況下能實現長度泛化，但並非總是如此。研究者提出並證明了區域性條件分數與特定組合結構（條件投影組合）之間的等價性，並驗證了區域性條件分數是成功泛化的關鍵。因果乾預實驗顯示，強制區域性條件分數可使原本失敗的模型實現長度泛化。在SDXL模型中，畫素空間存在空間區域性性但缺乏條件區域性性，然而在特徵空間中發現了區域性條件分數的證據。

條件擴散模型在部分情況下能實現長度泛化，但並非普遍。
區域性條件分數是組合泛化的關鍵機制，與條件投影組合結構等價。

Apple Machine Learning Research

最新公開文章

九位法官，兩張有效票：相關性錯誤削弱LLM評估小組

用於從標籤分佈學習中度量依賴的標註飽和

介紹蘋果第三代基礎模型

蘋果在CVPR 2026展示最新研究成果

VSAS-Bench：視覺流式助手模型的即時評估

EpiCache：面向資源受限環境下的長期對話的片段式KV快取管理

BalCapRL：面向多模態大語言模型影像描述的平衡強化學習框架

RVPO：透過方差正則化實現風險敏感的對齊

Velox：學習4D幾何與外觀的表示

蘋果隱私保護機器學習與AI研討會2026

大規模多視角捕捉下的高質量3D高斯頭部重建

文本條件JEPA：學習語義豐富的視覺表示

實際應用中學習型影像壓縮的關鍵因素

SpecMD：投機專家預取的全面研究

帶迭代去噪的歸一化流

從“物體在哪裡”到“物體有何用”：多模態大語言模型的空間-功能智慧基準測試

隨機KV路由：實現自適應的深度維度快取共享

PORTool：基於重要性感知和獎勵樹的多工具整合推理策略最佳化

強化智慧體：工具呼叫智慧體的推理時反饋

國際聲學、語音與訊號處理大會（ICASSP）2026

用手語模型引導手語標註

STARFlow-V：基於歸一化流的端到端影片生成建模

DSO：用於偏差緩解的直接轉向最佳化

自適應思考：大語言模型知道何時在隱空間中進行思考

LaDiR：潛在擴散增強LLM的文本推理能力

StereoFoley：從影片生成物件感知的立體聲音訊

條件擴散模型中組合泛化的區域性機制

全部來源