九位法官,兩張有效票:相關性錯誤削弱LLM評估小組
研究顯示,由多個LLM組成的評估小組因模型間相關錯誤,實際資訊量遠低於獨立投票的理想狀態。9個前沿模型僅相當於約2個獨立投票,準確率下降8-22個百分點,最佳單一模型可媲美或超越整個小組。增加法官或改進聚合演算法效果有限。
- 9個LLM評估小組實際只有約2個獨立投票的資訊量,約75%的名義獨立性因模型重複錯誤而喪失。
- 小組實際準確率比獨立投票理想狀態低8-22個百分點,最佳單一模型表現不遜於甚至超越整個小組。
來源詳情
AI News Hub 持續追蹤 Apple Machine Learning Research 的 AI 更新,並公開來源狀態、授權邊界、抓取方式和已發布文章。
Official research source; confirm reuse terms before enabling full body display.
研究顯示,由多個LLM組成的評估小組因模型間相關錯誤,實際資訊量遠低於獨立投票的理想狀態。9個前沿模型僅相當於約2個獨立投票,準確率下降8-22個百分點,最佳單一模型可媲美或超越整個小組。增加法官或改進聚合演算法效果有限。
當標註者之間存在分歧時,分歧本身攜帶有用訊號,但捕捉該訊號所需的標註者數量取決於評估指標。本文透過在ChaosNLI資料集上微調NLI模型,發現熵相關性需要20-50個標註者才能收斂,而KL散度在約10個標註者時達到飽和。軟標籤能夠捕捉專案特定的分歧訊號,而標籤平滑無法做到這一點。研究建議標註預算應根據目標評估指標來設定,而非統一規定。
蘋果釋出了第三代基礎模型系列,包含五個模型,與谷歌合作開發,涵蓋裝置端和伺服器端,強調隱私保護和新架構。這些模型驅動全新Siri和智慧工具,在評估中展現出顯著質量提升。
蘋果將在2026年6月3日至7日于丹佛舉行的CVPR大會上贊助並展示多項研究,包括影片生成、多模態理解、影像壓縮等領域,並在展位進行海報演示。
流式視覺語言模型(VLM)根據指令和輸入幀流連續生成響應,用於即時視覺助手。現有基準多評估離線模型,而VSAS-Bench針對流式VLM引入主動性和一致性等指標,擁有超過18,000個密集標註,提供同步和非同步評估協議。大規模評估表明,傳統VLM無需額外訓練即可適應流式場景,效能優於專用流式VLM。
現代大語言模型(LLM)可處理百萬級token的上下文,但鍵值(KV)快取隨對話歷史線性增長,導致記憶體不足。現有壓縮方法多在處理完整個上下文後才驅逐快取,峰值記憶體不受控,且查詢依賴的驅逐會窄化快取語義。本文提出EpiCache,一種免訓練的KV快取管理框架,透過分塊預填充限制快取增長,並透過片段式KV壓縮保留主題相關上下文。在三個基準測試上,EpiCache準確率提升高達30%,在4-6倍壓縮下接近全快取準確率,延遲和峰值記憶體分別降低2.4倍和3.7倍。
蘋果研究團隊提出BalCapRL,一個聯合最佳化正確性、覆蓋率和語言質量的強化學習框架,用於多模態大語言模型的影像描述生成。透過引入GDPO風格的獎勵解耦歸一化和長度條件獎勵掩碼,BalCapRL在LLaVA-1.5和Qwen2.5-VL等模型上實現了顯著效能提升,例如DCScore提升13.6點,CaptionQA提升9.0點,CapArena提升29.0點。
當前的無需評論家的RLHF方法透過算術平均聚合多目標獎勵,容易忽視約束條件:一個目標的高分可以掩蓋其他目標的嚴重失敗。我們提出獎勵方差策略最佳化(RVPO),透過在優勢聚合中懲罰獎勵間方差,將目標從“最大化總和”轉變為“最大化一致性”。泰勒展開表明,LogSumExp(SoftMin)運算元可充當平滑的方差懲罰。我們在醫療和科學推理任務(最多17個LLM評判的獎勵訊號)以及工具呼叫任務(基於規則的約束)上評估了RVPO。RVPO透過防止模型忽視困難約束來利用簡單目標,在HealthBench上取得0.261(GDPO為0.215,p<0.001),並在GPQA-Diamond上保持競爭性準確率,沒有出現其他多獎勵方法後期效能下降的現象。
Velox是一個用於學習4D物體潛在表示的框架,能夠從非結構化的動態點雲中高效壓縮時空彩色點云為動態形狀令牌,並透過4D表面解碼器和高斯解碼器分別重建幾何和外觀。實驗證明其在影片到4D生成、3D跟蹤和布料模擬等下游任務中表現優異。
蘋果於2026年初舉辦了一場為期兩天的隱私保護機器學習與AI研討會,匯聚了蘋果及全球研究社群的研究人員,探討了隱私保護ML和AI的最新進展,涵蓋聯邦學習、基礎模型隱私、攻擊與安全等關鍵領域。
我們提出了HeadsUp,一種可擴充套件的前饋方法,用於從大規模多攝像頭設定中重建高質量3D高斯頭部。該方法採用高效的編碼器-解碼器架構,將輸入檢視壓縮為緊湊的潛在表示,然後解碼為UV引數化的3D高斯分佈。該表示將3D高斯數量與輸入影像的數量和解析度解耦,支援使用多個高解析度輸入進行訓練。我們在包含超過10,000個主體的內部資料集上訓練和評估模型,實現了最先進的重建質量,並能泛化到未見身份,無需測試時最佳化。我們分析了模型在身份、檢視和模型容量上的擴充套件行為,並展示了潛在空間在生成新3D身份和動畫表情方面的應用。
蘋果機器學習研究團隊提出了文本條件聯合嵌入預測架構(TC-JEPA),透過引入影像描述文本作為條件,降低了視覺自監督學習中掩碼特徵預測的不確定性,從而學習到更語義化的視覺表示。該方法在多種下游任務上優於對比學習方法,特別是在需要細粒度視覺理解和推理的任務中。
蘋果機器學習研究團隊在CVPR 2026上發表論文,系統研究了實際學習型影像編解碼器的關鍵建模選擇,聯合最佳化感知質量和執行時間。透過效能感知的神經架構搜尋,提出新型編解碼器,在主觀使用者測試中比AV1等傳統編解碼器節省2.3–3倍位元速率,比最優學習型編解碼器節省20–40%位元速率。在iPhone 17 Pro Max上,編碼1200萬畫素影像僅需230毫秒,解碼150毫秒。
SpecMD是蘋果研究人員開發的標準化框架,用於基準測試和評估混合專家(MoE)模型中的專家快取策略。研究發現MoE專家訪問模式不符合時間區域性性,從而提出了一種稱為Least-Stale的新驅逐策略,與LRU相比,該策略將碰撞未命中率降低了85倍,在OLMoE上實現了88%以上的命中率和34.7%的首令牌時間減少。
蘋果機器學習研究推出iTARFlow,一種迭代去噪方法,增強了歸一化流在影像生成方面的能力,在多個解析度的ImageNet上取得了有競爭力的結果。
真正的空間智慧超越了低層幾何感知,要求理解物體不僅“在哪裡”還要“有何用”。蘋果機器學習研究團隊提出的SFI-Bench基準測試,透過超過1700個來自第一人稱室內影片的問題,系統評估多模態大語言模型在結構化空間推理和功能推理兩個維度的能力。實驗表明,當前模型難以整合空間記憶與功能及外部知識,暴露出關鍵瓶頸。
蘋果機器學習研究提出隨機KV路由方法,透過在訓練中讓各層隨機選擇關注自身或前一層的鍵值狀態,實現跨層快取共享,從而在不增加推理延遲的前提下顯著減少KV快取記憶體佔用。實驗表明,該技術適用於多種模型,且在資料受限場景中具有正則化效果,甚至能保持或提升效能。
蘋果與普渡大學聯合提出PORTool演算法,透過生成獎勵展開樹和步驟級重要性估計,解決多工具推理中信用分配模糊問題,提升最終答案准確率並減少工具呼叫次數。
蘋果研究團隊提出一種在推理時將評估引入執行迴圈的方法,透過專門的評審智慧體在工具呼叫前進行預評估,從而即時糾正錯誤。實驗表明,該方法在BFCL和τ2-Bench上分別提升5.5%和7.1%,並引入了有用性-有害性指標來量化糾錯帶來的收益與風險。
蘋果將在2026年5月4日至8日於西班牙巴塞羅那舉行的ICASSP 2026上展示新研究成果,並贊助該會議。本文介紹了蘋果的參與詳情,包括展位時間、論文發表和學術服務。
蘋果公司和加勞德特大學的研究人員開發了一種偽標註流程,以解決高質量標註手語資料稀缺的問題。該方法使用手指拼寫識別器、孤立手語識別器和K-Shot大型語言模型,從手語影片和英語輸入生成可能的標註。他們在FSBoard上實現了6.7%的詞錯誤率(CER),在ASL Citizen上實現了74%的Top-1準確率,併發布了近500個人工標註影片和超過300小時的偽標註資料。
蘋果機器學習研究團隊提出STARFlow-V,一種基於歸一化流的影片生成器,具有端到端學習、魯棒因果預測和原生似然估計等優勢。該模型在時空潛空間中採用全域性-區域性架構,並透過流得分匹配和影片感知雅可比迭代方案,實現了高視覺保真度和時間一致性,首次證明了歸一化流在高質量自迴歸影片生成中的潛力。
蘋果機器學習研究團隊提出DSO(直接轉向最佳化),利用強化學習學習線性變換來轉向模型啟用,在視覺-語言模型(VLM)和大語言模型(LLM)中有效緩解偏差,實現了公平性與效能之間最先進的權衡,並允許使用者在推理時控制這一權衡。
蘋果機器學習研究提出 Sonata,一種輕量級介面卡,透過自我一致性預測來動態分配推理時的思維預算,在保持準確率的同時將思維令牌減少20%至80%,或同等令牌成本下準確率提升5%。
LaDiR結合變分自編碼器和潛在擴散模型,透過塊級雙向注意力實現推理軌跡的迭代精煉,在數學推理和規劃基準上顯著提升了準確性、多樣性和可解釋性。
Apple機器學習研究團隊在ICASSP 2026上提出StereoFoley框架,能夠從影片中生成語義對齊、時間同步且空間準確的48kHz立體聲音訊。透過合成資料管道和微調技術,解決了現有模型缺乏物件感知立體聲成像的問題,並引入了新的評估指標。
該研究探討了條件擴散模型如何在超出訓練分佈的組合條件下實現組合泛化,特別是長度泛化——生成比訓練時更多物件的影像。透過在CLEVR資料集上的實驗,發現模型在某些情況下能實現長度泛化,但並非總是如此。研究者提出並證明了區域性條件分數與特定組合結構(條件投影組合)之間的等價性,並驗證了區域性條件分數是成功泛化的關鍵。因果乾預實驗顯示,強制區域性條件分數可使原本失敗的模型實現長度泛化。在SDXL模型中,畫素空間存在空間區域性性但缺乏條件區域性性,然而在特徵空間中發現了區域性條件分數的證據。