九位法官,兩張有效票:相關性錯誤削弱LLM評估小組
研究顯示,由多個LLM組成的評估小組因模型間相關錯誤,實際信息量遠低於獨立投票的理想狀態。9個前沿模型僅相當於約2個獨立投票,準確率下降8-22個百分點,最佳單一模型可媲美或超越整個小組。增加法官或改進聚合算法效果有限。
- 9個LLM評估小組實際只有約2個獨立投票的信息量,約75%的名義獨立性因模型重複錯誤而喪失。
- 小組實際準確率比獨立投票理想狀態低8-22個百分點,最佳單一模型表現不遜於甚至超越整個小組。
來源詳情
AI News Hub 持續追蹤 Apple Machine Learning Research 的 AI 更新,並公開來源狀態、授權邊界、抓取方式和已發布文章。
Official research source; confirm reuse terms before enabling full body display.
研究顯示,由多個LLM組成的評估小組因模型間相關錯誤,實際信息量遠低於獨立投票的理想狀態。9個前沿模型僅相當於約2個獨立投票,準確率下降8-22個百分點,最佳單一模型可媲美或超越整個小組。增加法官或改進聚合算法效果有限。
當標註者之間存在分歧時,分歧本身攜帶有用信號,但捕捉該信號所需的標註者數量取決於評估指標。本文通過在ChaosNLI數據集上微調NLI模型,發現熵相關性需要20-50個標註者才能收斂,而KL散度在約10個標註者時達到飽和。軟標籤能夠捕捉項目特定的分歧信號,而標籤平滑無法做到這一點。研究建議標註預算應根據目標評估指標來設定,而非統一規定。
蘋果發佈了第三代基礎模型系列,包含五個模型,與谷歌合作開發,涵蓋設備端和服務器端,強調隱私保護和新架構。這些模型驅動全新Siri和智能工具,在評估中展現出顯著質量提升。
蘋果將在2026年6月3日至7日于丹佛舉行的CVPR大會上贊助並展示多項研究,包括視頻生成、多模態理解、圖像壓縮等領域,並在展位進行海報演示。
流式視覺語言模型(VLM)根據指令和輸入幀流連續生成響應,用於實時視覺助手。現有基準多評估離線模型,而VSAS-Bench針對流式VLM引入主動性和一致性等指標,擁有超過18,000個密集標註,提供同步和異步評估協議。大規模評估表明,傳統VLM無需額外訓練即可適應流式場景,性能優於專用流式VLM。
現代大語言模型(LLM)可處理百萬級token的上下文,但鍵值(KV)緩存隨對話歷史線性增長,導致內存不足。現有壓縮方法多在處理完整個上下文後才驅逐緩存,峯值內存不受控,且查詢依賴的驅逐會窄化緩存語義。本文提出EpiCache,一種免訓練的KV緩存管理框架,通過分塊預填充限制緩存增長,並通過片段式KV壓縮保留主題相關上下文。在三個基準測試上,EpiCache準確率提升高達30%,在4-6倍壓縮下接近全緩存準確率,延遲和峯值內存分別降低2.4倍和3.7倍。
蘋果研究團隊提出BalCapRL,一個聯合優化正確性、覆蓋率和語言質量的強化學習框架,用於多模態大語言模型的圖像描述生成。通過引入GDPO風格的獎勵解耦歸一化和長度條件獎勵掩碼,BalCapRL在LLaVA-1.5和Qwen2.5-VL等模型上實現了顯著性能提升,例如DCScore提升13.6點,CaptionQA提升9.0點,CapArena提升29.0點。
當前的無需評論家的RLHF方法通過算術平均聚合多目標獎勵,容易忽視約束條件:一個目標的高分可以掩蓋其他目標的嚴重失敗。我們提出獎勵方差策略優化(RVPO),通過在優勢聚合中懲罰獎勵間方差,將目標從“最大化總和”轉變為“最大化一致性”。泰勒展開表明,LogSumExp(SoftMin)算子可充當平滑的方差懲罰。我們在醫療和科學推理任務(最多17個LLM評判的獎勵信號)以及工具調用任務(基於規則的約束)上評估了RVPO。RVPO通過防止模型忽視困難約束來利用簡單目標,在HealthBench上取得0.261(GDPO為0.215,p<0.001),並在GPQA-Diamond上保持競爭性準確率,沒有出現其他多獎勵方法後期性能下降的現象。
Velox是一個用於學習4D物體潛在表示的框架,能夠從非結構化的動態點雲中高效壓縮時空彩色點云為動態形狀令牌,並通過4D表面解碼器和高斯解碼器分別重建幾何和外觀。實驗證明其在視頻到4D生成、3D跟蹤和布料模擬等下游任務中表現優異。
蘋果於2026年初舉辦了一場為期兩天的隱私保護機器學習與AI研討會,匯聚了蘋果及全球研究社區的研究人員,探討了隱私保護ML和AI的最新進展,涵蓋聯邦學習、基礎模型隱私、攻擊與安全等關鍵領域。
我們提出了HeadsUp,一種可擴展的前饋方法,用於從大規模多攝像頭設置中重建高質量3D高斯頭部。該方法採用高效的編碼器-解碼器架構,將輸入視圖壓縮為緊湊的潛在表示,然後解碼為UV參數化的3D高斯分佈。該表示將3D高斯數量與輸入圖像的數量和分辨率解耦,支持使用多個高分辨率輸入進行訓練。我們在包含超過10,000個主體的內部數據集上訓練和評估模型,實現了最先進的重建質量,並能泛化到未見身份,無需測試時優化。我們分析了模型在身份、視圖和模型容量上的擴展行為,並展示了潛在空間在生成新3D身份和動畫表情方面的應用。
蘋果機器學習研究團隊提出了文本條件聯合嵌入預測架構(TC-JEPA),通過引入圖像描述文本作為條件,降低了視覺自監督學習中掩碼特徵預測的不確定性,從而學習到更語義化的視覺表示。該方法在多種下游任務上優於對比學習方法,特別是在需要細粒度視覺理解和推理的任務中。
蘋果機器學習研究團隊在CVPR 2026上發表論文,系統研究了實際學習型圖像編解碼器的關鍵建模選擇,聯合優化感知質量和運行時間。通過性能感知的神經架構搜索,提出新型編解碼器,在主觀用户測試中比AV1等傳統編解碼器節省2.3–3倍碼率,比最優學習型編解碼器節省20–40%碼率。在iPhone 17 Pro Max上,編碼1200萬像素圖像僅需230毫秒,解碼150毫秒。
SpecMD是蘋果研究人員開發的標準化框架,用於基準測試和評估混合專家(MoE)模型中的專家緩存策略。研究發現MoE專家訪問模式不符合時間局部性,從而提出了一種稱為Least-Stale的新驅逐策略,與LRU相比,該策略將碰撞未命中率降低了85倍,在OLMoE上實現了88%以上的命中率和34.7%的首令牌時間減少。
蘋果機器學習研究推出iTARFlow,一種迭代去噪方法,增強了歸一化流在圖像生成方面的能力,在多個分辨率的ImageNet上取得了有競爭力的結果。
真正的空間智能超越了低層幾何感知,要求理解物體不僅“在哪裏”還要“有何用”。蘋果機器學習研究團隊提出的SFI-Bench基準測試,通過超過1700個來自第一人稱室內視頻的問題,系統評估多模態大語言模型在結構化空間推理和功能推理兩個維度的能力。實驗表明,當前模型難以整合空間記憶與功能及外部知識,暴露出關鍵瓶頸。
蘋果機器學習研究提出隨機KV路由方法,通過在訓練中讓各層隨機選擇關注自身或前一層的鍵值狀態,實現跨層緩存共享,從而在不增加推理延遲的前提下顯著減少KV緩存內存佔用。實驗表明,該技術適用於多種模型,且在數據受限場景中具有正則化效果,甚至能保持或提升性能。
蘋果與普渡大學聯合提出PORTool算法,通過生成獎勵展開樹和步驟級重要性估計,解決多工具推理中信用分配模糊問題,提升最終答案准確率並減少工具調用次數。
蘋果研究團隊提出一種在推理時將評估引入執行循環的方法,通過專門的評審智能體在工具調用前進行預評估,從而實時糾正錯誤。實驗表明,該方法在BFCL和τ2-Bench上分別提升5.5%和7.1%,並引入了有用性-有害性指標來量化糾錯帶來的收益與風險。
蘋果將在2026年5月4日至8日於西班牙巴塞羅那舉行的ICASSP 2026上展示新研究成果,並贊助該會議。本文介紹了蘋果的參與詳情,包括展位時間、論文發表和學術服務。
蘋果公司和加勞德特大學的研究人員開發了一種偽標註流程,以解決高質量標註手語數據稀缺的問題。該方法使用手指拼寫識別器、孤立手語識別器和K-Shot大型語言模型,從手語視頻和英語輸入生成可能的標註。他們在FSBoard上實現了6.7%的詞錯誤率(CER),在ASL Citizen上實現了74%的Top-1準確率,併發布了近500個人工標註視頻和超過300小時的偽標註數據。
蘋果機器學習研究團隊提出STARFlow-V,一種基於歸一化流的視頻生成器,具有端到端學習、魯棒因果預測和原生似然估計等優勢。該模型在時空潛空間中採用全局-局部架構,並通過流得分匹配和視頻感知雅可比迭代方案,實現了高視覺保真度和時間一致性,首次證明了歸一化流在高質量自迴歸視頻生成中的潛力。
蘋果機器學習研究團隊提出DSO(直接轉向優化),利用強化學習學習線性變換來轉向模型激活,在視覺-語言模型(VLM)和大語言模型(LLM)中有效緩解偏差,實現了公平性與性能之間最先進的權衡,並允許用户在推理時控制這一權衡。
蘋果機器學習研究提出 Sonata,一種輕量級適配器,通過自我一致性預測來動態分配推理時的思維預算,在保持準確率的同時將思維令牌減少20%至80%,或同等令牌成本下準確率提升5%。
LaDiR結合變分自編碼器和潛在擴散模型,通過塊級雙向注意力實現推理軌跡的迭代精煉,在數學推理和規劃基準上顯著提升了準確性、多樣性和可解釋性。
Apple機器學習研究團隊在ICASSP 2026上提出StereoFoley框架,能夠從視頻中生成語義對齊、時間同步且空間準確的48kHz立體聲音頻。通過合成數據管道和微調技術,解決了現有模型缺乏對象感知立體聲成像的問題,並引入了新的評估指標。
該研究探討了條件擴散模型如何在超出訓練分佈的組合條件下實現組合泛化,特別是長度泛化——生成比訓練時更多對象的圖像。通過在CLEVR數據集上的實驗,發現模型在某些情況下能實現長度泛化,但並非總是如此。研究者提出並證明了局部條件分數與特定組合結構(條件投影組合)之間的等價性,並驗證了局部條件分數是成功泛化的關鍵。因果乾預實驗顯示,強制局部條件分數可使原本失敗的模型實現長度泛化。在SDXL模型中,像素空間存在空間局部性但缺乏條件局部性,然而在特徵空間中發現了局部條件分數的證據。