自適應並行推理:高效推理擴充套件的下一個正規化
自適應並行推理(APR)是一種讓模型自主決定何時並行化、並行多少執行緒以及如何協調的新正規化。本文詳細分析了APR的動機、方法、訓練策略和評估,討論了其與固定並行方法的區別,並提出了未來研究方向。
- APR使模型能夠動態分配計算資源,在順序與並行推理之間自適應切換。
- 與Tree-of-Thoughts和Best-of-N等固定並行方法相比,APR避免了冗餘計算並無需領域特定啟發式。
Research blog; check individual article license before full text display.
自適應並行推理(APR)是一種讓模型自主決定何時並行化、並行多少執行緒以及如何協調的新正規化。本文詳細分析了APR的動機、方法、訓練策略和評估,討論了其與固定並行方法的區別,並提出了未來研究方向。
GRASP是一種新的基於梯度的規劃器,用於學習動力學(世界模型),透過將軌跡提升到虛擬狀態實現並行最佳化、向狀態迭代新增隨機性進行探索,並重塑梯度以避免高維視覺模型中脆弱的狀態輸入梯度。該方法使長時域規劃變得更加實用。
本文介紹了SPEX和ProxySPEX演算法,它們能從特徵歸因、資料歸因和機制可解釋性三個視角高效識別大規模語言模型中的關鍵互動作用。這些演算法利用稀疏性、低階性和層次性等結構特性,透過較少的消融實驗發現影響模型行為的重要特徵、訓練資料和內部元件之間的互動,在長上下文、資料集和模型元件分析中展現了顯著效果。
研究人員開發了一種基於互資訊的成像系統評估與最佳化框架,在四個成像領域預測系統效能,並實現無需任務特定解碼器的高效設計。
本文介紹了一種基於分治正規化的新型強化學習演算法——Transitive RL(TRL),它完全摒棄了傳統的時序差分學習,透過遞迴分割軌跡實現對長程任務的強擴充套件性。在OGBench最具挑戰性的任務上,TRL達到了最優效能,且無需手動調整n步TD的超引數。
伯克利AI研究團隊提出了一種新理論,揭示了word2vec的學習過程:它本質上是無權重最小二乘矩陣分解,最終表示等同於PCA。模型從小初始化開始,逐步學習正交線性子空間,每個子空間對應一個可解釋的概念。該理論預測了學習特徵的封閉形式,並與實驗高度吻合。
BAIR團隊提出PEVA模型,透過全身動作條件預測第一人稱影片。該模型利用自迴歸條件擴散變換器,在Nymeria資料集上訓練,能夠模擬原子動作、長期影片生成及視覺規劃。
針對LLM整合應用中OWASP排名第一的提示注入威脅,BAIR研究人員提出了兩種無需額外計算或人工成本的微調防禦方法:StruQ和SecAlign。StruQ透過結構化指令微調使LLM學會忽略資料部分的注入指令,SecAlign透過特殊偏好最佳化進一步將最佳化攻擊成功率降至8%以下,且不損失模型通用效能。
PLAID是一種多模態生成模型,透過學習蛋白質摺疊模型的潛空間,同時生成蛋白質的一維序列和三維結構。它僅需序列資料訓練,並支援功能與生物體提示,解決了全原子生成、生物體特異性和控制規範等實際問題。
我們部署了100輛強化學習(RL)控制的車輛進入高峰時段的高速公路交通,以緩解擁堵並降低所有人的燃油消耗。透過資料驅動的模擬訓練,RL智慧體學會了在保持通行能力和安全性的同時最大化能效。實地測試表明,少量經過良好控制的自動駕駛汽車(AV)即可顯著改善交通流和燃油效率,節省高達15-20%的能量。
BAIR研究團隊提出Anthology方法,透過為大型語言模型生成詳細的人物背景故事,使其能夠模擬具有代表性、一致性和多樣性的虛擬人格。該方法在逼近真實人類調查資料方面優於傳統條件設定,為社會科學研究提供了成本效益高的替代方案。