BAIR Blog AI 新聞來源

公開文章 11採集文章 11可信度 82刷新頻率 60 分鐘

健康狀態 自動暫停來源類型研究原文權限 允許原文最近入庫 2026-05-08ID bair-blog運行狀態 未啟用

Research blog; check individual article license before full text display.

最新公開文章

自適應並行推理：高效推理擴充套件的下一個正規化

2026-05-08 17:00 UTC+8

自適應並行推理（APR）是一種讓模型自主決定何時並行化、並行多少執行緒以及如何協調的新正規化。本文詳細分析了APR的動機、方法、訓練策略和評估，討論了其與固定並行方法的區別，並提出了未來研究方向。

APR使模型能夠動態分配計算資源，在順序與並行推理之間自適應切換。
與Tree-of-Thoughts和Best-of-N等固定並行方法相比，APR避免了冗餘計算並無需領域特定啟發式。

基於梯度的世界模型長時域規劃

2026-04-20 17:00 UTC+8

GRASP是一種新的基於梯度的規劃器，用於學習動力學（世界模型），透過將軌跡提升到虛擬狀態實現並行最佳化、向狀態迭代新增隨機性進行探索，並重塑梯度以避免高維視覺模型中脆弱的狀態輸入梯度。該方法使長時域規劃變得更加實用。

GRASP透過虛擬狀態提升實現並行最佳化，顯著加速長時域規劃。
透過向狀態注入高斯噪聲促進探索，避免陷入區域性最優。

大規模識別LLM中的互動作用

2026-03-13 17:00 UTC+8

本文介紹了SPEX和ProxySPEX演算法，它們能從特徵歸因、資料歸因和機制可解釋性三個視角高效識別大規模語言模型中的關鍵互動作用。這些演算法利用稀疏性、低階性和層次性等結構特性，透過較少的消融實驗發現影響模型行為的重要特徵、訓練資料和內部元件之間的互動，在長上下文、資料集和模型元件分析中展現了顯著效果。

SPEX利用稀疏性和低階性將互動發現轉化為稀疏恢復問題，顯著降低計算成本。
ProxySPEX利用層次性進一步減少約10倍消融次數。

基於資訊驅動的成像系統設計

2026-01-10 17:00 UTC+8

研究人員開發了一種基於互資訊的成像系統評估與最佳化框架，在四個成像領域預測系統效能，並實現無需任務特定解碼器的高效設計。

互資訊量化測量中的有用資訊量，統一傳統指標如解析度與訊雜比。
該方法利用已知噪聲模型和學習分佈，直接從噪聲測量中估計資訊。

無需時序差分的強化學習：分治策略的突破

2025-11-01 17:00 UTC+8

本文介紹了一種基於分治正規化的新型強化學習演算法——Transitive RL（TRL），它完全摒棄了傳統的時序差分學習，透過遞迴分割軌跡實現對長程任務的強擴充套件性。在OGBench最具挑戰性的任務上，TRL達到了最優效能，且無需手動調整n步TD的超引數。

提出基於分治策略的強化學習演算法TRL，替代傳統的時序差分學習。
TRL透過遞迴分割軌跡，將貝爾曼遞迴次數從線性降低為對數級別，有效處理長程任務。

word2vec到底學到了什麼？

2025-09-01 17:00 UTC+8

伯克利AI研究團隊提出了一種新理論，揭示了word2vec的學習過程：它本質上是無權重最小二乘矩陣分解，最終表示等同於PCA。模型從小初始化開始，逐步學習正交線性子空間，每個子空間對應一個可解釋的概念。該理論預測了學習特徵的封閉形式，並與實驗高度吻合。

word2vec的學習可以簡化為無加權最小二乘矩陣分解，最終嵌入由PCA給出。
從小的初始化開始，word2vec以離散步驟依次學習正交線性子空間。

全身條件的第一人稱影片預測

2025-07-01 17:00 UTC+8

BAIR團隊提出PEVA模型，透過全身動作條件預測第一人稱影片。該模型利用自迴歸條件擴散變換器，在Nymeria資料集上訓練，能夠模擬原子動作、長期影片生成及視覺規劃。

PEVA以全身運動姿態為輸入，預測第一人稱視角的未來影片幀。
採用48維動作空間，編碼全身關節運動。

使用結構化查詢（StruQ）和偏好最佳化（SecAlign）防禦提示注入攻擊

2025-04-11 18:00 UTC+8

針對LLM整合應用中OWASP排名第一的提示注入威脅，BAIR研究人員提出了兩種無需額外計算或人工成本的微調防禦方法：StruQ和SecAlign。StruQ透過結構化指令微調使LLM學會忽略資料部分的注入指令，SecAlign透過特殊偏好最佳化進一步將最佳化攻擊成功率降至8%以下，且不損失模型通用效能。

提示注入是LLM整合應用的頭號安全威脅
StruQ透過結構化指令微調將無最佳化攻擊成功率降至約0%

重新利用蛋白質摺疊模型進行潛擴散生成

2025-04-08 18:30 UTC+8

PLAID是一種多模態生成模型，透過學習蛋白質摺疊模型的潛空間，同時生成蛋白質的一維序列和三維結構。它僅需序列資料訓練，並支援功能與生物體提示，解決了全原子生成、生物體特異性和控制規範等實際問題。

PLAID利用蛋白質摺疊模型的潛空間進行擴散生成，實現序列與結構的同時生成。
僅需序列資料訓練，利用序列資料庫規模優勢（比結構資料庫大2-4個數量級）。

擴充套件強化學習用於交通平滑：100輛自動駕駛汽車的高速公路部署

2025-03-25 17:00 UTC+8

我們部署了100輛強化學習（RL）控制的車輛進入高峰時段的高速公路交通，以緩解擁堵並降低所有人的燃油消耗。透過資料驅動的模擬訓練，RL智慧體學會了在保持通行能力和安全性的同時最大化能效。實地測試表明，少量經過良好控制的自動駕駛汽車（AV）即可顯著改善交通流和燃油效率，節省高達15-20%的能量。

使用100輛RL控制的車輛在I-24高速公路進行大規模實地測試，旨在平滑“走走停停”的波浪。
RL控制器僅依靠車載雷達和自身速度等本地感測器資訊，實現去中心化操作。

透過背景故事集為語言模型建立虛擬人格

2024-11-12 17:00 UTC+8

BAIR研究團隊提出Anthology方法，透過為大型語言模型生成詳細的人物背景故事，使其能夠模擬具有代表性、一致性和多樣性的虛擬人格。該方法在逼近真實人類調查資料方面優於傳統條件設定，為社會科學研究提供了成本效益高的替代方案。

Anthology利用自然主義背景故事條件化LLM，生成更逼真的虛擬人格。
與僅基於人口統計變數的方法相比，Anthology在回應分佈和一致性上更接近真實人類樣本。

BAIR Blog