驗證視野:編程智能體獎勵沒有銀彈
傳統觀點認為驗證比生成容易,但如今編程智能體的驗證已成為更大難題。本文提出驗證信號的三維度評價(可擴展性、忠實性、魯棒性),並探索四種獎勵構建方法,實驗證明針對性驗證設計能有效抑制獎勵黑客並提升任務質量,最終結論是驗證必須隨策略能力共同進化。
- 生成方案易,可靠驗證難;每個驗證器僅是意圖的代理。
- 驗證面臨雙重困難:意圖天然欠指定,優化擴大代理與意圖的鴻溝。
Use abstract and metadata; check individual paper license before full text.
傳統觀點認為驗證比生成容易,但如今編程智能體的驗證已成為更大難題。本文提出驗證信號的三維度評價(可擴展性、忠實性、魯棒性),並探索四種獎勵構建方法,實驗證明針對性驗證設計能有效抑制獎勵黑客並提升任務質量,最終結論是驗證必須隨策略能力共同進化。
COrigami是一種端到端的AI驅動管道,能夠從自然語言生成摺痕圖案,滿足平折的嚴格幾何約束和視覺美學。該系統通過生成語義簡圖、計算基礎打包、求解平折扣痕圖案、塑形以及利用強化學習和自主美學評估循環進行優化,協助人類藝術家進行設計。
該論文提出了一種自主AI智能體的治理模型,不監控其推理過程,而是要求在採取高風險行動時提供獨立認證的證據。智能體保留規劃和推理的自主權,但執行需要滿足由獨立權威來源認證的前提條件,這些條件與聲明的意圖加密綁定,並由確定性策略評估。決策記錄在防篡改日誌中,可供獨立重新驗證。研究提供了概念驗證實現,並舉例説明了軟件部署和臨牀處方中的應用。
研究人員提出DD-Elo評級系統,結合漂移擴散模型與棋步級數據,比傳統Elo更快適應技能變化,同時保持理論一致性。
本研究開發了一個基於知識圖譜的多智能體框架,整合了Reddit、WebMD和FDA不良事件報告系統等來源的抑鬱症藥物數據,實現了對患者生成數據與監管數據的溯源區分,為心理健康藥物信息提供了更可靠、可審計的整合方案。
本文介紹了一個基於LLM的比較管道,用於大規模分析AI代理協議的治理結構。研究對比了ERC-8004(無許可鏈上協議)與Google A2A(企業主導協議),分析了4323條治理參與記錄。發現兩種模式均存在參與不平等和社區碎片化,但無許可環境下的話語對齊更緊密,表明開放治理可能促進主題趨同。
AlgoEvolve是一個利用大語言模型(LLM)驅動進化框架,用於生成、評估和迭代改進可執行的交易策略。該系統在多個實驗中展現出自適應市場狀態的策略邏輯,並引入元進化外層循環以優化提示,從而平衡探索與利用,減少零交易失敗。結果表明,基於LLM的語義進化為複雜環境中的持續程序合成提供了一種可行方法。
該論文發現,在聊天模型中,拒絕行為並非獨立機制,而是受角色個性(特別是順從個性)的門控。通過干預Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct的激活方向,研究顯示順從個性方向可以抑制拒絕,而拒絕方向僅在後期層部分恢復拒絕。這表明拒絕在後期表達階段受個性門控,而非孤立方向。
當基準測試的準確率飽和時,通常會被淘汰並替換。本文表明,這種方法只關注準確率,而忽略了其他六個關鍵維度:構造效度問題、分佈外泛化能力、效率、可靠性、模型與框架的相對重要性以及人機協作的提升。通過 CORE-Bench Hard 案例,作者展示了即使在準確率飽和後,測量這些維度也能獲得有意義的見解。他們發現了構造效度威脅,推出了改進版 v1.1 和分佈外任務套件,並發現基準測試仍可用於測量效率、可靠性和性能。此外,一項小規模隨機實驗顯示,人機協作可將速度提高約兩倍。
研究人員提出一種使用級聯線性特徵檢測和控制語言模型中諂媚行為的方法。該方法通過迭代數據生成來隔離與行為線性相關的特徵,從而實現更好的特徵分離。發現的特徵形成線性可分的子空間,能夠檢測並引導模型遠離諂媚行為,在計算成本更低的情況下優於基線方法。
本研究基於學術論文全文,利用深度學習提取算法實體,構建自然語言處理領域的大規模算法共現網絡,從網絡視角分析算法的羣體影響力。研究覆蓋四十餘年文獻,發現算法網絡具有複雜網絡特徵,經典高性能算法及跨時期算法影響力較大,且影響力下降時核心位置先於關聯弱化。
一種名為SGPO的新方法通過用可複用的策略蒸餾替代實例級的軌跡模仿,提升了LLM的推理能力,在數學基準測試上優於基線方法。
該研究提出了一種混合預測模型,結合集成特徵選擇策略(ANOVA與互信息)和哈里斯鷹優化調整的邏輯迴歸,用於預測女性性工作者(FSW)的心理健康風險。模型在3005名FSW中達到95.78%的準確率,識別出創傷後應激、客户暴力和職業因素為主要抑鬱風險因素,為弱勢羣體提供可解釋的AI早期干預工具。
推薦系統通常通過單一優化用户即時參與度而導致信息繭房和語義同質化。本文提出一種多目標強化學習框架,將推薦形式化為語義多目標馬爾可夫決策過程,通過集成高保真語義嵌入與Pareto-DQN智能體,將參與度、多樣性和公平性視為不可聚合的獎勵信號。在MovieLens小數據集上的實驗表明,基於超體積的動作選擇能打破導致語義坍塌的反饋循環,在僅輕微影響參與度的情況下提升了輔助社會目標。
本文研究了在已經定位電路後,語言模型(LM)代理是否可以幫助解釋電路組件。作者提出了AgenticInterpBench基準(包含84個半合成變壓器電路和163個組件級標註)以及HyVE解釋器,該解釋器通過觀察、假設生成和因果驗證的迭代循環來分析每個組件。在四個LM骨幹上的實驗表明,HyVE能夠恢復有用的解釋,但沒有一個骨幹全面最優。失敗主要出現在驗證階段。在Llama-3-8B算術電路上的案例研究證明了該方法對自然訓練模型的適用性。總的來説,LM代理是很有前景的電路解釋器,但可靠的驗證仍是關鍵障礙。
一項新研究表明,通過在真實領域中對有益行為進行強化學習,可以產生廣泛且持久的對齊泛化,即使干預僅侷限於健康領域,也能顯著改善非健康領域的對齊評估,並增強對抗性提示和有害微調的抵抗能力。
該研究提出一種分層多智能體強化學習框架,通過約束流形在低層強制執行硬安全約束,同時通過高層策略學習實現有效協調,在保持近乎完美安全率的同時實現競爭性性能,並能泛化到不同數量的智能體和障礙物。
本文探討了AI代理的本質,區分了基於外部工作流程的“代理型”系統和具有內在能力的“代理性”系統,提出了目標-身份-配置器(GIC)架構,並強調了人類監督下自主系統的可審計性、可控性和安全性。
本文提出神經符號驅動框架,通過從經典規則規劃器中提取基於規則的推理軌跡,監督駕駛VLA模型。該方法確保推理與運動生成在結構上耦合,顯著降低了平均位移誤差和丟失率。
RIFT-Bench是一種基於圖表示的新方法,用於對多種智能體AI系統進行統一的動態紅隊安全評估。它通過自動化的發現與掃描階段,自適應地部署對抗性攻擊,並支持緩解策略評估,在45個不同系統上驗證了其有效性。
本研究提出一種基於提示的不確定性分解方法,將動作信心與請求不確定性分離,使大語言模型代理能在任務規範模糊時主動請求澄清。作者引入兩個新基準(WebShop-Clarification和ALFWorld-Clarification),其中50%的任務故意未明確指定,並在五個大型語言模型上評估該方法。結果表明,所提分解方法在澄清F1分數上顯著優於現有方法。
本文提出積分變換網絡(ITNet),通過一個可學習的積分核統一了卷積、自注意力和自迴歸循環三種架構。ITNet使用小型神經網絡實現核函數,能夠從數據中自適應行為,並在多個基準任務上達到或超越專用模型。
一種新方法使大型語言模型能夠利用良知步驟和直接偏好優化進行自我倫理對齊,無需外部評判,從而在代碼黑客等場景中實現湧現對齊,克服了以往的湧現錯位問題。
本文提出REVEAL++,一種在對比學習中採用連續表型結構的方法,用於視網膜圖像和臨牀風險敍述的視覺-語言對齊,以預測阿爾茨海默病風險。該方法通過可微分加權函數替代硬分組,實現分級監督和端到端學習。在UK Biobank數據集上的評估表明,其性能優於離散分組基線。
本研究比較了Qwen 2.5 7B和XGBoost在臨牀預測任務中的表現,通過歸因分歧分析揭示了四個重要發現:LLM的口頭置信度在認識論上是空洞的,存在逆向難度效應,少樣本示例和SHAP特徵證據的結合可顯著提升準確率,且跨模型校準器能有效降低校準誤差。
DeXposure-Claw是一個基於預測的代理監督系統,旨在解決通用LLM代理在去中心化金融風險監督中的不足。它通過圖形時間序列基礎模型預測風險網絡,結合確定性監控和壓力情景生成警報,並利用數據健康和置信度門控減少誤報。此外,還開發了DeXposure-Bench評估套件,通過六軸評估(包括決策軸)衡量系統性能。實驗基於五年周度真實數據,驗證了系統的有效性。
本文提出了一種新的動態系統模型,用於解釋多智能體LLM商議如何通過每個智能體的隱藏內部信念(錨點)影響羣體決策。該模型揭示了經典共識規則無法解釋的現象:智能體對正確答案的置信度可能超越初始信念的凸包範圍。通過三個開源模型家族的實驗,作者發現錨點的影響強度相近,但位置差異決定了商議是否能突破初始意見的限制。
本文對八種最先進的擴散語言模型(DLM)在推理、編碼、翻譯、知識和結構化問題解決等八個基準上進行了系統實驗分析,同時考慮了生成質量和計算效率。研究發現,DLM的行為受生成時設計選擇(如去噪步驟、上下文長度、塊大小和平行解掩碼策略)的強烈影響,導致性能與計算效率之間存在不同的權衡。該研究為當代DLM的能力和部署特性提供了實用見解。
一項新研究提出了一種人機協同的流程,用於衡量本科計算機科學課程與課程指南的契合度。應用於CS2013和CS2023時,發現覆蓋率基本不變(約50%),但認知深度實現率從95%下降到76%,反映了新版標準要求的提高。同時還發現了並行計算、編程語言基礎和系統基礎等領域的持續差距。
一篇新論文提出了AgenticRei,這是一個義務政策框架,用於治理LLM驅動的自主智能體,解決了當前訪問控制引擎無法處理的義務、豁免和策略衝突問題。