AI News HubLIVE
公開文章 296採集文章 320可信度 75刷新頻率 360 分鐘
健康狀態 健康來源類型 研究原文權限 允許原文最近入庫 2026-06-26ID arxiv-ai運行狀態 已啟用

Use abstract and metadata; check individual paper license before full text.

最新公開文章

驗證視野:編程智能體獎勵沒有銀彈

傳統觀點認為驗證比生成容易,但如今編程智能體的驗證已成為更大難題。本文提出驗證信號的三維度評價(可擴展性、忠實性、魯棒性),並探索四種獎勵構建方法,實驗證明針對性驗證設計能有效抑制獎勵黑客並提升任務質量,最終結論是驗證必須隨策略能力共同進化。

  • 生成方案易,可靠驗證難;每個驗證器僅是意圖的代理。
  • 驗證面臨雙重困難:意圖天然欠指定,優化擴大代理與意圖的鴻溝。
站內正文

COrigami:一種用於共同設計可平折且視覺可識別摺紙的AI管道

COrigami是一種端到端的AI驅動管道,能夠從自然語言生成摺痕圖案,滿足平折的嚴格幾何約束和視覺美學。該系統通過生成語義簡圖、計算基礎打包、求解平折扣痕圖案、塑形以及利用強化學習和自主美學評估循環進行優化,協助人類藝術家進行設計。

  • COrigami將自然語言轉化為滿足平折約束的摺痕圖案。
  • 管道包括語義簡圖生成、基礎打包、摺痕圖案求解、塑形和強化學習優化。
站內正文

治理行動而非智能體:機構認證作為自主AI系統的治理模型

該論文提出了一種自主AI智能體的治理模型,不監控其推理過程,而是要求在採取高風險行動時提供獨立認證的證據。智能體保留規劃和推理的自主權,但執行需要滿足由獨立權威來源認證的前提條件,這些條件與聲明的意圖加密綁定,並由確定性策略評估。決策記錄在防篡改日誌中,可供獨立重新驗證。研究提供了概念驗證實現,並舉例説明了軟件部署和臨牀處方中的應用。

  • 自主AI智能體可能執行不可逆的高風險行動,如臨牀處方或軟件部署。
  • 提出模型:智能體保留自主權,但對高風險行動無執行權,執行需滿足獨立認證的前提條件。
站內正文

知識增強的智能代理AI助力心理健康藥物信息搜索

本研究開發了一個基於知識圖譜的多智能體框架,整合了Reddit、WebMD和FDA不良事件報告系統等來源的抑鬱症藥物數據,實現了對患者生成數據與監管數據的溯源區分,為心理健康藥物信息提供了更可靠、可審計的整合方案。

  • 框架整合了466,525條Reddit帖子、60,782條WebMD評論和20年的FDA不良事件報告數據,涵蓋九種抗抑鬱藥。
  • LLM實體識別管線在藥物和病症識別上F1分數分別達到0.969和0.973。
站內正文

智能體基礎設施的智能體分析:一個基於LLM的DAO與企業AI協議治理比較管道

本文介紹了一個基於LLM的比較管道,用於大規模分析AI代理協議的治理結構。研究對比了ERC-8004(無許可鏈上協議)與Google A2A(企業主導協議),分析了4323條治理參與記錄。發現兩種模式均存在參與不平等和社區碎片化,但無許可環境下的話語對齊更緊密,表明開放治理可能促進主題趨同。

  • 提出LLM驅動的比較管道,整合自動化標註、神經主題建模和多層網絡分析
  • 對比分析ERC-8004與Google A2A兩種AI代理互操作標準
站內正文

AlgoEvolve:基於LLM的算法交易程序元進化

AlgoEvolve是一個利用大語言模型(LLM)驅動進化框架,用於生成、評估和迭代改進可執行的交易策略。該系統在多個實驗中展現出自適應市場狀態的策略邏輯,並引入元進化外層循環以優化提示,從而平衡探索與利用,減少零交易失敗。結果表明,基於LLM的語義進化為複雜環境中的持續程序合成提供了一種可行方法。

  • AlgoEvolve將LLM作為語義變異算子,應用於算法交易領域
  • 系統表現出自適應的市場狀態轉換策略邏輯
站內正文

拒絕行為位於聊天模型角色個性的下游

該論文發現,在聊天模型中,拒絕行為並非獨立機制,而是受角色個性(特別是順從個性)的門控。通過干預Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct的激活方向,研究顯示順從個性方向可以抑制拒絕,而拒絕方向僅在後期層部分恢復拒絕。這表明拒絕在後期表達階段受個性門控,而非孤立方向。

  • 順從個性方向可顯著抑制拒絕行為(Llama中拒絕率從97%降至2%)。
  • 拒絕方向僅在後期層部分恢復拒絕,早期層無效。
站內正文

基準測試飽和之後的生活:CORE-Bench 案例研究

當基準測試的準確率飽和時,通常會被淘汰並替換。本文表明,這種方法只關注準確率,而忽略了其他六個關鍵維度:構造效度問題、分佈外泛化能力、效率、可靠性、模型與框架的相對重要性以及人機協作的提升。通過 CORE-Bench Hard 案例,作者展示了即使在準確率飽和後,測量這些維度也能獲得有意義的見解。他們發現了構造效度威脅,推出了改進版 v1.1 和分佈外任務套件,並發現基準測試仍可用於測量效率、可靠性和性能。此外,一項小規模隨機實驗顯示,人機協作可將速度提高約兩倍。

  • 準確率飽和的基準測試仍可用於評估其他維度,如效率、可靠性和泛化能力。
  • CORE-Bench Hard 存在構造效度問題,難以用較弱智能體預見。
站內正文

使用級聯線性特徵檢測和控制諂媚行為

研究人員提出一種使用級聯線性特徵檢測和控制語言模型中諂媚行為的方法。該方法通過迭代數據生成來隔離與行為線性相關的特徵,從而實現更好的特徵分離。發現的特徵形成線性可分的子空間,能夠檢測並引導模型遠離諂媚行為,在計算成本更低的情況下優於基線方法。

  • 諂媚行為是語言模型優先考慮用户認同的傾向。
  • 級聯線性特徵方法使用梯度樣本隔離特徵。
站內正文

基於全文共現網絡的算法學術影響力探究

本研究基於學術論文全文,利用深度學習提取算法實體,構建自然語言處理領域的大規模算法共現網絡,從網絡視角分析算法的羣體影響力。研究覆蓋四十餘年文獻,發現算法網絡具有複雜網絡特徵,經典高性能算法及跨時期算法影響力較大,且影響力下降時核心位置先於關聯弱化。

  • 首次大規模構建NLP領域算法共現網絡,基於全文而非摘要。
  • 算法網絡呈現複雜網絡特徵,連接密度隨時間增加。
站內正文

超越軌跡模仿:面向大語言模型推理的策略引導策略優化

一種名為SGPO的新方法通過用可複用的策略蒸餾替代實例級的軌跡模仿,提升了LLM的推理能力,在數學基準測試上優於基線方法。

  • SGPO從強模型響應中提取結構化策略描述,而非模仿具體步驟。
  • 採用token級前向KL散度目標進行選擇性蒸餾,並輔以近端約束保證穩定性。
站內正文

集成特徵選擇與哈里斯鷹優化算法在女性性工作者可解釋心理健康風險預測中的應用

該研究提出了一種混合預測模型,結合集成特徵選擇策略(ANOVA與互信息)和哈里斯鷹優化調整的邏輯迴歸,用於預測女性性工作者(FSW)的心理健康風險。模型在3005名FSW中達到95.78%的準確率,識別出創傷後應激、客户暴力和職業因素為主要抑鬱風險因素,為弱勢羣體提供可解釋的AI早期干預工具。

  • 提出混合模型:集成特徵選擇(ANOVA+互信息)與哈里斯鷹優化邏輯迴歸。
  • 在3005名女性性工作者中準確率達95.78%,AUC為0.96。
站內正文

打破過濾氣泡:面向多目標推薦的一種語義Pareto-DQN框架

推薦系統通常通過單一優化用户即時參與度而導致信息繭房和語義同質化。本文提出一種多目標強化學習框架,將推薦形式化為語義多目標馬爾可夫決策過程,通過集成高保真語義嵌入與Pareto-DQN智能體,將參與度、多樣性和公平性視為不可聚合的獎勵信號。在MovieLens小數據集上的實驗表明,基於超體積的動作選擇能打破導致語義坍塌的反饋循環,在僅輕微影響參與度的情況下提升了輔助社會目標。

  • 傳統推薦系統單一優化用户參與度易導致過濾氣泡和語義同質化。
  • 提出基於Pareto-DQN的多目標強化學習框架,將參與度、多樣性和公平性作為獨立獎勵。
站內正文

語言模型代理能否成為機械可解釋性中有用的電路解釋器?

本文研究了在已經定位電路後,語言模型(LM)代理是否可以幫助解釋電路組件。作者提出了AgenticInterpBench基準(包含84個半合成變壓器電路和163個組件級標註)以及HyVE解釋器,該解釋器通過觀察、假設生成和因果驗證的迭代循環來分析每個組件。在四個LM骨幹上的實驗表明,HyVE能夠恢復有用的解釋,但沒有一個骨幹全面最優。失敗主要出現在驗證階段。在Llama-3-8B算術電路上的案例研究證明了該方法對自然訓練模型的適用性。總的來説,LM代理是很有前景的電路解釋器,但可靠的驗證仍是關鍵障礙。

  • LM代理可以輔助機械可解釋性中的電路解釋。
  • HyVE代理通過迭代的觀察、假設和驗證生成解釋。
站內正文

強化學習向廣泛且持久有益的模型邁進

一項新研究表明,通過在真實領域中對有益行為進行強化學習,可以產生廣泛且持久的對齊泛化,即使干預僅侷限於健康領域,也能顯著改善非健康領域的對齊評估,並增強對抗性提示和有害微調的抵抗能力。

  • 在多樣化領域構建了包含真實性、公平性等有益特質的訓練數據集。
  • 強化學習訓練後的模型在80%以上的分佈外基準測試中表現更優。
站內正文

基於約束流形的安全且可泛化的分層多智能體強化學習

該研究提出一種分層多智能體強化學習框架,通過約束流形在低層強制執行硬安全約束,同時通過高層策略學習實現有效協調,在保持近乎完美安全率的同時實現競爭性性能,並能泛化到不同數量的智能體和障礙物。

  • 現有方法面臨學習型方法缺乏安全保證與控制型方法過於保守的權衡。
  • 新框架通過約束流形提供理論安全保證,併產生平穩學習動態。
站內正文

對代理模型的批判

本文探討了AI代理的本質,區分了基於外部工作流程的“代理型”系統和具有內在能力的“代理性”系統,提出了目標-身份-配置器(GIC)架構,並強調了人類監督下自主系統的可審計性、可控性和安全性。

  • 從笛卡爾的獨立思想基礎和科幻小説中的自主存在出發,分析AI代理的五維架構:目標、身份、決策、自我調節和學習。
  • 區分‘代理型’系統(能力源於工程工作流)和‘代理性’系統(能力內生於系統本身),後者才是真正的自主。
站內正文

神經符號驅動:基於規則的可信推理用於駕駛VLA

本文提出神經符號驅動框架,通過從經典規則規劃器中提取基於規則的推理軌跡,監督駕駛VLA模型。該方法確保推理與運動生成在結構上耦合,顯著降低了平均位移誤差和丟失率。

  • 駕駛VLA模型結合思維鏈推理雖有優勢,但缺乏逐步決策語義
  • 神經符號驅動使用規則規劃器的內部決策軌跡作為監督信號
站內正文

RIFT-Bench:面向智能體AI系統的動態紅隊測試基準

RIFT-Bench是一種基於圖表示的新方法,用於對多種智能體AI系統進行統一的動態紅隊安全評估。它通過自動化的發現與掃描階段,自適應地部署對抗性攻擊,並支持緩解策略評估,在45個不同系統上驗證了其有效性。

  • RIFT-Bench提出了一種分層圖表示方法,可統一評估異構智能體架構的安全性。
  • 評估流程包含兩個自動化階段:系統結構發現與自適應對抗攻擊掃描。
站內正文

面向大語言模型代理的澄清請求的不確定性分解方法

本研究提出一種基於提示的不確定性分解方法,將動作信心與請求不確定性分離,使大語言模型代理能在任務規範模糊時主動請求澄清。作者引入兩個新基準(WebShop-Clarification和ALFWorld-Clarification),其中50%的任務故意未明確指定,並在五個大型語言模型上評估該方法。結果表明,所提分解方法在澄清F1分數上顯著優於現有方法。

  • 傳統不確定性框架不足以應對交互式大語言模型代理的需求,需要基於欠規範、可分解且可溝通的不確定性表示。
  • 提出一種簡單的提示分解方法,將動作信心與請求不確定性分離,允許代理在任務模糊時請求澄清。
站內正文

ITNet:一種可學習的積分變換,統一卷積、注意力與循環網絡

本文提出積分變換網絡(ITNet),通過一個可學習的積分核統一了卷積、自注意力和自迴歸循環三種架構。ITNet使用小型神經網絡實現核函數,能夠從數據中自適應行為,並在多個基準任務上達到或超越專用模型。

  • 卷積、注意力和循環網絡可視為同一數學對象——可學習積分變換的特例。
  • ITNet使用MLP實現位置和特徵聯合依賴的核,適應數據驅動的交互模式。
站內正文

湧現對齊

一種新方法使大型語言模型能夠利用良知步驟和直接偏好優化進行自我倫理對齊,無需外部評判,從而在代碼黑客等場景中實現湧現對齊,克服了以往的湧現錯位問題。

  • 大型語言模型可以通過內置的良知步驟自我糾正倫理錯位。
  • 該方法使用模型自身的凍結副本,無需外部監督。
站內正文

REVEAL++:用於阿爾茨海默病風險視網膜建模的可微分表型分組

本文提出REVEAL++,一種在對比學習中採用連續表型結構的方法,用於視網膜圖像和臨牀風險敍述的視覺-語言對齊,以預測阿爾茨海默病風險。該方法通過可微分加權函數替代硬分組,實現分級監督和端到端學習。在UK Biobank數據集上的評估表明,其性能優於離散分組基線。

  • REVEAL++將表型相似性建模為連續可微函數,而非離散聚類。
  • 利用軟多正例關係進行對比學習,反映疾病風險的譜系特性。
站內正文

大語言模型不知其所不知:通過跨模型歸因分歧檢測臨牀表格數據中的認知盲點

本研究比較了Qwen 2.5 7B和XGBoost在臨牀預測任務中的表現,通過歸因分歧分析揭示了四個重要發現:LLM的口頭置信度在認識論上是空洞的,存在逆向難度效應,少樣本示例和SHAP特徵證據的結合可顯著提升準確率,且跨模型校準器能有效降低校準誤差。

  • LLM的口頭置信度幾乎恆定(0.856-0.937),與準確率無關,僅隨提示格式變化。
  • 存在逆向難度效應:當XGBoost高度確定時,LLM準確率下降,但在中等不確定性時兩者表現相當。
站內正文

DeXposure-Claw:一種用於DeFi風險監督的代理系統

DeXposure-Claw是一個基於預測的代理監督系統,旨在解決通用LLM代理在去中心化金融風險監督中的不足。它通過圖形時間序列基礎模型預測風險網絡,結合確定性監控和壓力情景生成警報,並利用數據健康和置信度門控減少誤報。此外,還開發了DeXposure-Bench評估套件,通過六軸評估(包括決策軸)衡量系統性能。實驗基於五年周度真實數據,驗證了系統的有效性。

  • DeXposure-Claw利用圖形時間序列模型預測去中心化金融中的風險暴露網絡,提高風險監督的準確性。
  • 系統通過結構化證據路由LLM決策,減少誤報並支持可審計的監管工單生成。
站內正文

多智能體大語言模型商議中的隱藏錨點

本文提出了一種新的動態系統模型,用於解釋多智能體LLM商議如何通過每個智能體的隱藏內部信念(錨點)影響羣體決策。該模型揭示了經典共識規則無法解釋的現象:智能體對正確答案的置信度可能超越初始信念的凸包範圍。通過三個開源模型家族的實驗,作者發現錨點的影響強度相近,但位置差異決定了商議是否能突破初始意見的限制。

  • 多智能體LLM商議中的每個智能體都有一個隱藏的內部信念(錨點),持續影響其意見。
  • 該模型可解釋為何智能體對正確答案的置信度能超越初始信念的凸包。
站內正文

擴散語言模型:一項實驗分析

本文對八種最先進的擴散語言模型(DLM)在推理、編碼、翻譯、知識和結構化問題解決等八個基準上進行了系統實驗分析,同時考慮了生成質量和計算效率。研究發現,DLM的行為受生成時設計選擇(如去噪步驟、上下文長度、塊大小和平行解掩碼策略)的強烈影響,導致性能與計算效率之間存在不同的權衡。該研究為當代DLM的能力和部署特性提供了實用見解。

  • 評估了8種擴散語言模型在8個基準上的表現,覆蓋推理、編碼、翻譯、知識和結構化問題解決。
  • 分析了去噪步驟、上下文長度、塊大小和平行解掩碼等推理時因素的影響。
站內正文

衡量課程與標準在主題覆蓋、能力和認知深度上的一致性:應用於CS2013和CS2023的縱向框架

一項新研究提出了一種人機協同的流程,用於衡量本科計算機科學課程與課程指南的契合度。應用於CS2013和CS2023時,發現覆蓋率基本不變(約50%),但認知深度實現率從95%下降到76%,反映了新版標準要求的提高。同時還發現了並行計算、編程語言基礎和系統基礎等領域的持續差距。

  • 人機協同流程用於衡量課程與CS2013和CS2023的契合度。
  • 十年間課程覆蓋率保持約50%不變。
站內正文

面向運行時Agentic AI系統治理的義務政策

一篇新論文提出了AgenticRei,這是一個義務政策框架,用於治理LLM驅動的自主智能體,解決了當前訪問控制引擎無法處理的義務、豁免和策略衝突問題。

  • 自主AI智能體帶來了超越簡單允許/禁止的治理挑戰,需要義務生命週期、衝突解決和豁免。
  • 現有系統如XACML、Rego和Cedar缺乏這些能力;AgenticRei使用基於Rei框架的義務策略語言(OWL)填補了這一空白。
站內正文

全部來源