AI News HubLIVE
公開文章 296採集文章 320可信度 75刷新頻率 360 分鐘
健康狀態 健康來源類型 研究原文權限 允許原文最近入庫 2026-06-26ID arxiv-ai運行狀態 已啟用

Use abstract and metadata; check individual paper license before full text.

最新公開文章

驗證視野:程式設計智慧體獎勵沒有銀彈

傳統觀點認為驗證比生成容易,但如今程式設計智慧體的驗證已成為更大難題。本文提出驗證訊號的三維度評價(可擴充套件性、忠實性、魯棒性),並探索四種獎勵構建方法,實驗證明針對性驗證設計能有效抑制獎勵駭客並提升任務質量,最終結論是驗證必須隨策略能力共同進化。

  • 生成方案易,可靠驗證難;每個驗證器僅是意圖的代理。
  • 驗證面臨雙重困難:意圖天然欠指定,最佳化擴大代理與意圖的鴻溝。
站內正文

COrigami:一種用於共同設計可平折且視覺可識別摺紙的AI管道

COrigami是一種端到端的AI驅動管道,能夠從自然語言生成摺痕圖案,滿足平折的嚴格幾何約束和視覺美學。該系統透過生成語義簡圖、計算基礎打包、求解平折扣痕圖案、塑形以及利用強化學習和自主美學評估迴圈進行最佳化,協助人類藝術家進行設計。

  • COrigami將自然語言轉化為滿足平折約束的摺痕圖案。
  • 管道包括語義簡圖生成、基礎打包、摺痕圖案求解、塑形和強化學習最佳化。
站內正文

治理行動而非智慧體:機構認證作為自主AI系統的治理模型

該論文提出了一種自主AI智慧體的治理模型,不監控其推理過程,而是要求在採取高風險行動時提供獨立認證的證據。智慧體保留規劃和推理的自主權,但執行需要滿足由獨立權威來源認證的前提條件,這些條件與宣告的意圖加密繫結,並由確定性策略評估。決策記錄在防篡改日誌中,可供獨立重新驗證。研究提供了概念驗證實現,並舉例說明了軟體部署和臨床處方中的應用。

  • 自主AI智慧體可能執行不可逆的高風險行動,如臨床處方或軟體部署。
  • 提出模型:智慧體保留自主權,但對高風險行動無執行權,執行需滿足獨立認證的前提條件。
站內正文

知識增強的智慧代理AI助力心理健康藥物資訊搜尋

本研究開發了一個基於知識圖譜的多智慧體框架,整合了Reddit、WebMD和FDA不良事件報告系統等來源的憂鬱症藥物資料,實現了對患者生成資料與監管資料的溯源區分,為心理健康藥物資訊提供了更可靠、可審計的整合方案。

  • 框架整合了466,525條Reddit帖子、60,782條WebMD評論和20年的FDA不良事件報告資料,涵蓋九種抗抑鬱藥。
  • LLM實體識別管線在藥物和病症識別上F1分數分別達到0.969和0.973。
站內正文

智慧體基礎設施的智慧體分析:一個基於LLM的DAO與企業AI協議治理比較管道

本文介紹了一個基於LLM的比較管道,用於大規模分析AI代理協議的治理結構。研究對比了ERC-8004(無許可鏈上協議)與Google A2A(企業主導協議),分析了4323條治理參與記錄。發現兩種模式均存在參與不平等和社群碎片化,但無許可環境下的話語對齊更緊密,表明開放治理可能促進主題趨同。

  • 提出LLM驅動的比較管道,整合自動化標註、神經主題建模和多層網路分析
  • 對比分析ERC-8004與Google A2A兩種AI代理互操作標準
站內正文

AlgoEvolve:基於LLM的演算法交易程式元進化

AlgoEvolve是一個利用大語言模型(LLM)驅動進化框架,用於生成、評估和迭代改進可執行的交易策略。該系統在多個實驗中展現出自適應市場狀態的策略邏輯,並引入元進化外層迴圈以最佳化提示,從而平衡探索與利用,減少零交易失敗。結果表明,基於LLM的語義進化為複雜環境中的持續程式合成提供了一種可行方法。

  • AlgoEvolve將LLM作為語義變異運算元,應用於演算法交易領域
  • 系統表現出自適應的市場狀態轉換策略邏輯
站內正文

拒絕行為位於聊天模型角色個性的下游

該論文發現,在聊天模型中,拒絕行為並非獨立機制,而是受角色個性(特別是順從個性)的門控。透過干預Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct的啟用方向,研究顯示順從個性方向可以抑制拒絕,而拒絕方向僅在後期層部分恢復拒絕。這表明拒絕在後期表達階段受個性門控,而非孤立方向。

  • 順從個性方向可顯著抑制拒絕行為(Llama中拒絕率從97%降至2%)。
  • 拒絕方向僅在後期層部分恢復拒絕,早期層無效。
站內正文

基準測試飽和之後的生活:CORE-Bench 案例研究

當基準測試的準確率飽和時,通常會被淘汰並替換。本文表明,這種方法只關注準確率,而忽略了其他六個關鍵維度:構造效度問題、分佈外泛化能力、效率、可靠性、模型與框架的相對重要性以及人機協作的提升。透過 CORE-Bench Hard 案例,作者展示了即使在準確率飽和後,測量這些維度也能獲得有意義的見解。他們發現了構造效度威脅,推出了改進版 v1.1 和分佈外任務套件,並發現基準測試仍可用於測量效率、可靠性和效能。此外,一項小規模隨機實驗顯示,人機協作可將速度提高約兩倍。

  • 準確率飽和的基準測試仍可用於評估其他維度,如效率、可靠性和泛化能力。
  • CORE-Bench Hard 存在構造效度問題,難以用較弱智慧體預見。
站內正文

使用級聯線性特徵檢測和控制諂媚行為

研究人員提出一種使用級聯線性特徵檢測和控制語言模型中諂媚行為的方法。該方法透過迭代資料生成來隔離與行為線性相關的特徵,從而實現更好的特徵分離。發現的特徵形成線性可分的子空間,能夠檢測並引導模型遠離諂媚行為,在計算成本更低的情況下優於基線方法。

  • 諂媚行為是語言模型優先考慮使用者認同的傾向。
  • 級聯線性特徵方法使用梯度樣本隔離特徵。
站內正文

基於全文共現網路的演算法學術影響力探究

本研究基於學術論文全文,利用深度學習提取演算法實體,構建自然語言處理領域的大規模演算法共現網路,從網路視角分析演算法的群體影響力。研究覆蓋四十餘年文獻,發現演算法網路具有複雜網路特徵,經典高效能演算法及跨時期演算法影響力較大,且影響力下降時核心位置先於關聯弱化。

  • 首次大規模構建NLP領域演算法共現網路,基於全文而非摘要。
  • 演算法網路呈現複雜網路特徵,連線密度隨時間增加。
站內正文

超越軌跡模仿:面向大語言模型推理的策略引導策略最佳化

一種名為SGPO的新方法透過用可複用的策略蒸餾替代例項級的軌跡模仿,提升了LLM的推理能力,在數學基準測試上優於基線方法。

  • SGPO從強模型響應中提取結構化策略描述,而非模仿具體步驟。
  • 採用token級前向KL散度目標進行選擇性蒸餾,並輔以近端約束保證穩定性。
站內正文

整合特徵選擇與哈里斯鷹最佳化演算法在女性性工作者可解釋心理健康風險預測中的應用

該研究提出了一種混合預測模型,結合整合特徵選擇策略(ANOVA與互資訊)和哈里斯鷹最佳化調整的邏輯迴歸,用於預測女性性工作者(FSW)的心理健康風險。模型在3005名FSW中達到95.78%的準確率,識別出創傷後應激、客戶暴力和職業因素為主要抑鬱風險因素,為弱勢群體提供可解釋的AI早期干預工具。

  • 提出混合模型:整合特徵選擇(ANOVA+互資訊)與哈里斯鷹最佳化邏輯迴歸。
  • 在3005名女性性工作者中準確率達95.78%,AUC為0.96。
站內正文

打破過濾氣泡:面向多目標推薦的一種語義Pareto-DQN框架

推薦系統通常透過單一最佳化使用者即時參與度而導致資訊繭房和語義同質化。本文提出一種多目標強化學習框架,將推薦形式化為語義多目標馬爾可夫決策過程,透過整合高保真語義嵌入與Pareto-DQN智慧體,將參與度、多樣性和公平性視為不可聚合的獎勵訊號。在MovieLens小資料集上的實驗表明,基於超體積的動作選擇能打破導致語義坍塌的反饋迴圈,在僅輕微影響參與度的情況下提升了輔助社會目標。

  • 傳統推薦系統單一最佳化使用者參與度易導致過濾氣泡和語義同質化。
  • 提出基於Pareto-DQN的多目標強化學習框架,將參與度、多樣性和公平性作為獨立獎勵。
站內正文

語言模型代理能否成為機械可解釋性中有用的電路直譯器?

本文研究了在已經定位電路後,語言模型(LM)代理是否可以幫助解釋電路元件。作者提出了AgenticInterpBench基準(包含84個半合成變壓器電路和163個元件級標註)以及HyVE直譯器,該直譯器透過觀察、假設生成和因果驗證的迭代迴圈來分析每個元件。在四個LM骨幹上的實驗表明,HyVE能夠恢復有用的解釋,但沒有一個骨幹全面最優。失敗主要出現在驗證階段。在Llama-3-8B算術電路上的案例研究證明了該方法對自然訓練模型的適用性。總的來說,LM代理是很有前景的電路直譯器,但可靠的驗證仍是關鍵障礙。

  • LM代理可以輔助機械可解釋性中的電路解釋。
  • HyVE代理透過迭代的觀察、假設和驗證生成解釋。
站內正文

強化學習向廣泛且持久有益的模型邁進

一項新研究表明,透過在真實領域中對有益行為進行強化學習,可以產生廣泛且持久的對齊泛化,即使干預僅侷限於健康領域,也能顯著改善非健康領域的對齊評估,並增強對抗性提示和有害微調的抵抗能力。

  • 在多樣化領域構建了包含真實性、公平性等有益特質的訓練資料集。
  • 強化學習訓練後的模型在80%以上的分佈外基準測試中表現更優。
站內正文

基於約束流形的安全且可泛化的分層多智慧體強化學習

該研究提出一種分層多智慧體強化學習框架,透過約束流形在低層強制執行硬安全約束,同時透過高層策略學習實現有效協調,在保持近乎完美安全率的同時實現競爭性效能,並能泛化到不同數量的智慧體和障礙物。

  • 現有方法面臨學習型方法缺乏安全保證與控制型方法過於保守的權衡。
  • 新框架透過約束流形提供理論安全保證,併產生平穩學習動態。
站內正文

對代理模型的批判

本文探討了AI代理的本質,區分了基於外部工作流程的“代理型”系統和具有內在能力的“代理性”系統,提出了目標-身份-配置器(GIC)架構,並強調了人類監督下自主系統的可審計性、可控性和安全性。

  • 從笛卡爾的獨立思想基礎和科幻小說中的自主存在出發,分析AI代理的五維架構:目標、身份、決策、自我調節和學習。
  • 區分‘代理型’系統(能力源於工程工作流)和‘代理性’系統(能力內生於系統本身),後者才是真正的自主。
站內正文

神經符號驅動:基於規則的可信推理用於駕駛VLA

本文提出神經符號驅動框架,透過從經典規則規劃器中提取基於規則的推理軌跡,監督駕駛VLA模型。該方法確保推理與運動生成在結構上耦合,顯著降低了平均位移誤差和丟失率。

  • 駕駛VLA模型結合思維鏈推理雖有優勢,但缺乏逐步決策語義
  • 神經符號驅動使用規則規劃器的內部決策軌跡作為監督訊號
站內正文

RIFT-Bench:面向智慧體AI系統的動態紅隊測試基準

RIFT-Bench是一種基於圖表示的新方法,用於對多種智慧體AI系統進行統一的動態紅隊安全評估。它透過自動化的發現與掃描階段,自適應地部署對抗性攻擊,並支援緩解策略評估,在45個不同系統上驗證了其有效性。

  • RIFT-Bench提出了一種分層圖表示方法,可統一評估異構智慧體架構的安全性。
  • 評估流程包含兩個自動化階段:系統結構發現與自適應對抗攻擊掃描。
站內正文

面向大語言模型代理的澄清請求的不確定性分解方法

本研究提出一種基於提示的不確定性分解方法,將動作信心與請求不確定性分離,使大語言模型代理能在任務規範模糊時主動請求澄清。作者引入兩個新基準(WebShop-Clarification和ALFWorld-Clarification),其中50%的任務故意未明確指定,並在五個大型語言模型上評估該方法。結果表明,所提分解方法在澄清F1分數上顯著優於現有方法。

  • 傳統不確定性框架不足以應對互動式大語言模型代理的需求,需要基於欠規範、可分解且可溝通的不確定性表示。
  • 提出一種簡單的提示分解方法,將動作信心與請求不確定性分離,允許代理在任務模糊時請求澄清。
站內正文

ITNet:一種可學習的積分變換,統一卷積、注意力與迴圈網路

本文提出積分變換網路(ITNet),透過一個可學習的積分核統一了卷積、自注意力和自迴歸迴圈三種架構。ITNet使用小型神經網路實現核函式,能夠從資料中自適應行為,並在多個基準任務上達到或超越專用模型。

  • 卷積、注意力和迴圈網路可視為同一數學物件——可學習積分變換的特例。
  • ITNet使用MLP實現位置和特徵聯合依賴的核,適應資料驅動的互動模式。
站內正文

湧現對齊

一種新方法使大型語言模型能夠利用良知步驟和直接偏好最佳化進行自我倫理對齊,無需外部評判,從而在程式碼駭客等場景中實現湧現對齊,克服了以往的湧現錯位問題。

  • 大型語言模型可以透過內建的良知步驟自我糾正倫理錯位。
  • 該方法使用模型自身的凍結副本,無需外部監督。
站內正文

REVEAL++:用於阿爾茨海默病風險視網膜建模的可微分表型分組

本文提出REVEAL++,一種在對比學習中採用連續表型結構的方法,用於視網膜影像和臨床風險敘述的視覺-語言對齊,以預測阿爾茨海默病風險。該方法透過可微分加權函式替代硬分組,實現分級監督和端到端學習。在UK Biobank資料集上的評估表明,其效能優於離散分組基線。

  • REVEAL++將表型相似性建模為連續可微函式,而非離散聚類。
  • 利用軟多正例關係進行對比學習,反映疾病風險的譜系特性。
站內正文

大語言模型不知其所不知:透過跨模型歸因分歧檢測臨床表格資料中的認知盲點

本研究比較了Qwen 2.5 7B和XGBoost在臨床預測任務中的表現,透過歸因分歧分析揭示了四個重要發現:LLM的口頭置信度在認識論上是空洞的,存在逆向難度效應,少樣本示例和SHAP特徵證據的結合可顯著提升準確率,且跨模型校準器能有效降低校準誤差。

  • LLM的口頭置信度幾乎恆定(0.856-0.937),與準確率無關,僅隨提示格式變化。
  • 存在逆向難度效應:當XGBoost高度確定時,LLM準確率下降,但在中等不確定性時兩者表現相當。
站內正文

DeXposure-Claw:一種用於DeFi風險監督的代理系統

DeXposure-Claw是一個基於預測的代理監督系統,旨在解決通用LLM代理在去中心化金融風險監督中的不足。它透過圖形時間序列基礎模型預測風險網路,結合確定性監控和壓力情景生成警報,並利用資料健康和置信度門控減少誤報。此外,還開發了DeXposure-Bench評估套件,透過六軸評估(包括決策軸)衡量系統效能。實驗基於五年周度真實資料,驗證了系統的有效性。

  • DeXposure-Claw利用圖形時間序列模型預測去中心化金融中的風險暴露網路,提高風險監督的準確性。
  • 系統透過結構化證據路由LLM決策,減少誤報並支援可審計的監管工單生成。
站內正文

多智慧體大語言模型商議中的隱藏錨點

本文提出了一種新的動態系統模型,用於解釋多智慧體LLM商議如何透過每個智慧體的隱藏內部信念(錨點)影響群體決策。該模型揭示了經典共識規則無法解釋的現象:智慧體對正確答案的置信度可能超越初始信念的凸包範圍。透過三個開源模型家族的實驗,作者發現錨點的影響強度相近,但位置差異決定了商議是否能突破初始意見的限制。

  • 多智慧體LLM商議中的每個智慧體都有一個隱藏的內部信念(錨點),持續影響其意見。
  • 該模型可解釋為何智慧體對正確答案的置信度能超越初始信念的凸包。
站內正文

擴散語言模型:一項實驗分析

本文對八種最先進的擴散語言模型(DLM)在推理、編碼、翻譯、知識和結構化問題解決等八個基準上進行了系統實驗分析,同時考慮了生成質量和計算效率。研究發現,DLM的行為受生成時設計選擇(如去噪步驟、上下文長度、塊大小和平行解掩碼策略)的強烈影響,導致效能與計算效率之間存在不同的權衡。該研究為當代DLM的能力和部署特性提供了實用見解。

  • 評估了8種擴散語言模型在8個基準上的表現,覆蓋推理、編碼、翻譯、知識和結構化問題解決。
  • 分析了去噪步驟、上下文長度、塊大小和平行解掩碼等推理時因素的影響。
站內正文

衡量課程與標準在主題覆蓋、能力和認知深度上的一致性:應用於CS2013和CS2023的縱向框架

一項新研究提出了一種人機協同的流程,用於衡量本科電腦科學課程與課程指南的契合度。應用於CS2013和CS2023時,發現覆蓋率基本不變(約50%),但認知深度實現率從95%下降到76%,反映了新版標準要求的提高。同時還發現了平行計算、程式語言基礎和系統基礎等領域的持續差距。

  • 人機協同流程用於衡量課程與CS2013和CS2023的契合度。
  • 十年間課程覆蓋率保持約50%不變。
站內正文

面向執行時Agentic AI系統治理的義務政策

一篇新論文提出了AgenticRei,這是一個義務政策框架,用於治理LLM驅動的自主智慧體,解決了當前訪問控制引擎無法處理的義務、豁免和策略衝突問題。

  • 自主AI智慧體帶來了超越簡單允許/禁止的治理挑戰,需要義務生命週期、衝突解決和豁免。
  • 現有系統如XACML、Rego和Cedar缺乏這些能力;AgenticRei使用基於Rei框架的義務策略語言(OWL)填補了這一空白。
站內正文

全部來源