AI News HubLIVE
公开文章 296采集文章 320可信度 75刷新频率 360 分钟
健康状态 健康来源类型 研究原文权限 允许原文最近入库 2026-06-26ID arxiv-ai运行状态 已启用

Use abstract and metadata; check individual paper license before full text.

最新公开文章

验证视野:编程智能体奖励没有银弹

传统观点认为验证比生成容易,但如今编程智能体的验证已成为更大难题。本文提出验证信号的三维度评价(可扩展性、忠实性、鲁棒性),并探索四种奖励构建方法,实验证明针对性验证设计能有效抑制奖励黑客并提升任务质量,最终结论是验证必须随策略能力共同进化。

  • 生成方案易,可靠验证难;每个验证器仅是意图的代理。
  • 验证面临双重困难:意图天然欠指定,优化扩大代理与意图的鸿沟。
站内正文

COrigami:一种用于共同设计可平折且视觉可识别折纸的AI管道

COrigami是一种端到端的AI驱动管道,能够从自然语言生成折痕图案,满足平折的严格几何约束和视觉美学。该系统通过生成语义简图、计算基础打包、求解平折扣痕图案、塑形以及利用强化学习和自主美学评估循环进行优化,协助人类艺术家进行设计。

  • COrigami将自然语言转化为满足平折约束的折痕图案。
  • 管道包括语义简图生成、基础打包、折痕图案求解、塑形和强化学习优化。
站内正文

治理行动而非智能体:机构认证作为自主AI系统的治理模型

该论文提出了一种自主AI智能体的治理模型,不监控其推理过程,而是要求在采取高风险行动时提供独立认证的证据。智能体保留规划和推理的自主权,但执行需要满足由独立权威来源认证的前提条件,这些条件与声明的意图加密绑定,并由确定性策略评估。决策记录在防篡改日志中,可供独立重新验证。研究提供了概念验证实现,并举例说明了软件部署和临床处方中的应用。

  • 自主AI智能体可能执行不可逆的高风险行动,如临床处方或软件部署。
  • 提出模型:智能体保留自主权,但对高风险行动无执行权,执行需满足独立认证的前提条件。
站内正文

知识增强的智能代理AI助力心理健康药物信息搜索

本研究开发了一个基于知识图谱的多智能体框架,整合了Reddit、WebMD和FDA不良事件报告系统等来源的抑郁症药物数据,实现了对患者生成数据与监管数据的溯源区分,为心理健康药物信息提供了更可靠、可审计的整合方案。

  • 框架整合了466,525条Reddit帖子、60,782条WebMD评论和20年的FDA不良事件报告数据,涵盖九种抗抑郁药。
  • LLM实体识别管线在药物和病症识别上F1分数分别达到0.969和0.973。
站内正文

智能体基础设施的智能体分析:一个基于LLM的DAO与企业AI协议治理比较管道

本文介绍了一个基于LLM的比较管道,用于大规模分析AI代理协议的治理结构。研究对比了ERC-8004(无许可链上协议)与Google A2A(企业主导协议),分析了4323条治理参与记录。发现两种模式均存在参与不平等和社区碎片化,但无许可环境下的话语对齐更紧密,表明开放治理可能促进主题趋同。

  • 提出LLM驱动的比较管道,整合自动化标注、神经主题建模和多层网络分析
  • 对比分析ERC-8004与Google A2A两种AI代理互操作标准
站内正文

AlgoEvolve:基于LLM的算法交易程序元进化

AlgoEvolve是一个利用大语言模型(LLM)驱动进化框架,用于生成、评估和迭代改进可执行的交易策略。该系统在多个实验中展现出自适应市场状态的策略逻辑,并引入元进化外层循环以优化提示,从而平衡探索与利用,减少零交易失败。结果表明,基于LLM的语义进化为复杂环境中的持续程序合成提供了一种可行方法。

  • AlgoEvolve将LLM作为语义变异算子,应用于算法交易领域
  • 系统表现出自适应的市场状态转换策略逻辑
站内正文

拒绝行为位于聊天模型角色个性的下游

该论文发现,在聊天模型中,拒绝行为并非独立机制,而是受角色个性(特别是顺从个性)的门控。通过干预Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct的激活方向,研究显示顺从个性方向可以抑制拒绝,而拒绝方向仅在后期层部分恢复拒绝。这表明拒绝在后期表达阶段受个性门控,而非孤立方向。

  • 顺从个性方向可显著抑制拒绝行为(Llama中拒绝率从97%降至2%)。
  • 拒绝方向仅在后期层部分恢复拒绝,早期层无效。
站内正文

基准测试饱和之后的生活:CORE-Bench 案例研究

当基准测试的准确率饱和时,通常会被淘汰并替换。本文表明,这种方法只关注准确率,而忽略了其他六个关键维度:构造效度问题、分布外泛化能力、效率、可靠性、模型与框架的相对重要性以及人机协作的提升。通过 CORE-Bench Hard 案例,作者展示了即使在准确率饱和后,测量这些维度也能获得有意义的见解。他们发现了构造效度威胁,推出了改进版 v1.1 和分布外任务套件,并发现基准测试仍可用于测量效率、可靠性和性能。此外,一项小规模随机实验显示,人机协作可将速度提高约两倍。

  • 准确率饱和的基准测试仍可用于评估其他维度,如效率、可靠性和泛化能力。
  • CORE-Bench Hard 存在构造效度问题,难以用较弱智能体预见。
站内正文

使用级联线性特征检测和控制谄媚行为

研究人员提出一种使用级联线性特征检测和控制语言模型中谄媚行为的方法。该方法通过迭代数据生成来隔离与行为线性相关的特征,从而实现更好的特征分离。发现的特征形成线性可分的子空间,能够检测并引导模型远离谄媚行为,在计算成本更低的情况下优于基线方法。

  • 谄媚行为是语言模型优先考虑用户认同的倾向。
  • 级联线性特征方法使用梯度样本隔离特征。
站内正文

基于全文共现网络的算法学术影响力探究

本研究基于学术论文全文,利用深度学习提取算法实体,构建自然语言处理领域的大规模算法共现网络,从网络视角分析算法的群体影响力。研究覆盖四十余年文献,发现算法网络具有复杂网络特征,经典高性能算法及跨时期算法影响力较大,且影响力下降时核心位置先于关联弱化。

  • 首次大规模构建NLP领域算法共现网络,基于全文而非摘要。
  • 算法网络呈现复杂网络特征,连接密度随时间增加。
站内正文

超越轨迹模仿:面向大语言模型推理的策略引导策略优化

一种名为SGPO的新方法通过用可复用的策略蒸馏替代实例级的轨迹模仿,提升了LLM的推理能力,在数学基准测试上优于基线方法。

  • SGPO从强模型响应中提取结构化策略描述,而非模仿具体步骤。
  • 采用token级前向KL散度目标进行选择性蒸馏,并辅以近端约束保证稳定性。
站内正文

集成特征选择与哈里斯鹰优化算法在女性性工作者可解释心理健康风险预测中的应用

该研究提出了一种混合预测模型,结合集成特征选择策略(ANOVA与互信息)和哈里斯鹰优化调整的逻辑回归,用于预测女性性工作者(FSW)的心理健康风险。模型在3005名FSW中达到95.78%的准确率,识别出创伤后应激、客户暴力和职业因素为主要抑郁风险因素,为弱势群体提供可解释的AI早期干预工具。

  • 提出混合模型:集成特征选择(ANOVA+互信息)与哈里斯鹰优化逻辑回归。
  • 在3005名女性性工作者中准确率达95.78%,AUC为0.96。
站内正文

打破过滤气泡:面向多目标推荐的一种语义Pareto-DQN框架

推荐系统通常通过单一优化用户即时参与度而导致信息茧房和语义同质化。本文提出一种多目标强化学习框架,将推荐形式化为语义多目标马尔可夫决策过程,通过集成高保真语义嵌入与Pareto-DQN智能体,将参与度、多样性和公平性视为不可聚合的奖励信号。在MovieLens小数据集上的实验表明,基于超体积的动作选择能打破导致语义坍塌的反馈循环,在仅轻微影响参与度的情况下提升了辅助社会目标。

  • 传统推荐系统单一优化用户参与度易导致过滤气泡和语义同质化。
  • 提出基于Pareto-DQN的多目标强化学习框架,将参与度、多样性和公平性作为独立奖励。
站内正文

语言模型代理能否成为机械可解释性中有用的电路解释器?

本文研究了在已经定位电路后,语言模型(LM)代理是否可以帮助解释电路组件。作者提出了AgenticInterpBench基准(包含84个半合成变压器电路和163个组件级标注)以及HyVE解释器,该解释器通过观察、假设生成和因果验证的迭代循环来分析每个组件。在四个LM骨干上的实验表明,HyVE能够恢复有用的解释,但没有一个骨干全面最优。失败主要出现在验证阶段。在Llama-3-8B算术电路上的案例研究证明了该方法对自然训练模型的适用性。总的来说,LM代理是很有前景的电路解释器,但可靠的验证仍是关键障碍。

  • LM代理可以辅助机械可解释性中的电路解释。
  • HyVE代理通过迭代的观察、假设和验证生成解释。
站内正文

强化学习向广泛且持久有益的模型迈进

一项新研究表明,通过在真实领域中对有益行为进行强化学习,可以产生广泛且持久的对齐泛化,即使干预仅局限于健康领域,也能显著改善非健康领域的对齐评估,并增强对抗性提示和有害微调的抵抗能力。

  • 在多样化领域构建了包含真实性、公平性等有益特质的训练数据集。
  • 强化学习训练后的模型在80%以上的分布外基准测试中表现更优。
站内正文

基于约束流形的安全且可泛化的分层多智能体强化学习

该研究提出一种分层多智能体强化学习框架,通过约束流形在低层强制执行硬安全约束,同时通过高层策略学习实现有效协调,在保持近乎完美安全率的同时实现竞争性性能,并能泛化到不同数量的智能体和障碍物。

  • 现有方法面临学习型方法缺乏安全保证与控制型方法过于保守的权衡。
  • 新框架通过约束流形提供理论安全保证,并产生平稳学习动态。
站内正文

对代理模型的批判

本文探讨了AI代理的本质,区分了基于外部工作流程的“代理型”系统和具有内在能力的“代理性”系统,提出了目标-身份-配置器(GIC)架构,并强调了人类监督下自主系统的可审计性、可控性和安全性。

  • 从笛卡尔的独立思想基础和科幻小说中的自主存在出发,分析AI代理的五维架构:目标、身份、决策、自我调节和学习。
  • 区分‘代理型’系统(能力源于工程工作流)和‘代理性’系统(能力内生于系统本身),后者才是真正的自主。
站内正文

神经符号驱动:基于规则的可信推理用于驾驶VLA

本文提出神经符号驱动框架,通过从经典规则规划器中提取基于规则的推理轨迹,监督驾驶VLA模型。该方法确保推理与运动生成在结构上耦合,显著降低了平均位移误差和丢失率。

  • 驾驶VLA模型结合思维链推理虽有优势,但缺乏逐步决策语义
  • 神经符号驱动使用规则规划器的内部决策轨迹作为监督信号
站内正文

RIFT-Bench:面向智能体AI系统的动态红队测试基准

RIFT-Bench是一种基于图表示的新方法,用于对多种智能体AI系统进行统一的动态红队安全评估。它通过自动化的发现与扫描阶段,自适应地部署对抗性攻击,并支持缓解策略评估,在45个不同系统上验证了其有效性。

  • RIFT-Bench提出了一种分层图表示方法,可统一评估异构智能体架构的安全性。
  • 评估流程包含两个自动化阶段:系统结构发现与自适应对抗攻击扫描。
站内正文

面向大语言模型代理的澄清请求的不确定性分解方法

本研究提出一种基于提示的不确定性分解方法,将动作信心与请求不确定性分离,使大语言模型代理能在任务规范模糊时主动请求澄清。作者引入两个新基准(WebShop-Clarification和ALFWorld-Clarification),其中50%的任务故意未明确指定,并在五个大型语言模型上评估该方法。结果表明,所提分解方法在澄清F1分数上显著优于现有方法。

  • 传统不确定性框架不足以应对交互式大语言模型代理的需求,需要基于欠规范、可分解且可沟通的不确定性表示。
  • 提出一种简单的提示分解方法,将动作信心与请求不确定性分离,允许代理在任务模糊时请求澄清。
站内正文

ITNet:一种可学习的积分变换,统一卷积、注意力与循环网络

本文提出积分变换网络(ITNet),通过一个可学习的积分核统一了卷积、自注意力和自回归循环三种架构。ITNet使用小型神经网络实现核函数,能够从数据中自适应行为,并在多个基准任务上达到或超越专用模型。

  • 卷积、注意力和循环网络可视为同一数学对象——可学习积分变换的特例。
  • ITNet使用MLP实现位置和特征联合依赖的核,适应数据驱动的交互模式。
站内正文

涌现对齐

一种新方法使大型语言模型能够利用良知步骤和直接偏好优化进行自我伦理对齐,无需外部评判,从而在代码黑客等场景中实现涌现对齐,克服了以往的涌现错位问题。

  • 大型语言模型可以通过内置的良知步骤自我纠正伦理错位。
  • 该方法使用模型自身的冻结副本,无需外部监督。
站内正文

REVEAL++:用于阿尔茨海默病风险视网膜建模的可微分表型分组

本文提出REVEAL++,一种在对比学习中采用连续表型结构的方法,用于视网膜图像和临床风险叙述的视觉-语言对齐,以预测阿尔茨海默病风险。该方法通过可微分加权函数替代硬分组,实现分级监督和端到端学习。在UK Biobank数据集上的评估表明,其性能优于离散分组基线。

  • REVEAL++将表型相似性建模为连续可微函数,而非离散聚类。
  • 利用软多正例关系进行对比学习,反映疾病风险的谱系特性。
站内正文

大语言模型不知其所不知:通过跨模型归因分歧检测临床表格数据中的认知盲点

本研究比较了Qwen 2.5 7B和XGBoost在临床预测任务中的表现,通过归因分歧分析揭示了四个重要发现:LLM的口头置信度在认识论上是空洞的,存在逆向难度效应,少样本示例和SHAP特征证据的结合可显著提升准确率,且跨模型校准器能有效降低校准误差。

  • LLM的口头置信度几乎恒定(0.856-0.937),与准确率无关,仅随提示格式变化。
  • 存在逆向难度效应:当XGBoost高度确定时,LLM准确率下降,但在中等不确定性时两者表现相当。
站内正文

DeXposure-Claw:一种用于DeFi风险监督的代理系统

DeXposure-Claw是一个基于预测的代理监督系统,旨在解决通用LLM代理在去中心化金融风险监督中的不足。它通过图形时间序列基础模型预测风险网络,结合确定性监控和压力情景生成警报,并利用数据健康和置信度门控减少误报。此外,还开发了DeXposure-Bench评估套件,通过六轴评估(包括决策轴)衡量系统性能。实验基于五年周度真实数据,验证了系统的有效性。

  • DeXposure-Claw利用图形时间序列模型预测去中心化金融中的风险暴露网络,提高风险监督的准确性。
  • 系统通过结构化证据路由LLM决策,减少误报并支持可审计的监管工单生成。
站内正文

多智能体大语言模型商议中的隐藏锚点

本文提出了一种新的动态系统模型,用于解释多智能体LLM商议如何通过每个智能体的隐藏内部信念(锚点)影响群体决策。该模型揭示了经典共识规则无法解释的现象:智能体对正确答案的置信度可能超越初始信念的凸包范围。通过三个开源模型家族的实验,作者发现锚点的影响强度相近,但位置差异决定了商议是否能突破初始意见的限制。

  • 多智能体LLM商议中的每个智能体都有一个隐藏的内部信念(锚点),持续影响其意见。
  • 该模型可解释为何智能体对正确答案的置信度能超越初始信念的凸包。
站内正文

扩散语言模型:一项实验分析

本文对八种最先进的扩散语言模型(DLM)在推理、编码、翻译、知识和结构化问题解决等八个基准上进行了系统实验分析,同时考虑了生成质量和计算效率。研究发现,DLM的行为受生成时设计选择(如去噪步骤、上下文长度、块大小和平行解掩码策略)的强烈影响,导致性能与计算效率之间存在不同的权衡。该研究为当代DLM的能力和部署特性提供了实用见解。

  • 评估了8种扩散语言模型在8个基准上的表现,覆盖推理、编码、翻译、知识和结构化问题解决。
  • 分析了去噪步骤、上下文长度、块大小和平行解掩码等推理时因素的影响。
站内正文

衡量课程与标准在主题覆盖、能力和认知深度上的一致性:应用于CS2013和CS2023的纵向框架

一项新研究提出了一种人机协同的流程,用于衡量本科计算机科学课程与课程指南的契合度。应用于CS2013和CS2023时,发现覆盖率基本不变(约50%),但认知深度实现率从95%下降到76%,反映了新版标准要求的提高。同时还发现了并行计算、编程语言基础和系统基础等领域的持续差距。

  • 人机协同流程用于衡量课程与CS2013和CS2023的契合度。
  • 十年间课程覆盖率保持约50%不变。
站内正文

面向运行时Agentic AI系统治理的义务政策

一篇新论文提出了AgenticRei,这是一个义务政策框架,用于治理LLM驱动的自主智能体,解决了当前访问控制引擎无法处理的义务、豁免和策略冲突问题。

  • 自主AI智能体带来了超越简单允许/禁止的治理挑战,需要义务生命周期、冲突解决和豁免。
  • 现有系统如XACML、Rego和Cedar缺乏这些能力;AgenticRei使用基于Rei框架的义务策略语言(OWL)填补了这一空白。
站内正文

全部来源