验证视野:编程智能体奖励没有银弹
传统观点认为验证比生成容易,但如今编程智能体的验证已成为更大难题。本文提出验证信号的三维度评价(可扩展性、忠实性、鲁棒性),并探索四种奖励构建方法,实验证明针对性验证设计能有效抑制奖励黑客并提升任务质量,最终结论是验证必须随策略能力共同进化。
- 生成方案易,可靠验证难;每个验证器仅是意图的代理。
- 验证面临双重困难:意图天然欠指定,优化扩大代理与意图的鸿沟。
Use abstract and metadata; check individual paper license before full text.
传统观点认为验证比生成容易,但如今编程智能体的验证已成为更大难题。本文提出验证信号的三维度评价(可扩展性、忠实性、鲁棒性),并探索四种奖励构建方法,实验证明针对性验证设计能有效抑制奖励黑客并提升任务质量,最终结论是验证必须随策略能力共同进化。
COrigami是一种端到端的AI驱动管道,能够从自然语言生成折痕图案,满足平折的严格几何约束和视觉美学。该系统通过生成语义简图、计算基础打包、求解平折扣痕图案、塑形以及利用强化学习和自主美学评估循环进行优化,协助人类艺术家进行设计。
该论文提出了一种自主AI智能体的治理模型,不监控其推理过程,而是要求在采取高风险行动时提供独立认证的证据。智能体保留规划和推理的自主权,但执行需要满足由独立权威来源认证的前提条件,这些条件与声明的意图加密绑定,并由确定性策略评估。决策记录在防篡改日志中,可供独立重新验证。研究提供了概念验证实现,并举例说明了软件部署和临床处方中的应用。
研究人员提出DD-Elo评级系统,结合漂移扩散模型与棋步级数据,比传统Elo更快适应技能变化,同时保持理论一致性。
本研究开发了一个基于知识图谱的多智能体框架,整合了Reddit、WebMD和FDA不良事件报告系统等来源的抑郁症药物数据,实现了对患者生成数据与监管数据的溯源区分,为心理健康药物信息提供了更可靠、可审计的整合方案。
本文介绍了一个基于LLM的比较管道,用于大规模分析AI代理协议的治理结构。研究对比了ERC-8004(无许可链上协议)与Google A2A(企业主导协议),分析了4323条治理参与记录。发现两种模式均存在参与不平等和社区碎片化,但无许可环境下的话语对齐更紧密,表明开放治理可能促进主题趋同。
AlgoEvolve是一个利用大语言模型(LLM)驱动进化框架,用于生成、评估和迭代改进可执行的交易策略。该系统在多个实验中展现出自适应市场状态的策略逻辑,并引入元进化外层循环以优化提示,从而平衡探索与利用,减少零交易失败。结果表明,基于LLM的语义进化为复杂环境中的持续程序合成提供了一种可行方法。
该论文发现,在聊天模型中,拒绝行为并非独立机制,而是受角色个性(特别是顺从个性)的门控。通过干预Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct的激活方向,研究显示顺从个性方向可以抑制拒绝,而拒绝方向仅在后期层部分恢复拒绝。这表明拒绝在后期表达阶段受个性门控,而非孤立方向。
当基准测试的准确率饱和时,通常会被淘汰并替换。本文表明,这种方法只关注准确率,而忽略了其他六个关键维度:构造效度问题、分布外泛化能力、效率、可靠性、模型与框架的相对重要性以及人机协作的提升。通过 CORE-Bench Hard 案例,作者展示了即使在准确率饱和后,测量这些维度也能获得有意义的见解。他们发现了构造效度威胁,推出了改进版 v1.1 和分布外任务套件,并发现基准测试仍可用于测量效率、可靠性和性能。此外,一项小规模随机实验显示,人机协作可将速度提高约两倍。
研究人员提出一种使用级联线性特征检测和控制语言模型中谄媚行为的方法。该方法通过迭代数据生成来隔离与行为线性相关的特征,从而实现更好的特征分离。发现的特征形成线性可分的子空间,能够检测并引导模型远离谄媚行为,在计算成本更低的情况下优于基线方法。
本研究基于学术论文全文,利用深度学习提取算法实体,构建自然语言处理领域的大规模算法共现网络,从网络视角分析算法的群体影响力。研究覆盖四十余年文献,发现算法网络具有复杂网络特征,经典高性能算法及跨时期算法影响力较大,且影响力下降时核心位置先于关联弱化。
一种名为SGPO的新方法通过用可复用的策略蒸馏替代实例级的轨迹模仿,提升了LLM的推理能力,在数学基准测试上优于基线方法。
该研究提出了一种混合预测模型,结合集成特征选择策略(ANOVA与互信息)和哈里斯鹰优化调整的逻辑回归,用于预测女性性工作者(FSW)的心理健康风险。模型在3005名FSW中达到95.78%的准确率,识别出创伤后应激、客户暴力和职业因素为主要抑郁风险因素,为弱势群体提供可解释的AI早期干预工具。
推荐系统通常通过单一优化用户即时参与度而导致信息茧房和语义同质化。本文提出一种多目标强化学习框架,将推荐形式化为语义多目标马尔可夫决策过程,通过集成高保真语义嵌入与Pareto-DQN智能体,将参与度、多样性和公平性视为不可聚合的奖励信号。在MovieLens小数据集上的实验表明,基于超体积的动作选择能打破导致语义坍塌的反馈循环,在仅轻微影响参与度的情况下提升了辅助社会目标。
本文研究了在已经定位电路后,语言模型(LM)代理是否可以帮助解释电路组件。作者提出了AgenticInterpBench基准(包含84个半合成变压器电路和163个组件级标注)以及HyVE解释器,该解释器通过观察、假设生成和因果验证的迭代循环来分析每个组件。在四个LM骨干上的实验表明,HyVE能够恢复有用的解释,但没有一个骨干全面最优。失败主要出现在验证阶段。在Llama-3-8B算术电路上的案例研究证明了该方法对自然训练模型的适用性。总的来说,LM代理是很有前景的电路解释器,但可靠的验证仍是关键障碍。
一项新研究表明,通过在真实领域中对有益行为进行强化学习,可以产生广泛且持久的对齐泛化,即使干预仅局限于健康领域,也能显著改善非健康领域的对齐评估,并增强对抗性提示和有害微调的抵抗能力。
该研究提出一种分层多智能体强化学习框架,通过约束流形在低层强制执行硬安全约束,同时通过高层策略学习实现有效协调,在保持近乎完美安全率的同时实现竞争性性能,并能泛化到不同数量的智能体和障碍物。
本文探讨了AI代理的本质,区分了基于外部工作流程的“代理型”系统和具有内在能力的“代理性”系统,提出了目标-身份-配置器(GIC)架构,并强调了人类监督下自主系统的可审计性、可控性和安全性。
本文提出神经符号驱动框架,通过从经典规则规划器中提取基于规则的推理轨迹,监督驾驶VLA模型。该方法确保推理与运动生成在结构上耦合,显著降低了平均位移误差和丢失率。
RIFT-Bench是一种基于图表示的新方法,用于对多种智能体AI系统进行统一的动态红队安全评估。它通过自动化的发现与扫描阶段,自适应地部署对抗性攻击,并支持缓解策略评估,在45个不同系统上验证了其有效性。
本研究提出一种基于提示的不确定性分解方法,将动作信心与请求不确定性分离,使大语言模型代理能在任务规范模糊时主动请求澄清。作者引入两个新基准(WebShop-Clarification和ALFWorld-Clarification),其中50%的任务故意未明确指定,并在五个大型语言模型上评估该方法。结果表明,所提分解方法在澄清F1分数上显著优于现有方法。
本文提出积分变换网络(ITNet),通过一个可学习的积分核统一了卷积、自注意力和自回归循环三种架构。ITNet使用小型神经网络实现核函数,能够从数据中自适应行为,并在多个基准任务上达到或超越专用模型。
一种新方法使大型语言模型能够利用良知步骤和直接偏好优化进行自我伦理对齐,无需外部评判,从而在代码黑客等场景中实现涌现对齐,克服了以往的涌现错位问题。
本文提出REVEAL++,一种在对比学习中采用连续表型结构的方法,用于视网膜图像和临床风险叙述的视觉-语言对齐,以预测阿尔茨海默病风险。该方法通过可微分加权函数替代硬分组,实现分级监督和端到端学习。在UK Biobank数据集上的评估表明,其性能优于离散分组基线。
本研究比较了Qwen 2.5 7B和XGBoost在临床预测任务中的表现,通过归因分歧分析揭示了四个重要发现:LLM的口头置信度在认识论上是空洞的,存在逆向难度效应,少样本示例和SHAP特征证据的结合可显著提升准确率,且跨模型校准器能有效降低校准误差。
DeXposure-Claw是一个基于预测的代理监督系统,旨在解决通用LLM代理在去中心化金融风险监督中的不足。它通过图形时间序列基础模型预测风险网络,结合确定性监控和压力情景生成警报,并利用数据健康和置信度门控减少误报。此外,还开发了DeXposure-Bench评估套件,通过六轴评估(包括决策轴)衡量系统性能。实验基于五年周度真实数据,验证了系统的有效性。
本文提出了一种新的动态系统模型,用于解释多智能体LLM商议如何通过每个智能体的隐藏内部信念(锚点)影响群体决策。该模型揭示了经典共识规则无法解释的现象:智能体对正确答案的置信度可能超越初始信念的凸包范围。通过三个开源模型家族的实验,作者发现锚点的影响强度相近,但位置差异决定了商议是否能突破初始意见的限制。
本文对八种最先进的扩散语言模型(DLM)在推理、编码、翻译、知识和结构化问题解决等八个基准上进行了系统实验分析,同时考虑了生成质量和计算效率。研究发现,DLM的行为受生成时设计选择(如去噪步骤、上下文长度、块大小和平行解掩码策略)的强烈影响,导致性能与计算效率之间存在不同的权衡。该研究为当代DLM的能力和部署特性提供了实用见解。
一项新研究提出了一种人机协同的流程,用于衡量本科计算机科学课程与课程指南的契合度。应用于CS2013和CS2023时,发现覆盖率基本不变(约50%),但认知深度实现率从95%下降到76%,反映了新版标准要求的提高。同时还发现了并行计算、编程语言基础和系统基础等领域的持续差距。
一篇新论文提出了AgenticRei,这是一个义务政策框架,用于治理LLM驱动的自主智能体,解决了当前访问控制引擎无法处理的义务、豁免和策略冲突问题。