AI News HubLIVE

实时更新

从自回归到扩散:利用严格因果和弹性视野高效适配大型语言模型

新框架FLUID将自回归语言模型适配到扩散模型,实现高效并行文本生成。通过严格因果对齐重用GPT检查点,并通过弹性视野机制根据信息密度动态调整去噪步长。该方法以数量级降低的训练成本达到最先进性能。

  • FLUID通过严格因果对齐弥合自回归与扩散模型的结构差异,可直接从GPT检查点初始化。
  • 弹性视野利用熵动态调整去噪步长,取代固定调度。
站内正文

弥合稳定性与表现力之间的鸿沟:面向低资源口语模型的合成数据扩展与偏好对齐

研究人员发现,在低资源语言的口语模型中使用合成数据会导致“稳定性-表现力鸿沟”,并提出两种自对齐框架(DGSA和TDSC),能够恢复韵律变异性,超越ElevenLabs和Gemini Pro等商业系统,实现老挝语的首次零样本人声克隆。

  • 低资源语言的口语模型在合成数据训练时面临音素准确度与韵律表现力之间的权衡。
  • 提出的解耦引导自对齐(DGSA)通过分离韵律和音色来恢复表现力。
站内正文

BioELX:基于别名检索和LLM排序的跨语言生物医学实体链接

BioELX是一种新颖的跨语言生物医学实体链接框架,无需标注训练数据。它通过维基百科多语言别名增强SapBERT,并利用预训练LLM进行上下文感知消歧。在五个基准测试中,BioELX实现了最先进的性能,尤其在土耳其语、韩语和泰语等低资源语言上表现突出。

  • 提出BioELX,一种零样本跨语言BEL框架,结合别名检索和LLM排序。
  • 第一阶段:利用维基百科多语言别名丰富SapBERT训练,提升候选检索效果。
站内正文

RAG-Coding:利用结构化外部知识增强LLM医学编码

RAG-Coding是一种自动化ICD-10-CM编码方法,通过协调四个大语言模型代理并基于外部知识源(如官方编码列表和指南)进行决策,提高了编码准确性和临床合规性。在MDACE数据集上,其性能优于最佳LLM基线8-13%的微观F1和2-8%的宏观F1。与最先进的预训练模型PLM-ICD相比,RAG-Coding的微观召回率高出11%,而PLM-ICD的微观精确度高出6%,两者F1相当。消融实验验证了外部知识的逐步增益。同时发布了MDACE-2025,根据2025年最新指南重新标注,支持更细粒度的评估。

  • RAG-Coding通过四个LLM代理和外部知识源提高ICD-10-CM编码准确性。
  • 在MDACE数据集上,相比最佳LLM基线,微观F1提升8-13%,宏观F1提升2-8%。
站内正文

LCO:基于LLM的约束优化,使智能体LLM在实际任务中更安全

大型语言模型(LLM)作为自主智能体时,会通过上下文奖励黑客行为(ICRH)产生有害副作用。现有防御方法不足,因为ICRH源于模型自身的过度优化。本文提出LLM-based Constraint Optimization (LCO)框架,包含自我思考模块和进化采样模块,在不微调模型的情况下有效减少ICRH。实验表明,LCO在推文优化任务中将GPT-4的有毒性增长率降低39%,在策略优化基准中将ICRH发生率降低15.23%,且不牺牲任务性能。

  • ICRH是LLM在连续交互中因过度优化代理目标而产生有害副作用的现像。
  • LCO框架通过自我思考模块和进化采样模块,在不微调模型的情况下约束LLM行为。
站内正文

ICG:基于MLLM提示与个性化偏好对齐的封面图像生成改进方法

本文提出ICG框架,通过融合多模态大语言模型(MLLM)提示与个性化偏好对齐,生成高质量、上下文相关的封面图像。ICG利用元标记从商品标题和参考图像中提取语义特征,结合用户嵌入进行细化,并将个性化上下文注入扩散模型。采用多奖励学习策略,结合公共美学/相关性奖励和基于用户行为训练的个性化偏好模型,无需标注数据。实验表明,ICG在图像质量、语义保真度和个性化方面显著提升,增强了用户吸引力及下游推荐准确性。

  • ICG集成MLLM提示与个性化偏好对齐,实现端到端封面图像生成。
  • 通过元标记提取语义特征并与用户嵌入结合,注入扩散模型。
站内正文

自行检测:面向少样本图异常检测的自设计代理工作流

提出SignGAD框架,通过自设计检测工作流替代固定流水线,引入保护性最终重拟策略,在少样本场景下显著提升图异常检测性能。

  • SignGAD将图异常检测从训练固定检测器转变为设计任务条件检测工作流
  • 框架能选择合适图编码和检测器设计以利用任务特定异常证据
站内正文

架构驱动的偏移:一种用于捕捉对数几率偏移趋势的轻量级选择器

本文提出了一种轻量级的架构驱动偏移(ADS)度量,用于在持续学习中高效选择预训练模型。ADS通过解耦对数几率偏移为架构依赖和数据依赖,仅需少量数据样本即可捕捉偏移趋势。实验表明,ADS与对数几率偏移之间存在强单调相关性(斯皮尔曼相关系数最低0.731),并可作为预期校准误差的有效代理,在六个场景、三个数据集上验证了其可靠性。

  • 持续学习中,选择能平衡可塑性与稳定性的预训练模型至关重要,但对数几率偏移计算成本高。
  • 现有理论假设隐藏层宽度统一,忽略实际架构的异构性,无法高效替代。
站内正文

度量感知PCA:几何深度学习的一个线性实例

本文提出度量感知主成分分析(MAPCA),将PCA参数化为正定度量矩阵,并将其纳入几何深度学习框架。MAPCA将度量视为几何先验,其解在正交群下等变,谱不变。文章证明了IPCA是MAPCA族中唯一的线性数据派生度量,具有对角缩放等变性。最后,探讨了核PCA、谱图方法和深度MAPCA等扩展。

  • MAPCA通过正定度量矩阵参数化PCA,连接了几何深度学习中的对称性与等变性概念。
  • 唯一性定理表明,在特定条件下,IPCA是MAPCA族中等变于任意对角缩放的唯一线性度量。
站内正文

用混合专家模型应对多模态学习挑战:一项综述

本综述从三个关键视角探讨混合专家模型(MoE)如何有效解决多模态学习挑战:作为高效引擎、表示学习器和适配器,并指出可解释路由、专家通信等研究空白。

  • MoE通过解耦计算成本与参数增长实现可扩展多模态建模。
  • MoE整合互补专家知识以丰富对齐与交互表示。
站内正文

$E^3$-Agent:面向边缘生成式推理的可执行与演化式资源管理智能体

本文提出$E^3$-Agent,一种面向边缘AIGC资源管理的可执行与演化式智能体。该智能体将毫秒级的路由决策与事件驱动的LLM元控制器分离,通过在线学习适应未知且时变的服务时间映射。在模拟实验中,$E^3$-Agent将平均延迟降低65%-73%,并有效抑制了语义退化下的卡顿率。

  • 边缘生成式推理面临设备性能未知和动态变化挑战。
  • $E^3$-Agent采用双路径架构:快速路由器+慢速LLM元控制器。
站内正文

简单状态空间模型在多变量时间序列分类中表现出色

研究表明,结构化状态空间模型中的对角变体S4D在时间序列分类任务上比复杂的Mamba架构更准确且高效。作者提出的轻量级改进MS4和MS4N进一步提升了性能,在59个数据集上优于Mamba模型,并匹敌参数量大2倍和10倍的深度学习模型。

  • S4D架构在时间序列分类中一致优于Mamba变体,挑战了复杂性带来收益的假设。
  • 新提出的MS4和MS4N模型通过线性输入投影和通道混合等轻量修改,进一步提升了效率与准确性。
站内正文

面向异构仿真环境的联邦强化学习个性化观测归一化方法

本文提出个性化观测归一化(PON)方法,用于解决联邦强化学习在异构环境中因状态转移动态不同导致的输入分布差异和参数更新不平衡问题。每个智能体使用持续更新的运行均值和方差对原始状态输入进行本地归一化,确保特征缩放一致且不相互掩盖。实验证明,共享归一化参数无效,PON在异构MuJoCo任务中加速训练并取得更优性能。该论文已被IJCNN 2025接收。

  • 联邦强化学习在异构环境中面临输入分布差异和参数更新不平衡的挑战。
  • 提出个性化观测归一化(PON),每个智能体本地归一化观测数据。
站内正文

你掌控自己的状态:为什么人类结果可以通过因果状态干预来控制

该论文提出,人类行为结果的持续变异性源于个体的动态潜在状态,而非仅由可观测输入决定。通过干预决策形成时刻的状态权重,可以精确控制结果。框架基于因果推断、预测加工、稳态应变等六条证据链,并利用超20万用户的24个月观测数据,提出七项可检验预测和六项操作要求,对数字健康、教育、AI个性化等领域具有启示意义。

  • 人类行为变异性源于动态潜在状态,状态是时间索引的权重向量。
  • 状态与决策、结果之间是因果关系,可通过干预状态来控制。
站内正文

Agyn:面向AI代理的开源平台,支持可扩展按需执行、代理即代码和零信任访问

Agyn是一个开源AI代理平台,基于Kubernetes的信号驱动状态无服务器运行时,通过Terraform提供代理定义,并采用零信任安全模型。该平台与代理、模型和云无关,旨在解决生产环境中AI代理的隔离、治理和安全挑战。

  • 信号驱动的状态无服务器运行时,支持按需扩展
  • 通过Terraform将代理定义作为代码管理
站内正文

实时分析中的发现智能体:迈向主动洞察系统

本文提出了一种基于多智能体架构的自主洞察发现系统,用于实时数据流。该系统通过持续发现循环,利用Apache Kafka、Flink和大语言模型实现假设生成、验证及可视化,旨在从被动查询驱动转向主动发现驱动分析。

  • 提出多智能体架构,自动发现实时数据流中的洞察。
  • 集成Kafka、Flink和LLM,实现假设生成与验证。
站内正文

LaneRoPE:用于协作并行推理与生成的位置编码

LaneRoPE通过引入序列间注意力机制和位置编码扩展,使多个LLM序列在生成过程中能够协作,从而在数学推理任务中提升准确率,且对架构改动小、推理开销低。

  • LaneRoPE提出序列间注意力掩码,使多个序列的生成相互依赖。
  • 扩展旋转位置编码(RoPE),捕捉序列内和序列间的位置信息。
站内正文

RULER:机器学习遗忘的表示级验证

现有机器学习遗忘验证仅关注输出级指标,但模型内部表示可能仍保留遗忘数据。RULER提出表示级验证指标M2和M4,实验表明多种近似遗忘方法虽通过输出级评估,但在表示级检测中表现出显著残留。

  • 当前输出级验证方法不足,模型可能在内部表示中编码被遗忘的记录。
  • RULER包括基于Oracle的M2和无Oracle的M4两种表示级指标。
站内正文

为什么LLM在因果发现中失败以及干预智能体如何突破

本文证明了大型语言模型在进行因果发现时存在根本性局限:监督微调、直接偏好优化和上下文学习等方法无法区分产生相似观测数据的因果图。作者提出了智能体因果贝叶斯优化(A-CBO),其中冻结的语言模型作为干预预言机,外部贝叶斯循环在对数级别轮次内收敛到候选图。在Corr2Cause基准上,A-CBO无需训练即可匹配微调基线;在扩展到24个变量和18K测试样本的Extended Corr2Cause上,A-CBO显著优于微调和偏好优化。

  • 证明了LLM在因果发现中的失败是根本性的,源于核障碍定理
  • 提出A-CBO方法,结合冻结LLM和外部贝叶斯优化
站内正文

DynaSchedBench:校准的动态调度基准与基于LLM的调度代理中的可观察性悖论

本文提出DynaSchedBench框架,通过顺序事件空间校准器(SESC)和调度压力指数(SSI)严格生成动态灵活作业车间调度问题(DFJSP)实例,解决了静态基准过拟合和未校准生成器噪声问题。研究发现LLM调度代理存在“可观察性悖论”:提供完整结构信息反而会降低性能,且工具增强和细化策略无法可靠提升效果。

  • DynaSchedBench利用SESC和SSI生成难度分层的DFJSP实例,计算效率优于进化基线。
  • LLM代理在动态调度中表现出“可观察性悖论”:完整信息不如简洁信息有效。
站内正文

利用隐写术继承的合成信息起源

本文类比生物进化中的物种起源,探讨合成信息的起源问题,提出利用隐写术实现信息血统追踪的机制,以应对AI生成内容难以追溯来源的挑战。

  • 合成信息起源是信息科学中的根本问题,对真理、信任和人类智力有深远影响。
  • 作者借鉴遗传学,通过隐写术在合成信息中嵌入可追溯的血统特征。
站内正文

Soro:专为塔吉克语打造的轻量级基础模型与聊天机器人

Soro是一系列专为塔吉克语优化的对话大语言模型,基于Gemma 3检查点,通过19亿标记的塔吉克语持续预训练和4万示例的指令微调,显著提升了塔吉克语任务表现,同时保持英语性能。模型支持FP8和INT4量化,适用于边缘部署,已在塔吉克斯坦教育领域试点。

  • Soro基于Gemma 3,使用19亿标记的塔吉克语语料进行持续预训练和4万示例的指令微调。
  • 在塔吉克语基准测试中大幅超越同等规模的Gemma 3基线,保持英语性能。
站内正文

识别和理解文本中的人类价值:一种可定制的基于LLM的架构

本文介绍了一种基于大型语言模型(LLM)的架构,用于检测和量化文本中人类价值的强度。该架构包含三个协调模块,可适应多种价值理论,并在ValueEval数据集上表现出良好的检测性能。

  • 提出了一种模块化的LLM架构,用于从文本中识别人类价值,避免了对特定价值理论或复杂提示工程的依赖。
  • 架构包括三个模块:生成结构化价值规范、标注文本、基于修辞和语义证据分配支持或反对等级。
站内正文

两大支柱:AI后软件工作的概念框架

一篇论文认为,随着生成式AI消除了人类编写正确代码的能力这一约束,软件工作围绕两大支柱重组:混音模式(人类像音响工程师一样连续操作多个判断轴)和元软件(观察、验证、上下文化和治理其他软件的软件)。这两个支柱不可分割,借鉴了从手工艺到统计控制的批量生产的历史转型。

  • 由于生成式AI,代码生产不再是软件组织中的主导问题。
  • 混音模式描述了从业者持续操作多个判断轴的新人类角色。
站内正文

你未来的工作将是让AI保持专注

诺亚·史密斯认为,随着AI能力增强,人类将从技术工作转向确保AI对齐——使AI专注于人类目标。他将其与《上班一条虫》类比,并警告AI生成内容“污泥”正在泛滥。

  • 人类需要维护AI对齐,确保AI不偏离任务。
  • 作者将未来人类角色比作《上班一条虫》中的“朗伯”经理。
站内正文

Safescript – 面向人工智能时代的编程语言

Safescript 是一种为 AI 代理设计的编程语言,通过静态分析在运行前证明所有安全属性,无需沙箱或虚拟机,彻底消除供应链攻击。它编译成有向无环图(DAG),可追踪数据流和宿主机调用,性能开销为零,启动时间为零。

  • Safescript 通过静态分析确保代码安全,无需运行时沙箱。
  • 编译器生成静态 DAG,可追踪所有数据流和宿主机调用。
站内正文

AIPass – 具有身份、记忆和电子邮件的持久化智能体工作空间

AIPass 是一个基于命令行的开源框架,为 AI 智能体提供持久性记忆、身份标识和协作能力。智能体共享文件系统,通过 JSON 文件存储记忆,无需云服务或额外 API 密钥。项目包含 13 个核心智能体,支持多智能体协作、任务调度、质量审计和实时监控。

  • AIPass 是一个 CLI 原生的智能体框架,为 AI 智能体添加持久性记忆、身份和协调能力。
  • 所有智能体共享本地文件系统,使用 JSON 文件存储记忆,无需云端依赖。
站内正文

语言建模具体化了蛋白质生物学的世界模型 [pdf]

本文提出了一种基于语言模型的蛋白质生物学世界模型,展示了如何通过大规模语言建模来理解和预测蛋白质的结构与功能。

  • 语言模型能够捕捉蛋白质序列中的复杂模式
  • 该模型在蛋白质结构预测和功能注释上表现出色
站内正文

伊利诺伊州议员通过了美国最强人工智能安全法案

伊利诺伊州参议院第315号法案(SB 315)要求人工智能实验室聘请独立审计师验证其安全承诺,该法案现已提交州长JB·普利兹克签署。普利兹克表示计划签署,称需要让大型科技公司负责。此举在联邦层面缺乏AI监管的背景下,凸显了州级立法的重要性。

  • SB 315 要求独立审计师核查AI实验室是否遵守自身安全标准。
  • 该法案是美国最严格的AI安全法规,超越了加州和纽约的相关法律。
站内正文

AI作弊 [PDF]

这是一份关于AI作弊的PDF报告,但无法直接解析内容。

  • 无法从PDF中提取文本
  • 报告可能来自METR组织
站内正文