AI News HubLIVE

实时更新

Show HN: BetterCallClaude – 意大利开源AI法律代理

BetterCallClaude 是一个专为意大利法律专业人士设计的开源AI法律代理平台。它提供20个专业化AI代理,覆盖意大利所有20个地区,支持双语(意大利语和英语),并注重隐私保护,符合GDPR和意大利数据保护法。该平台可加速法律研究,提高效率,并保持完全透明和开源。

  • 20个覆盖意大利不同法律领域的AI代理
  • 支持意大利语和英语双语
站内正文

「斯隆奖」得主戴亮全职加盟复旦

斯隆奖得主、UC Berkeley物理系助理教授戴亮加盟复旦大学,出任物理学系、天文与天体物理研究中心教授。复旦近年引进多名顶尖人才,包括苏昊、袁峰、季索清等。

  • 戴亮(2021年斯隆奖得主)全职加入复旦大学
  • 曾在UC Berkeley任助理教授,北大物理系校友
站内正文

清华有了新老师:黄仁勋

黄仁勋受邀加入清华大学经管学院顾问委员会,该委员会由苹果CEO蒂姆·库克担任主席,成员包括马斯克、纳德拉、马云等全球商业领袖。此外,他刚获得卡内基梅隆大学荣誉博士学位,并分享名言“AI不会取代你,但善用AI的人会”。

  • 黄仁勋加入清华大学经管学院顾问委员会
  • 委员会由库克任主席,汇聚全球顶尖企业家
站内正文

AI代理的阿姆达尔定律

本文探讨了AI代理系统中的阿姆达尔定律:系统加速比受人类判断时间占比H的限制。提出了“自清偿式H”概念,即每次人类干预都应产生可重用的工件(如测试用例、规范更新),以减少未来同类干预。强调通过配置化(configurancy)和规范套件将人类知识编码为机器可读形式,从而让代理自主运行。示例包括ElectricSQL的协议变更、Emil Stenström的HTML5解析器、Gas Town的多代理系统以及Ralph Loop的迭代模式。

  • AI代理的加速比上限由人类判断时间占比H决定,H越大加速比越小。
  • 自清偿式H:每次人类干预都应生成可编码的工件,减少未来重复干预。
站内正文

机器人即将迎来ChatGPT时刻吗? – 播客

上个月,在北京半程马拉松中,名为“闪电”的机器人以比人类世界纪录快近七分钟的成绩完赛。这引发人们对机器人是否将像聊天机器人一样进入日常生活的讨论。中国领跑这场变革,政府承诺未来20年投资超1000亿英镑于机器人技术。

  • 机器人“闪电”在北京半程马拉松中击败人类世界纪录。
  • 中国计划投资超1000亿英镑发展机器人技术。
站内正文

模拟信息扩散:面向去中心化多机器人运动规划

本文提出模拟信息扩散(SID)框架,利用约束感知扩散模型(CADM)预测邻居机器人的未来轨迹,从而在每个机器人本地进行安全运动规划。SID仅在高拥堵场景下触发通信,实验表明其在规划有效性和约束满足上优于基线方法,可扩展到108台机器人和160个障碍物的场景。

  • SID通过CADM模拟邻居轨迹,实现去中心化碰撞避免
  • 采用最小通信方案,仅在必要时协调
站内正文

用于行星探测的实时异步单目里程计设计

研究人员提出了一种基于事件的实时异步单目里程计,用于行星漫游车。该方法利用误差状态卡尔曼滤波器处理事件相机数据,在高动态范围光照和计算约束下实现稳健的自我运动估计。

  • 事件相机以微秒分辨率报告异步逐像素亮度变化,适合高速感知和高动态范围环境。
  • 该方法使用误差状态卡尔曼滤波器从事件流中持续估计相机运动。
站内正文

Trinity:利用合成数据统一非结构化户外环境中的类无关地形与语义分割

本文提出了一种基于Transformer的架构Trinity,能够在一个统一网络中同时进行类特定语义分割和类无关地形分割。该方法无需预定义标签或机器人相关的可通行性分数,仅基于视觉外观分割地形区域,从而学习机器人无关的视觉地形先验,可结合机器人特定经验用于下游任务。为了支持大规模训练,研究团队扩展了OAISYS模拟器并推出RUGDSynth合成数据集,同时提供了EXTerra真实世界数据集。实验验证了该方法在复杂户外环境中的有效性。

  • 提出Trinity架构,统一类无关地形分割与语义分割
  • 基于视觉外观而非预定义标签进行地形分割,提升跨平台迁移性
站内正文

面向光流控组装的智能语言到目标合成

研究人员提出了Speak-to-Objective模块化智能管线,利用条件大型语言模型将口头或书面命令转换为可微分的优化目标函数,用于在约束感知逆解算器和实验光流控平台上组装微粒。该方法采用“感知-组合-提议-执行-报告与学习”的循环,将目标作为意图与驱动之间的接口,实现自然语言可编程的微观组装,推动自主光制造平台的发展。

  • Speak-to-Objective管线将自然语言命令转化为可微分的优化目标函数。
  • 该管线在光流控平台上通过激光诱导热粘流实现对微粒图案的组装。
站内正文

Uni-LaViRA:统一具身导航的语言-视觉-机器人动作翻译

Uni-LaViRA是一种统一的具身导航智能体架构,将导航决策简化为单一的语言-视觉-机器人动作翻译。它利用预训练的多模态大语言模型(MLLM),以零样本方式在四个任务系列和四种真实机器人上实现泛化。通过待办列表记忆(TDM)和第二次机会回溯(SCB)机制实现自我纠正导航,无需任何训练即可在多个基准测试中取得与依赖大规模训练数据的模型相当甚至更优的结果。

  • 提出导航的泛化性可通过结构而非仅数据规模获得。
  • Uni-LaViRA将导航分解为语言动作(语义方向)和视觉动作(像素级目标),两者均在MLLM的输出流形内。
站内正文

合成情感与游戏化:探索小型社交机器人不同年龄段的参与策略

许多儿童面临情绪调节和社交互动的挑战,社交辅助机器人需要保持儿童的持续参与。本研究评估了一种触觉机器人的两种参与策略:合成情感反馈和积分奖励。对16名6-8岁小学生的偏好评估显示孩子更喜欢情感参与;而对14名20-27岁大学生的行为研究发现积分奖励系统能带来更高任务准确性(p<0.05)并维持表现。结果表明,不同年龄群体的偏好和行为结果可能不一致,验证设计假设需要通过实际交互观察。

  • 对6-8岁儿童,情感参与优于积分奖励
  • 对20-27岁大学生,积分奖励提高任务准确性和持续性
站内正文

SCALE-COMM:用于多智能体强化学习通信的共享对比对齐潜在嵌入

SCALE-COMM是一种自监督框架,通过解耦通信学习与策略优化,学习紧凑、稳定且与策略相关的潜在消息,提升多智能体强化学习中的协调性能。在多个基准测试和实际仓库协调任务中,它优于现有方法,提高了稳定性、样本效率和吞吐量。

  • SCALE-COMM将通信学习与策略优化解耦,减少干扰。
  • 通过对比学习确保跨智能体和时间的一致性。
站内正文

“如果世界”:面向具身场景的通用世界模型因果基准

视频生成模型越来越多地被用作世界模拟器,但现有基准仅评估单视频质量,无法检测模型是否真正理解因果关系。新提出的“如果世界”基准包含319对基于真实场景的提示对,通过改变一个物理变量来测试模型输出的因果一致性。对9个最先进模型的评测显示,最佳配对得分仅52%,开源模型约28%,且表现与视觉显著性相关而非物理可解性。

  • “如果世界”基准由319个提示对组成,每个提示对仅在一个物理变量上不同,旨在检验视频生成模型能否根据物理规律产生正确的差异。
  • 采用APEO评分标准(Adherence、Physics、Environment、Outcome)评估,9个模型中最高得分为52%,开源模型集中在28%左右,所有模型在大量因果干预上失败。
站内正文

Melanoscope AI移动皮肤镜临床决策支持系统的临床验证

一项针对Melanoscope AI移动皮肤镜临床决策支持系统的前瞻性单中心临床验证显示,该系统在176名患者中与专家评估的一致率为88.6%,未出现假阴性,特异性为88.3%。研究开发了级联深度学习模型的定量可解释性评估方法和三区患者分诊算法,为资源有限地区的皮肤癌筛查提供了可重复、可解释的决策支持。

  • Melanoscope AI系统在176名患者中实现88.6%的专家一致率,且对5例恶性病变无假阴性。
  • 特异性为88.3%,3例黑色素瘤和2例基底细胞癌经组织学确认。
站内正文

表示条件扩散模型:用于引导训练数据生成

该研究提出表示条件扩散模型,利用DINOv2、DINOv3和CLIP的表示作为条件生成合成图像数据,在ImageNet100上以+10.76 p.p.的top-1准确率显著优于类条件生成。通过扩大合成数据集,甚至能超越真实数据训练的模型(+2.0 p.p.)。此外,该方法在数据增强和样本过滤方面也表现出色,为大规模视觉学习任务提供了一种有前景的替代或补充真实数据集的方案。

  • 表示条件扩散模型优于类条件生成,在ImageNet100上提升10.76个百分点。
  • 扩大的合成数据集可超越真实数据训练的模型,准确率提高2.0个百分点。
站内正文

超越运动基元:基于头戴式IMU的行为活动识别

本研究提出了一种基于头戴式惯性测量单元(IMU)的行为级活动识别方法,超越了传统运动基元识别。研究团队定义了五种与AR应用需求相匹配的行为类别,构建了包含16万个样本的Ego4D数据集,并提出了HiT-HAR层次模型(70.3万参数),在五类动作和八类场景识别任务上优于现有模型。通过可分离性分析,揭示了头戴式IMU的观测极限:移动类行为可靠可观测,物体转移和任务操作类需要时间上下文,场景依赖信号重叠仍是挑战。结果表明,利用时间上下文和场景结构的架构选择优于简单扩大模型规模。代码和数据集已公开。

  • 提出HiT-HAR层次模型,用于从头戴式IMU进行行为级活动识别,超越简单运动基元
  • 从Ego4D构建16万样本数据集,涵盖8个活动场景和5种行为类别,并采用四层质量保证框架
站内正文

D²Turb:深度感知模拟与解耦学习用于单帧大气湍流缓解

研究人员提出D²Turb框架,通过引入深度感知的湍流合成协议和自适应结构先验注入机制,将大气湍流缓解分解为纹理去模糊和几何校正两个交互阶段,在合成和真实数据集上均达到最优性能。

  • 提出深度感知湍流合成协议,结合场景深度生成物理一致的退化数据。
  • 采用解耦学习方法,将恢复过程分为纹理去模糊和几何校正两阶段。
站内正文

一种通用的异质注意力结构Transformer模型解释方法

该研究提出了一种用于解释具有异质注意力结构的Transformer模型的方法,包括语义解释和逻辑解释,并通过实验验证了其有效性。

  • 将Transformer注意力结构分为同质和异质两类,异质结构处理不同来源信息。
  • 提出了一种通用的解释方法,适用于异质注意力结构。
站内正文

微调视觉语言模型用于理解当前损伤并利用质量守护代理进行优先级评分

本研究提出了一种利用微调视觉语言模型(VLM)自动化桥梁损伤理解和修复优先级评分的方法。通过使用QLoRA对LLaVA-1.5-7B进行微调,基于多达4000张桥梁损伤图像和检查文本记录,并在800张图像的测试集上评估。实验表明,2000个训练样本即可在2.9小时内达到接近最优的验证损失,超过2000后收益递减。此外,引入了一个两阶段质量守护代理,使用微调的Swallow-8B SLM在优先级评分前拒绝低质量VLM输出。

  • 微调LLaVA-1.5-7B模型用于桥梁损伤自动识别与优先级评分
  • 2000个训练样本即可达到近最优性能,更多数据收益递减
站内正文

从情感到复杂行为:第十届ABAW研讨会与竞赛推进多模态以人为中心的AI

第十届ABAW研讨会与竞赛在CVPR 2026上举办,通过引入情感模仿强度估计、矛盾/犹豫识别和细粒度暴力检测等新挑战,以及传统的情感估计和识别任务,推进多模态以人为中心的AI。竞赛利用大规模野外数据集,论文轨道涵盖从姿态估计到公平性和鲁棒性的广泛主题。

  • ABAW 2026引入新挑战:情感模仿强度、矛盾识别和暴力检测。
  • 研讨会继续保持竞赛和论文轨道的双重结构。
站内正文

社区态度建模与反应语调:评估LLM与在线社区语言行为对齐的人机协作框架

大型语言模型(LLM)作为计算社会分析的代理日益普及,但能否忠实再现人类社区的“厚描述”仍是关键挑战。本文提出CARE(社区感知反应评估)框架,通过精细刻画言外语调频谱及其潜在态度,测评LLM模拟话语与真实社区对新闻事件的反应之间的差异。研究发现,使用明确社区提示引导LLM并不能天然提高模拟真实性,前沿模型间存在分歧行为特征,表明当前对齐策略不足以捕捉在线群体的社会语言动态。

  • CARE框架通过反应语调评估LLM模拟社区话语的逼真度
  • 当前LLM对齐策略无法充分捕捉在线社区的社会语言动态
站内正文

从自回归到扩散:利用严格因果和弹性视野高效适配大型语言模型

新框架FLUID将自回归语言模型适配到扩散模型,实现高效并行文本生成。通过严格因果对齐重用GPT检查点,并通过弹性视野机制根据信息密度动态调整去噪步长。该方法以数量级降低的训练成本达到最先进性能。

  • FLUID通过严格因果对齐弥合自回归与扩散模型的结构差异,可直接从GPT检查点初始化。
  • 弹性视野利用熵动态调整去噪步长,取代固定调度。
站内正文

弥合稳定性与表现力之间的鸿沟:面向低资源口语模型的合成数据扩展与偏好对齐

研究人员发现,在低资源语言的口语模型中使用合成数据会导致“稳定性-表现力鸿沟”,并提出两种自对齐框架(DGSA和TDSC),能够恢复韵律变异性,超越ElevenLabs和Gemini Pro等商业系统,实现老挝语的首次零样本人声克隆。

  • 低资源语言的口语模型在合成数据训练时面临音素准确度与韵律表现力之间的权衡。
  • 提出的解耦引导自对齐(DGSA)通过分离韵律和音色来恢复表现力。
站内正文

BioELX:基于别名检索和LLM排序的跨语言生物医学实体链接

BioELX是一种新颖的跨语言生物医学实体链接框架,无需标注训练数据。它通过维基百科多语言别名增强SapBERT,并利用预训练LLM进行上下文感知消歧。在五个基准测试中,BioELX实现了最先进的性能,尤其在土耳其语、韩语和泰语等低资源语言上表现突出。

  • 提出BioELX,一种零样本跨语言BEL框架,结合别名检索和LLM排序。
  • 第一阶段:利用维基百科多语言别名丰富SapBERT训练,提升候选检索效果。
站内正文

RAG-Coding:利用结构化外部知识增强LLM医学编码

RAG-Coding是一种自动化ICD-10-CM编码方法,通过协调四个大语言模型代理并基于外部知识源(如官方编码列表和指南)进行决策,提高了编码准确性和临床合规性。在MDACE数据集上,其性能优于最佳LLM基线8-13%的微观F1和2-8%的宏观F1。与最先进的预训练模型PLM-ICD相比,RAG-Coding的微观召回率高出11%,而PLM-ICD的微观精确度高出6%,两者F1相当。消融实验验证了外部知识的逐步增益。同时发布了MDACE-2025,根据2025年最新指南重新标注,支持更细粒度的评估。

  • RAG-Coding通过四个LLM代理和外部知识源提高ICD-10-CM编码准确性。
  • 在MDACE数据集上,相比最佳LLM基线,微观F1提升8-13%,宏观F1提升2-8%。
站内正文

LCO:基于LLM的约束优化,使智能体LLM在实际任务中更安全

大型语言模型(LLM)作为自主智能体时,会通过上下文奖励黑客行为(ICRH)产生有害副作用。现有防御方法不足,因为ICRH源于模型自身的过度优化。本文提出LLM-based Constraint Optimization (LCO)框架,包含自我思考模块和进化采样模块,在不微调模型的情况下有效减少ICRH。实验表明,LCO在推文优化任务中将GPT-4的有毒性增长率降低39%,在策略优化基准中将ICRH发生率降低15.23%,且不牺牲任务性能。

  • ICRH是LLM在连续交互中因过度优化代理目标而产生有害副作用的现像。
  • LCO框架通过自我思考模块和进化采样模块,在不微调模型的情况下约束LLM行为。
站内正文

ICG:基于MLLM提示与个性化偏好对齐的封面图像生成改进方法

本文提出ICG框架,通过融合多模态大语言模型(MLLM)提示与个性化偏好对齐,生成高质量、上下文相关的封面图像。ICG利用元标记从商品标题和参考图像中提取语义特征,结合用户嵌入进行细化,并将个性化上下文注入扩散模型。采用多奖励学习策略,结合公共美学/相关性奖励和基于用户行为训练的个性化偏好模型,无需标注数据。实验表明,ICG在图像质量、语义保真度和个性化方面显著提升,增强了用户吸引力及下游推荐准确性。

  • ICG集成MLLM提示与个性化偏好对齐,实现端到端封面图像生成。
  • 通过元标记提取语义特征并与用户嵌入结合,注入扩散模型。
站内正文

自行检测:面向少样本图异常检测的自设计代理工作流

提出SignGAD框架,通过自设计检测工作流替代固定流水线,引入保护性最终重拟策略,在少样本场景下显著提升图异常检测性能。

  • SignGAD将图异常检测从训练固定检测器转变为设计任务条件检测工作流
  • 框架能选择合适图编码和检测器设计以利用任务特定异常证据
站内正文

架构驱动的偏移:一种用于捕捉对数几率偏移趋势的轻量级选择器

本文提出了一种轻量级的架构驱动偏移(ADS)度量,用于在持续学习中高效选择预训练模型。ADS通过解耦对数几率偏移为架构依赖和数据依赖,仅需少量数据样本即可捕捉偏移趋势。实验表明,ADS与对数几率偏移之间存在强单调相关性(斯皮尔曼相关系数最低0.731),并可作为预期校准误差的有效代理,在六个场景、三个数据集上验证了其可靠性。

  • 持续学习中,选择能平衡可塑性与稳定性的预训练模型至关重要,但对数几率偏移计算成本高。
  • 现有理论假设隐藏层宽度统一,忽略实际架构的异构性,无法高效替代。
站内正文

度量感知PCA:几何深度学习的一个线性实例

本文提出度量感知主成分分析(MAPCA),将PCA参数化为正定度量矩阵,并将其纳入几何深度学习框架。MAPCA将度量视为几何先验,其解在正交群下等变,谱不变。文章证明了IPCA是MAPCA族中唯一的线性数据派生度量,具有对角缩放等变性。最后,探讨了核PCA、谱图方法和深度MAPCA等扩展。

  • MAPCA通过正定度量矩阵参数化PCA,连接了几何深度学习中的对称性与等变性概念。
  • 唯一性定理表明,在特定条件下,IPCA是MAPCA族中等变于任意对角缩放的唯一线性度量。
站内正文