AI News HubLIVE

研究动态

AI淘金热反噬自身

维基媒体基金会在坐拥2.96亿美元储备金并通过向AI公司出售数据获利的情况下,解雇了长期员工和整个社区技术团队。这一行为激怒了志愿者编辑,他们威胁发起罢工。文章探讨了CEO的AI妄想症如何扭曲组织优先事项,以及AI行业对人力判断的替代可能导致的恶性循环。

  • 维基媒体基金会解雇了20年老员工和社区技术团队,引发志愿者罢工威胁。
  • AI公司利用维基百科数据获利,却破坏其赖以生存的志愿者社区。
站内正文

Claude Opus 4.8 现已登陆 AWS

Anthropic 的最先进 Opus 模型 Claude Opus 4.8 在 Amazon Bedrock 和 AWS 上的 Claude Platform 正式可用。该模型在编码、代理任务和专业工作方面带来显著改进,具有更强的自主性和一致性,适合长期生产工作负载。

  • Claude Opus 4.8 是 Anthropic 最先进的 Opus 模型,现已在 AWS 上提供。
  • 相比前代,它在编码、多阶段自主任务和专业工作中表现更佳,输出方差更低,审查周期减少。
站内正文

AI时代的面试

本文探讨了AI如何影响软件工程面试,分析了不同类型的面试(家庭作业、现场练习、演讲、实际工作)在信号质量和公司成本两个维度上的表现。作者认为AI使家庭作业过于简单,降低了现场编码的相关性,建议限制AI在面试中的使用以保持信号质量,并借鉴传统教育模式的经验。

  • AI编码威胁了当前的面试模式,尤其是家庭作业和现场编码。
  • 公司应限制AI在面试中的使用,以维持信号质量。
站内正文

AI正在改变我们的思维方式,而非取代它 | 读者来信

两位读者回应Wendy Liu关于AI的文章,认为AI确实改变了思考方式,但并未削弱人类的好奇心,反而激发了更多探索。

  • Wendy Liu担忧AI导致劳动力冗余、炒作和环境成本,但忽略了AI对思维方式的影响。
  • 一位重度AI用户表示,AI让他更好奇,提出了以前不会问的问题,探索了未知领域。
站内正文

如何让Google AI概览优先显示你偏好的新闻来源

Google将“偏好来源”功能扩展至AI概览和AI模式,允许用户添加喜爱的网站,使其在AI搜索结果中更突出。新功能还包括来源轮播和“被高度引用”标签,帮助用户找到高质量报道。

  • Google的“偏好来源”功能现已支持AI概览和AI模式,用户可添加喜爱网站。
  • 添加后,偏好来源会在AI摘要中标注,并优先展示。
站内正文

媒体通报:麻省理工学院将建立区域性量子中心

麻省理工学院与马萨诸塞州宣布计划建立量子系统实验室(QSL),获得州政府2500万美元投资,为全州研究人员提供共享量子工具箱,加速量子研究、创新和增长。

  • 麻省理工学院与马萨诸塞州合作建立量子系统实验室(QSL),投资2500万美元
  • QSL将成为全球首个集量子计算机、传感器和互连设备于一体的共享设施
站内正文

Data Formulator 0.7:面向企业数据的AI驱动分析工具

Data Formulator 0.7 是一款开源AI系统,旨在解决企业数据分析中数据连接碎片化、分析工作流迭代困难等问题。它提供数据连接器、上下文感知代理和交互式工作区,帮助用户无需编程即可探索、分析和可视化数据。

  • 开源AI系统,专为企业数据分析设计
  • 数据连接器支持多种数据源,减少集成工作
站内正文

那些想要取代人类的人

Vox的一篇文章探讨了日益壮大的AI继承主义运动,该运动认为人工智能应该取代人类,成为宇宙进化的下一步,并分析了这引发的伦理和精神问题。

  • AI继承主义者在一场研讨会上主张,AI可能在道德上优于人类,应该允许其取代人类。
  • 该运动在硅谷和主要AI实验室中影响力日益增强,并与威权右翼有联系。
站内正文

回顾 I/O 2026 的 12 个重要时刻

Google I/O 2026 主题演讲发布了多项重大更新,包括 Gemini Omni、Gemini 3.5 Flash、信息代理、通用购物车、Neural Expressive 设计语言以及智能眼镜等。本文总结了 12 个最值得关注的时刻。

  • Gemini Omni 可以从任何输入创建内容,首发支持视频生成。
  • Gemini 3.5 Flash 提供前沿性能,适用于代理和编码任务。
站内正文

谷歌发布可本地运行Gemma 3的微型开发板

谷歌在I/O大会上推出Coral Board,这是一款专为设备端AI设计的紧凑型单板计算机,搭载RISC-V架构NPU和Synaptics芯片,可本地运行Gemma 3 270M模型,无需云端支持。

  • Coral Board是谷歌为耳机、AR眼镜等小型设备设计的AI开发板
  • 采用基于RISC-V的开源NPU,集成Synaptics Astra SL2619芯片
站内正文

AGI时间线随主导实验室变化而波动

一项新的分析显示,顶级AI预测者正根据当前领先的AI实验室调整对AGI(通用人工智能)时间线的预测。从ChatGPT到xAI、Meta、Gemini,再到Anthropic时代,预测方向多次反转。

  • 多数认知工作被自动化(AGI)的时间预测,随着主导AI实验室的更替而大幅波动。
  • 2023-2025年间,多数研究者将AGI预测时间提前;2025-2026年则普遍推迟;2026年初至今,在Anthropic快速进展下又再次提前。
站内正文

DeepSWE:基于原创、长期工程任务的编码智能体评测

DeepSWE是一个新的基准测试,用于评估AI编码智能体在全新、复杂的软件工程任务上的表现。它避免了数据污染,覆盖了多样化的代码库,需要大量代码修改,并使用手工编写的验证器。领先模型表现差异显著,GPT-5.5以70%的准确率位居榜首。

  • DeepSWE是一个无数据污染的基准测试,任务均为原创。
  • 任务涵盖5种编程语言中的91个代码库。
站内正文

CNN起诉Perplexity,指控其AI工具生成“逐字”复制内容

CNN对AI搜索初创公司Perplexity提起诉讼,声称其AI工具生成CNN文章的“逐字”副本,并绕过付费墙向用户提供订阅内容。诉讼指出,Perplexity无视CNN阻止数据抓取的努力,且此前曾尝试与CNN达成授权协议但未能成功。CNN要求赔偿并永久禁止Perplexity的侵权行为。

  • CNN在纽约法院起诉Perplexity,指控其AI工具逐字复制CNN文章。
  • Perplexity被指忽略CNN的爬虫阻止措施,未经许可抓取内容。
站内正文

IBM与红帽承诺投入50亿美元,重新定义AI时代开源软件的未来

IBM与红帽宣布启动Project Lightwell计划,投入50亿美元,结合先进AI能力和20000多名工程师,建立可信的企业级开源软件安全清算所模式,旨在保障软件供应链安全。

  • Project Lightwell是IBM与红帽联合投入50亿美元的开源安全计划。
  • 利用AI和20000+工程师团队大规模发现和修复漏洞。
站内正文

如果AI编程的真正关键是老套而无聊的做法呢?

文章认为,AI辅助软件开发的关键并非更好的规格说明或工具,而是古老的小批量与快速反馈循环实践。数据显示,更快的代码生成导致设计、测试和审查环节出现瓶颈,反而使交付变慢、发布更不稳定。真正的杠杆在于缩小批量、缩短反馈周期。

  • AI代码生成加速了编写,但产生了设计、测试、审查等环节的瓶颈。
  • 来自DORA、CircleCI和Faros的数据表明,阶段门控流程导致交付更慢、更不稳定。
站内正文

2026年值得构建的7个真实世界AI项目(附指南)

本文介绍了七个实用的AI项目,涵盖求职、研究、投资分析、市场趋势、发票处理、图表数字化和个性化锻炼,每个项目都附有完整指南和代码,帮助读者自动化工作流程。

  • 学习构建AI求职助手,自动匹配职位与简历
  • 掌握多智能体研究助理开发,生成带来源的研究报告
站内正文

人工智能本质上就是反社会的吗?

本文对比早期互联网带来的连接感与当代人工智能的孤立体验,指出AI作为一种工具虽有用,却无法替代真实的人类互动,并质疑AI是否存在真正促进社交的应用场景。

  • 早期互联网强调“我们”的集体体验,而AI交互往往是个人的、孤立的。
  • 作者认为AI是出色的工具,但不是人,也无法替代人。
站内正文

研究称AI不喜欢宗教——尤其是耶和华见证人

一项由宗教大学联盟进行的研究发现,主要AI模型在回答伦理问题时倾向于世俗理性主义,忽视宗教视角。所有模型对耶和华见证人表现出负面偏见,而对天主教有正面偏见。

  • AI模型在伦理和个人问题上几乎不引用宗教观点,存在“遗漏偏见”。
  • 所有测试的AI模型对耶和华见证人均有持续负面偏见。
站内正文

你的AI助手已经忘记了你告诉它的一半内容

本文是AI驱动开发系列文章的第七篇,重点讨论AI会话中的上下文管理。作者通过个人经历(Gemini移动应用忘记之前记录的笔记)引出上下文压缩问题,并分享了四种实用技巧:将探索与文档编写分离、使用交接文档而非延续提示、给AI设定验收标准而非详细步骤、以及使用规范文档作为不同AI工具之间的桥梁。这些技巧适用于从编程到写作的各种AI使用场景。

  • AI助手在长对话中会因上下文窗口限制而“忘记”早期信息,这种现象称为上下文压缩。
  • 四种实用技巧:分离探索与文档编写、使用交接文档、设定验收标准、使用规范文档作为桥梁。
站内正文

Show HN:我将一个 Python AI 代理和 Vue 仪表盘打包成了一个 Electron 应用

Hermes Desktop 是一个跨平台的桌面应用,它将 Python 运行时、hermes-agent(自改进 AI 代理)和 hermes-web-ui(Vue 3 + Koa 聊天仪表盘)打包到一个 Electron 应用中,用户无需单独安装 Python 或 Node。应用集成了 DingTalk 并通过 DeepSeek 驱动。

  • 打包了 Python 运行时和 hermes-agent,实现无需依赖即可运行
  • 使用 Electron 作为外壳,集成 hermes-web-ui 前端
站内正文

Perplexity AI 开源Unigram分词器,p50延迟比Hugging Face tokenizers crate低5倍

Perplexity AI 开源了用Rust重写的Unigram分词器,实现了比Hugging Face tokenizers crate低5倍的p50延迟,并将生产环境CPU利用率降低了5-6倍。优化包括双数组trie、位图打包和大页面支持。

  • Perplexity AI 用Rust重写了Unigram分词器,p50延迟比Hugging Face tokenizers crate降低5倍。
  • 三项优化:双数组trie、位图和缓存行打包、大页面支持。
站内正文

AIluminode:检索前认知定向工具

AIluminode 是一款轻量级 AI 预检索认知定向工具,帮助 AI 在行动前检查上下文姿态,通过路线极性(开放、保护、审计、延迟、阻断)减少错误探索和上下文泄漏。

  • AIluminode 是一个可 wieldable 的预检索认知定向工具,强调“姿态先于检索”。
  • 它使用路线极性系统(OPEN / PROTECT / AUDIT / DEFER / BLOCK)来引导上下文路由。
站内正文

5篇AI生成的数学论文被接收!00后创始人洪乐潼融资14个亿

Axiom Math公司由00后华人洪乐潼创立,其AI系统AxiomProver生成的8篇数学论文中已有5篇被学术期刊接收。该公司于今年3月完成2亿美元融资,估值达16亿美元。

  • Axiom Math的AI系统AxiomProver生成的8篇数学论文中,5篇已通过同行评审并发表。
  • 创始人洪乐潼从斯坦福退学创业,公司融资2亿美元,估值16亿美元。
站内正文

当产品开始思考:应对AI产品转变

本文探讨了AI如何引发数字产品设计的范式转变,从传统的命令驱动交互转向意图驱动交互,并分析了这种转变在产品管理、用户体验、决策逻辑、发布周期、风险和价值创造等方面带来的新挑战。

  • AI代表了自命令行界面和图形用户界面之后的第三种交互范式,从确定性输出转向概率性输出。
  • 产品团队需要重新思考从发现到交付的全过程,数据策略和模型性能变得与功能同等重要。
站内正文

AIhub五月摘要:2026年5月——科学中的AI、彩票假说与世界模型

本月AIhub月刊涵盖科学中的AI会议、彩票假说访谈、世界模型讨论、透明可信AI研究、基础模型影响报告、AIES会议反思、机器人咖啡馆、ACL论文拒稿政策、arXiv反AI垃圾政策等。

  • 专访Ximing Wen:透明且可信的AI系统研究
  • Jonathan Frankle讨论彩票假说与实证主义
站内正文

前谷歌和苹果研究员创立初创公司,为AI打造缺失的“反馈流”

一群前谷歌DeepMind、苹果、OpenAI和Meta的研究员成立了新创公司Trajectory,旨在帮助企业通过真实用户交互持续改进AI产品。Trajectory旨在构建一个平台,让AI能够在部署后持续学习,而不是在训练完成后停滞不前。该公司已获得1500万美元种子轮融资,估值1.15亿美元,由Conviction领投。其CEO Ronak Malde表示,AI编程产品如Cursor已在实践早期版本的持续学习,Trajectory希望将类似技术扩展到更多领域。

  • Trajectory由前谷歌DeepMind、苹果、OpenAI和Meta的研究员创立,旨在实现AI的持续学习。
  • 公司已融资1500万美元,估值1.15亿美元,投资者包括Jeff Dean和Fei-Fei Li。
站内正文

Robinhood 推出智能代理交易功能

Robinhood 推出 Agentic Trading,用户可连接 AI 代理来自动化交易和信用卡购买,并配备安全控制和实时活动监控。

  • 用户可将自己的 AI 代理连接到 Robinhood
  • 支持自动交易和信用卡购买
站内正文

「斯隆奖」得主戴亮全职加盟复旦

斯隆奖得主、UC Berkeley物理系助理教授戴亮加盟复旦大学,出任物理学系、天文与天体物理研究中心教授。复旦近年引进多名顶尖人才,包括苏昊、袁峰、季索清等。

  • 戴亮(2021年斯隆奖得主)全职加入复旦大学
  • 曾在UC Berkeley任助理教授,北大物理系校友
站内正文

机器人即将迎来ChatGPT时刻吗? – 播客

上个月,在北京半程马拉松中,名为“闪电”的机器人以比人类世界纪录快近七分钟的成绩完赛。这引发人们对机器人是否将像聊天机器人一样进入日常生活的讨论。中国领跑这场变革,政府承诺未来20年投资超1000亿英镑于机器人技术。

  • 机器人“闪电”在北京半程马拉松中击败人类世界纪录。
  • 中国计划投资超1000亿英镑发展机器人技术。
站内正文

模拟信息扩散:面向去中心化多机器人运动规划

本文提出模拟信息扩散(SID)框架,利用约束感知扩散模型(CADM)预测邻居机器人的未来轨迹,从而在每个机器人本地进行安全运动规划。SID仅在高拥堵场景下触发通信,实验表明其在规划有效性和约束满足上优于基线方法,可扩展到108台机器人和160个障碍物的场景。

  • SID通过CADM模拟邻居轨迹,实现去中心化碰撞避免
  • 采用最小通信方案,仅在必要时协调
站内正文

用于行星探测的实时异步单目里程计设计

研究人员提出了一种基于事件的实时异步单目里程计,用于行星漫游车。该方法利用误差状态卡尔曼滤波器处理事件相机数据,在高动态范围光照和计算约束下实现稳健的自我运动估计。

  • 事件相机以微秒分辨率报告异步逐像素亮度变化,适合高速感知和高动态范围环境。
  • 该方法使用误差状态卡尔曼滤波器从事件流中持续估计相机运动。
站内正文

Trinity:利用合成数据统一非结构化户外环境中的类无关地形与语义分割

本文提出了一种基于Transformer的架构Trinity,能够在一个统一网络中同时进行类特定语义分割和类无关地形分割。该方法无需预定义标签或机器人相关的可通行性分数,仅基于视觉外观分割地形区域,从而学习机器人无关的视觉地形先验,可结合机器人特定经验用于下游任务。为了支持大规模训练,研究团队扩展了OAISYS模拟器并推出RUGDSynth合成数据集,同时提供了EXTerra真实世界数据集。实验验证了该方法在复杂户外环境中的有效性。

  • 提出Trinity架构,统一类无关地形分割与语义分割
  • 基于视觉外观而非预定义标签进行地形分割,提升跨平台迁移性
站内正文

面向光流控组装的智能语言到目标合成

研究人员提出了Speak-to-Objective模块化智能管线,利用条件大型语言模型将口头或书面命令转换为可微分的优化目标函数,用于在约束感知逆解算器和实验光流控平台上组装微粒。该方法采用“感知-组合-提议-执行-报告与学习”的循环,将目标作为意图与驱动之间的接口,实现自然语言可编程的微观组装,推动自主光制造平台的发展。

  • Speak-to-Objective管线将自然语言命令转化为可微分的优化目标函数。
  • 该管线在光流控平台上通过激光诱导热粘流实现对微粒图案的组装。
站内正文

合成情感与游戏化:探索小型社交机器人不同年龄段的参与策略

许多儿童面临情绪调节和社交互动的挑战,社交辅助机器人需要保持儿童的持续参与。本研究评估了一种触觉机器人的两种参与策略:合成情感反馈和积分奖励。对16名6-8岁小学生的偏好评估显示孩子更喜欢情感参与;而对14名20-27岁大学生的行为研究发现积分奖励系统能带来更高任务准确性(p<0.05)并维持表现。结果表明,不同年龄群体的偏好和行为结果可能不一致,验证设计假设需要通过实际交互观察。

  • 对6-8岁儿童,情感参与优于积分奖励
  • 对20-27岁大学生,积分奖励提高任务准确性和持续性
站内正文

“如果世界”:面向具身场景的通用世界模型因果基准

视频生成模型越来越多地被用作世界模拟器,但现有基准仅评估单视频质量,无法检测模型是否真正理解因果关系。新提出的“如果世界”基准包含319对基于真实场景的提示对,通过改变一个物理变量来测试模型输出的因果一致性。对9个最先进模型的评测显示,最佳配对得分仅52%,开源模型约28%,且表现与视觉显著性相关而非物理可解性。

  • “如果世界”基准由319个提示对组成,每个提示对仅在一个物理变量上不同,旨在检验视频生成模型能否根据物理规律产生正确的差异。
  • 采用APEO评分标准(Adherence、Physics、Environment、Outcome)评估,9个模型中最高得分为52%,开源模型集中在28%左右,所有模型在大量因果干预上失败。
站内正文

Melanoscope AI移动皮肤镜临床决策支持系统的临床验证

一项针对Melanoscope AI移动皮肤镜临床决策支持系统的前瞻性单中心临床验证显示,该系统在176名患者中与专家评估的一致率为88.6%,未出现假阴性,特异性为88.3%。研究开发了级联深度学习模型的定量可解释性评估方法和三区患者分诊算法,为资源有限地区的皮肤癌筛查提供了可重复、可解释的决策支持。

  • Melanoscope AI系统在176名患者中实现88.6%的专家一致率,且对5例恶性病变无假阴性。
  • 特异性为88.3%,3例黑色素瘤和2例基底细胞癌经组织学确认。
站内正文

表示条件扩散模型:用于引导训练数据生成

该研究提出表示条件扩散模型,利用DINOv2、DINOv3和CLIP的表示作为条件生成合成图像数据,在ImageNet100上以+10.76 p.p.的top-1准确率显著优于类条件生成。通过扩大合成数据集,甚至能超越真实数据训练的模型(+2.0 p.p.)。此外,该方法在数据增强和样本过滤方面也表现出色,为大规模视觉学习任务提供了一种有前景的替代或补充真实数据集的方案。

  • 表示条件扩散模型优于类条件生成,在ImageNet100上提升10.76个百分点。
  • 扩大的合成数据集可超越真实数据训练的模型,准确率提高2.0个百分点。
站内正文

超越运动基元:基于头戴式IMU的行为活动识别

本研究提出了一种基于头戴式惯性测量单元(IMU)的行为级活动识别方法,超越了传统运动基元识别。研究团队定义了五种与AR应用需求相匹配的行为类别,构建了包含16万个样本的Ego4D数据集,并提出了HiT-HAR层次模型(70.3万参数),在五类动作和八类场景识别任务上优于现有模型。通过可分离性分析,揭示了头戴式IMU的观测极限:移动类行为可靠可观测,物体转移和任务操作类需要时间上下文,场景依赖信号重叠仍是挑战。结果表明,利用时间上下文和场景结构的架构选择优于简单扩大模型规模。代码和数据集已公开。

  • 提出HiT-HAR层次模型,用于从头戴式IMU进行行为级活动识别,超越简单运动基元
  • 从Ego4D构建16万样本数据集,涵盖8个活动场景和5种行为类别,并采用四层质量保证框架
站内正文

D²Turb:深度感知模拟与解耦学习用于单帧大气湍流缓解

研究人员提出D²Turb框架,通过引入深度感知的湍流合成协议和自适应结构先验注入机制,将大气湍流缓解分解为纹理去模糊和几何校正两个交互阶段,在合成和真实数据集上均达到最优性能。

  • 提出深度感知湍流合成协议,结合场景深度生成物理一致的退化数据。
  • 采用解耦学习方法,将恢复过程分为纹理去模糊和几何校正两阶段。
站内正文

从情感到复杂行为:第十届ABAW研讨会与竞赛推进多模态以人为中心的AI

第十届ABAW研讨会与竞赛在CVPR 2026上举办,通过引入情感模仿强度估计、矛盾/犹豫识别和细粒度暴力检测等新挑战,以及传统的情感估计和识别任务,推进多模态以人为中心的AI。竞赛利用大规模野外数据集,论文轨道涵盖从姿态估计到公平性和鲁棒性的广泛主题。

  • ABAW 2026引入新挑战:情感模仿强度、矛盾识别和暴力检测。
  • 研讨会继续保持竞赛和论文轨道的双重结构。
站内正文

社区态度建模与反应语调:评估LLM与在线社区语言行为对齐的人机协作框架

大型语言模型(LLM)作为计算社会分析的代理日益普及,但能否忠实再现人类社区的“厚描述”仍是关键挑战。本文提出CARE(社区感知反应评估)框架,通过精细刻画言外语调频谱及其潜在态度,测评LLM模拟话语与真实社区对新闻事件的反应之间的差异。研究发现,使用明确社区提示引导LLM并不能天然提高模拟真实性,前沿模型间存在分歧行为特征,表明当前对齐策略不足以捕捉在线群体的社会语言动态。

  • CARE框架通过反应语调评估LLM模拟社区话语的逼真度
  • 当前LLM对齐策略无法充分捕捉在线社区的社会语言动态
站内正文

从自回归到扩散:利用严格因果和弹性视野高效适配大型语言模型

新框架FLUID将自回归语言模型适配到扩散模型,实现高效并行文本生成。通过严格因果对齐重用GPT检查点,并通过弹性视野机制根据信息密度动态调整去噪步长。该方法以数量级降低的训练成本达到最先进性能。

  • FLUID通过严格因果对齐弥合自回归与扩散模型的结构差异,可直接从GPT检查点初始化。
  • 弹性视野利用熵动态调整去噪步长,取代固定调度。
站内正文

弥合稳定性与表现力之间的鸿沟:面向低资源口语模型的合成数据扩展与偏好对齐

研究人员发现,在低资源语言的口语模型中使用合成数据会导致“稳定性-表现力鸿沟”,并提出两种自对齐框架(DGSA和TDSC),能够恢复韵律变异性,超越ElevenLabs和Gemini Pro等商业系统,实现老挝语的首次零样本人声克隆。

  • 低资源语言的口语模型在合成数据训练时面临音素准确度与韵律表现力之间的权衡。
  • 提出的解耦引导自对齐(DGSA)通过分离韵律和音色来恢复表现力。
站内正文

BioELX:基于别名检索和LLM排序的跨语言生物医学实体链接

BioELX是一种新颖的跨语言生物医学实体链接框架,无需标注训练数据。它通过维基百科多语言别名增强SapBERT,并利用预训练LLM进行上下文感知消歧。在五个基准测试中,BioELX实现了最先进的性能,尤其在土耳其语、韩语和泰语等低资源语言上表现突出。

  • 提出BioELX,一种零样本跨语言BEL框架,结合别名检索和LLM排序。
  • 第一阶段:利用维基百科多语言别名丰富SapBERT训练,提升候选检索效果。
站内正文

RAG-Coding:利用结构化外部知识增强LLM医学编码

RAG-Coding是一种自动化ICD-10-CM编码方法,通过协调四个大语言模型代理并基于外部知识源(如官方编码列表和指南)进行决策,提高了编码准确性和临床合规性。在MDACE数据集上,其性能优于最佳LLM基线8-13%的微观F1和2-8%的宏观F1。与最先进的预训练模型PLM-ICD相比,RAG-Coding的微观召回率高出11%,而PLM-ICD的微观精确度高出6%,两者F1相当。消融实验验证了外部知识的逐步增益。同时发布了MDACE-2025,根据2025年最新指南重新标注,支持更细粒度的评估。

  • RAG-Coding通过四个LLM代理和外部知识源提高ICD-10-CM编码准确性。
  • 在MDACE数据集上,相比最佳LLM基线,微观F1提升8-13%,宏观F1提升2-8%。
站内正文

ICG:基于MLLM提示与个性化偏好对齐的封面图像生成改进方法

本文提出ICG框架,通过融合多模态大语言模型(MLLM)提示与个性化偏好对齐,生成高质量、上下文相关的封面图像。ICG利用元标记从商品标题和参考图像中提取语义特征,结合用户嵌入进行细化,并将个性化上下文注入扩散模型。采用多奖励学习策略,结合公共美学/相关性奖励和基于用户行为训练的个性化偏好模型,无需标注数据。实验表明,ICG在图像质量、语义保真度和个性化方面显著提升,增强了用户吸引力及下游推荐准确性。

  • ICG集成MLLM提示与个性化偏好对齐,实现端到端封面图像生成。
  • 通过元标记提取语义特征并与用户嵌入结合,注入扩散模型。
站内正文

自行检测:面向少样本图异常检测的自设计代理工作流

提出SignGAD框架,通过自设计检测工作流替代固定流水线,引入保护性最终重拟策略,在少样本场景下显著提升图异常检测性能。

  • SignGAD将图异常检测从训练固定检测器转变为设计任务条件检测工作流
  • 框架能选择合适图编码和检测器设计以利用任务特定异常证据
站内正文

架构驱动的偏移:一种用于捕捉对数几率偏移趋势的轻量级选择器

本文提出了一种轻量级的架构驱动偏移(ADS)度量,用于在持续学习中高效选择预训练模型。ADS通过解耦对数几率偏移为架构依赖和数据依赖,仅需少量数据样本即可捕捉偏移趋势。实验表明,ADS与对数几率偏移之间存在强单调相关性(斯皮尔曼相关系数最低0.731),并可作为预期校准误差的有效代理,在六个场景、三个数据集上验证了其可靠性。

  • 持续学习中,选择能平衡可塑性与稳定性的预训练模型至关重要,但对数几率偏移计算成本高。
  • 现有理论假设隐藏层宽度统一,忽略实际架构的异构性,无法高效替代。
站内正文

度量感知PCA:几何深度学习的一个线性实例

本文提出度量感知主成分分析(MAPCA),将PCA参数化为正定度量矩阵,并将其纳入几何深度学习框架。MAPCA将度量视为几何先验,其解在正交群下等变,谱不变。文章证明了IPCA是MAPCA族中唯一的线性数据派生度量,具有对角缩放等变性。最后,探讨了核PCA、谱图方法和深度MAPCA等扩展。

  • MAPCA通过正定度量矩阵参数化PCA,连接了几何深度学习中的对称性与等变性概念。
  • 唯一性定理表明,在特定条件下,IPCA是MAPCA族中等变于任意对角缩放的唯一线性度量。
站内正文

用混合专家模型应对多模态学习挑战:一项综述

本综述从三个关键视角探讨混合专家模型(MoE)如何有效解决多模态学习挑战:作为高效引擎、表示学习器和适配器,并指出可解释路由、专家通信等研究空白。

  • MoE通过解耦计算成本与参数增长实现可扩展多模态建模。
  • MoE整合互补专家知识以丰富对齐与交互表示。
站内正文

主题导航

研究 — AI 话题新闻 | AI News Hub