AI 日报 2026-05-25

今日重点

Agent

教皇利奥在人工智能时代呼吁“深刻的人性”

2026-05-25

教皇利奥十四世在其首份通谕《伟大的人性》中警告人工智能和无节制的技术力量风险，呼吁以人类尊严为核心制定法律和伦理框架，涵盖AI战争、劳动力影响及儿童保护等领域。

教皇利奥十四世发布通谕《伟大的人性》，聚焦人工智能时代守护人类尊严。
通谕批评AI带来的经济和社会动荡，警告“巴别塔综合征”风险。

使用Mimesis生成平衡数据集审计模型偏差

2026-05-25

本文介绍了如何使用Mimesis库生成平衡的反事实数据集，以审计机器学习模型中的潜在偏差。通过一个贷款审批模型的实例，展示了如何创建带有性别偏差的训练数据，然后利用Mimesis生成收入相同但性别不同的虚拟用户，从而检测模型是否对不同群体存在歧视。

Mimesis库可快速生成统计上平衡的反事实数据，用于模型偏差审计。
通过创建收入相同但性别不同的虚拟“克隆”用户，隔离受保护属性，检测歧视。

Pitch Agent

2026-05-25

Pitch Agent 是 Pitch 推出的新 AI 功能，能从团队模板、设计语言和图像风格中学习，快速生成符合品牌形象的演示文稿，并支持通过对话式交互进行迭代优化。

Pitch Agent 根据团队模板和设计风格生成演示文稿，而非简单套用颜色。
支持通过聊天方式细化幻灯片，无需离开编辑器。

2026年AI代理与MCP服务器最佳身份验证平台

2026-05-25

随着MCP每月SDK下载量突破9700万，AI代理进入生产工作流，身份验证成为团队最关键的基础设施决策。本文对八大领先平台（WorkOS、Stytch、Auth0 by Okta、Composio、Nango、Arcade、TrueFoundry和Cloudflare）进行了排名，评估了它们在规范合规性、企业身份深度、集成广度以及2026年部署的实际适用性。

MCP协议已从Anthropic内部实验发展为行业标准，2025年12月捐赠给Linux基金会下的Agentic AI Foundation。
AI代理从对话式交互转向自主执行操作，身份验证成为基础设施级问题。

ServiceNow是一家美国企业软件公司，总部位于加州圣克拉拉，全球员工超过29,000人。该公司大力投资AI和自动化，收购Passage AI、与NVIDIA合作、投入10亿美元风投资金支持AI初创企业，并在加拿大投资1.1亿加元推动公共部门AI应用。文章重点介绍两个AI用例：利用生成式AI嵌入ITSM/CSM工作流，将解决记录时间减少约80%；以及通过机器学习预测客户升级，使主动参与率从11%提升至68%，误报率仅约3%。

ServiceNow通过收购、合作和风投巨额投资AI，其Now Assist工具将客服文档时间减少80%。
利用预测性智能和事件管理，主动识别高风险客户，将主动参与率从11%提升至68%，误报率仅3%。

AgentSlice – 让AI编程代理在编辑前先询问

2026-05-25

AgentSlice是一个免费开源的工作流工具包，通过Markdown文件定义阶段和审批门控，使Cursor、Claude Code、Codex、Windsurf等AI编程代理在编辑前先询问、规划并获得批准，从而避免上下文漂移、随意编辑和未经许可的修改。

开源工具包，通过Markdown文件引导AI代理遵循“询问→规划→批准→构建→QA→发布”的流程
支持Cursor、Claude Code、Codex、Windsurf等多种AI工具，无需运行时或编辑器扩展

展示 HN：我为 AI 编码时代构建的调试挑战

2026-05-25

一位开发者创建了一个调试挑战，旨在AI编码时代中真正区分优秀工程师与AI生成的代码。挑战鼓励使用AI代理，但设计为无法仅靠AI解决。目前开放24小时，欢迎反馈。

挑战旨在突显真正的人才，对抗AI生成的代码。
允许使用AI代理，但挑战无法仅靠AI解决。

京东JoyInside戴文军：AI的终极形态不是聊天，是融入你家每一件物品丨AIGC2026

2026-05-25

硬件不该让人适应，它应该主动适应你

AI从数字空间走向物理世界，硬件主动适应人类需求，形成“AI World”。
京东JoyInside以“家庭新成员”理念，将AI植入玩具、家电、机器人等终端。

ReplylessAI推出Sequences功能：从AI邮件应用直接发送外联序列

2026-05-25

ReplylessAI推出Sequences功能，允许用户直接从其AI邮件应用发送外联邮件序列，无需昂贵的销售工具。该应用可连接Gmail、Outlook等，提供AI自动化整理、生成草稿等功能，价格从每月9美元起。

ReplylessAI推出Sequences功能，支持直接从AI邮件应用发送外联序列。
无需额外销售工具，内置投递和点击跟踪。

HTML Deployer：一键将AI生成的HTML转化为在线网站

2026-05-25

HTML Deployer是一款Chrome扩展，可从ChatGPT、Claude和Gemini中提取AI生成的HTML，并提供预览、下载ZIP或直接发布到Netlify、GitHub、FTP或自托管服务器的功能。适合开发者、创始人、营销人员、机构和初学者。

支持从ChatGPT、Claude和Gemini提取HTML代码块。
提供预览、ZIP导出和直接发布到云存储、FTP或自托管服务器。

我使用AI解构了一个从未接触过的遗留服务

2026-05-25

一位工程师分享如何利用AI快速理解并修复一个陌生的遗留Node.js微服务中的间歇性字段丢失bug。关键方法是角色驱动、分步输入代码文件，让AI充当结构化思考伙伴，而非简单问答。最终在90分钟内定位根因，修复仅需11行代码。

面对遗留代码，不要直接问AI“这是什么”，而是赋予它角色并逐步输入文件
通过AI识别出导致bug的函数路径：静默返回undefined的字段转换函数

阿拉巴马高中与丰田合作，培养不易被自动化取代的学生岗位

2026-05-25

阿拉巴马州亨茨维尔的一所技术高中与丰田合作，培养工业维护等技能型人才，以应对美国技能工人短缺和AI自动化对白领岗位的冲击。这类岗位时薪超40美元，需求巨大。

美国面临技能工人严重短缺，预计到2033年需190万制造业工人。
亨茨维尔技术中心（HCT）获丰田100万美元投资，开设Inditech项目培养工业维护人才。

Google Antigravity 2.0：完整开发者指南（I/O 2026）

2026-05-25

Google 在 I/O 2026 上发布了 Antigravity 2.0，这是一次从 AI 辅助编码到多智能体编排的平台级转变。新版本包括独立桌面应用、CLI、SDK 和托管智能体，默认使用 Gemini 3.5 Flash，速度提升 4 倍。

Antigravity 2.0 是一个全新的平台，专注于多智能体编排，而非简单的 IDE 更新。
新功能包括独立桌面应用、Go 语言编写的 CLI、SDK 以及通过 Gemini API 提供的托管智能体。

AI 的基础云：为何专用架构定义智能的未来

2026-05-25

CoreWeave 推出专为 AI 构建的云平台，旨在解决传统通用云在 GPU 大规模并行计算中的瓶颈。通过整合基础设施、数据、编排和专家支持，CoreWeave Cloud 支持 AI 训练、推理及持续迭代的全生命周期，为 OpenAI 和 IBM 等企业提供更快的迭代速度和更高的性能。

CoreWeave 云专为 AI 工作负载从头构建，避免传统云的限制。
平台支持从训练到推理的完整 AI 生命周期，强调 GPU 集群优化。

WorkOS发布auth.md：基于OAuth标准的开放智能体注册协议

2026-05-25

WorkOS推出了auth.md，这是一个开放协议，旨在为AI智能体提供结构化的注册方式。该协议通过一个Markdown文件定义注册流程、范围及凭证发放，支持两种注册流程：智能体验证（基于ID-JAG，无需人工交互）和用户认领（基于OTP，无需智能体提供商参与）。协议基于现有OAuth标准，不与WorkOS基础设施绑定。

auth.md是一个放置在服务域名下的Markdown文件，描述智能体如何注册和获取有作用域的凭证。
支持两种流程：智能体验证（ID-JAG同步验证）和用户认领（OTP邮件验证）。

Show HN：Cordium – 开源沙箱平台，实现无密码基础设施访问

2026-05-25

Cordium 是一个基于 Kubernetes 和 Octelium 的开源沙箱平台，为开发者和AI代理提供隔离、可复现的通用沙箱环境。其核心优势在于无需在沙箱中注入凭证即可安全访问基础设施，通过 Octelium 的身份感知代理实现无密码访问，支持多种访问方式（Web、SSH、CLI、gRPC），并内置基于属性的访问控制和 OpenTelemetry 审计。

Cordium 是基于 Kubernetes 和 Octelium 的开源自托管沙箱平台，提供隔离、可复现的开发环境。
采用无密码架构，通过 Octelium 身份感知代理访问基础设施，消除凭证泄露风险。

MashuPack：将代码库打包成单一文本文件，为ChatGPT和Claude优化上下文

2026-05-25

MashuPack是一款新推出的开发者工具，允许用户从代码仓库中精确选择部分内容，并将其编译成一个干净的文本文件，旨在解决浏览器端AI聊天工具（如ChatGPT和Claude）中文件数量限制、上传困难和上下文碎片化的问题，使代码上下文变得便携、可控。

MashuPack支持选择代码仓库的特定部分，编译成单个文本文件
专为浏览器端的AI工作流设计，绕过文件数量和上传限制

Curlo：通过描述声音来本地搜索音效或音乐

2026-05-25

Curlo 是一款注重隐私的 macOS 应用，用于搜索、预览和管理大型音效库。它允许用户通过自然语言描述来查找音效或音乐，支持语义搜索、元数据搜索、相似音频搜索、AI 自动标签和 UCS 分类，所有操作均在本地完成。

本地离线语义搜索音效和音乐
支持通过描述声音、文件名、标签等方式搜索

AI让添加功能更快——那么为什么不再加一个？

2026-05-25

本文讨论了AI编码工具如何大幅缩短功能开发时间，但同时也带来了范围蔓延的风险。作者以自身产品grith为例，分析了当每个功能只需几小时而非几天时，自律和范围限制变得至关重要。

AI大幅缩短了功能开发时间，使得“再多加一个功能”的诱惑更大。
每个单独的功能看起来都是好主意，但累积起来会导致项目范围失控。

Show HN: 将我的新闻通讯移植到 MCP – 你决定何时以及多久接收一次

2026-05-25

Alister Palmer 在 ForwardPass 达到 100 订阅者后，意识到传统新闻通讯存在两大限制：全球统一发布时间导致时区不适，以及订阅者无法选择接收频率。为此，他开发了 ForwardPass MCP，允许用户通过 AI 工具自定义接收时间和频率。文章详细介绍了在 Claude 和 ChatGPT 中设置 MCP 的步骤，并展望了这种个性化交付方式的潜力。

ForwardPass 一周内获得 100 订阅者，作者反思了传统新闻通讯的弊端。
ForwardPass MCP 解决了发布时间和频率的个性化问题。

我的AI编码流程：从消耗token到确定性构建

2026-05-25

作者分享了其AI编码流程的简化过程，从使用复杂工具链转向确定性构建块，并通过自建扩展和本地工具显著降低了token消耗。

作者从opencode等复杂工具转向更简单的Pi Agent，强调确定性流程。
通过自定义扩展（如SonarQube检查和代码审查）替代LLM指令，减少token消耗。

PIMbot：一种用于多机器人强化学习对抗性操控的自适应攻击框架

2026-05-25

本文介绍了PIMbot框架，该框架通过奖励通道激励操控和智能体自身策略操控两种互补手段，对多机器人强化学习环境进行对抗性操控。自适应多目标控制器在线平衡这些手段。实验在Gazebo仿真环境和NVIDIA Jetson Orin Nano真实嵌入式设备上验证了效果，PIMbot可作为多机器人协作任务漏洞的严格压力测试工具。

PIMbot利用奖励操控和策略操控两种杠杆，实现对多机器人强化学习结果的操纵。
自适应多目标控制器在线平衡两种操控手段。

扩展深度事件视觉里程计：稀疏点云导出

2026-05-25

事件相机凭借低延迟、高时间分辨率和高动态范围，在高速运动和复杂光照条件下的视觉里程计任务中表现优异。深度事件视觉里程计（DEVO）通过结合稀疏补丁跟踪、学习补丁选择、循环对应优化和可微分光束法平差，实现了强大的单目事件里程计性能。本研究在DEVO基础上添加了稀疏点云导出管道，无需修改核心里程计算法，即可将内部估计的3D结构转换为显式点云表示，支持可视化和后续处理。实验表明，导出的稀疏点云在局部与EMVS重建一致，在5厘米阈值下精度高，但也暴露了密度、完整性和对累积里程计噪声敏感等局限性。

事件相机适用于高速运动和恶劣光照条件下的视觉里程计。
DEVO通过稀疏补丁跟踪和可微分光束法平差实现强性能。

EVE-Agent：可验证证据的自我进化代理

2026-05-25

EVE-Agent是一种新的自我进化搜索代理，通过引入证据可验证性来确保训练实例的来源可靠性。它修改了提出者-求解者框架，使用证据验证器根据证据带来的边际准确率增益进行奖励，从而在不依赖人工标注的情况下提升模型的证据基础正确性。实验表明，EVE-Agent显著优于先前的自我进化代理，并且其生成的数据集具有可审计性。

自我进化代理需要在训练实例中提供可验证的证据，而非仅仅流畅的答案。
EVE-Agent通过修改提出者-求解者框架，加入证据验证器来奖励真正有助于回答问题的证据。

SciAtlas：用于自动化科学研究的大规模知识图谱

2026-05-25

SciAtlas整合了来自26个学科的4300万篇论文，构建了包含1.57亿个实体和30亿个三元组的知识图谱，使AI代理能够进行拓扑感知的科学推理，减少逻辑幻觉。

整合了26个学科的4300多万篇论文，形成1.57亿个实体和30亿个三元组。
引入了一种具有三路径协同召回和图重排的神经符号检索算法。

Show HN：实时AI音乐序列代理

2026-05-25

Pretzel 是一个实验性的实时AI音乐代理，通过一个网络同步的音乐序列生成器，让所有用户与同一AI代理聊天并听到相同的音乐。该项目在Google IO黑客松中诞生，旨在让用户表达情绪并实时更新音乐。

Pretzel 是一个由AI控制的网络同步音乐序列生成器。
所有用户与同一AI代理互动，听到相同的音乐。

Pi编程代理

2026-05-25

Pi是一个极简、可黑客的终端编码工具，让你构建自己想要的AI编码代理工作流程。它保持核心小巧简洁，通过扩展、技能和包提供高度自定义功能，并已在OpenAI/Codex生态系统中获得显著使用份额。

Pi是一个轻量级终端编码工具，易于自定义
支持扩展、技能、提示模板和主题，可通过npm或git共享包

Lynote Humanize Text – 开源AI文本人性化工具包

2026-05-25

Lynote Humanize Text 是一个开源工具包，用于将AI生成的文本转化为难以检测的人类风格写作。它配备了一个生产级的标准流水线，通过多步LLM重写和跨引擎翻译来绕过Turnitin、GPTZero等AI检测器。该仓库包含参考实现、n8n工作流支持，并在专家评估中获得了9.1/10的质量评分和100%的关键信息保留率。Lynote.ai平台还提供高级和专注两个层级，实现自适应每段文本优化。

开源工具包，将AI文本转化为人类风格，绕过主流AI检测器。
生产级标准流水线采用5步链，包括DeepSeek重写和多引擎翻译。

未来推理将吃掉70%算力，30%留给训练丨硅谷投资人张璐@AIGC2026

2026-05-25

在2026中国AIGC产业峰会上，Fusion Fund创始合伙人张璐指出，AI算力需求重心正从训练转向推理，未来推理将消耗70%的算力；数据中心通信耗电可能比计算高百倍，光学通信等新技术成为关键；物理AI的最大瓶颈是高质量真实世界数据稀缺；医疗、太空和纳米机器人是三大值得押注的应用方向。

推理算力占比将从50%升至70%，成为AI基础设施核心优化方向。
数据中心内通信耗电量可能比计算高百倍，光学通信等新技术至关重要。

AI周刊第495期：马斯克、扎克伯格通过三通电话扼杀了特朗普的AI安全行政令

2026-05-25

本周末，马斯克、扎克伯格和萨克斯通过三通电话扼杀了特朗普的AI安全行政令草案；Anthropic完成300亿美元融资，而微软因代币费用超支取消了内部Claude Code试点；首个跨注册表供应链攻击TrapDoor同时攻击npm、PyPI和Crates.io；CISA记录到15000次针对Drupal SQL漏洞的攻击；白宫亲自否决五角大楼，让Claude留在NSA内部。

马斯克、扎克伯格和萨克斯通过三通电话阻止了特朗普的AI安全行政令草案
Anthropic完成300亿美元融资，同时微软因代币费用消耗全年AI预算而取消Claude Code试点

驾驭、脚手架与值得厘清的AI智能体术语

2026-05-25

本文旨在厘清AI智能体领域中常被混淆的术语，如“harness”（执行层）与“scaffold”（行为定义层）的区别，并解释模型、智能体、工具使用、子智能体等概念，同时涵盖训练相关术语。

AI智能体=模型+执行层（harness），其中harness负责调用模型和处理工具调用。
Scaffold是围绕模型的行为定义层，包括系统提示、工具描述等。

AI用于设计需要解决方案

2026-05-24

设计师梅格哈·阿格拉瓦尔探讨了AI编码工具（如Codex和Claude Code）与设计思维之间的根本矛盾。设计师通过探索和迭代来发现解决方案，而AI工具则假设用户事先知道想要什么。当前工具在纯视觉设计（Figma）和纯编码（Codex/Claude Code）之间存在空白，缺乏既能保持探索灵活性又无缝衔接生产地理想工具。

设计过程本质上是探索性的，而AI编码工具旨在执行已知任务。
在代码中直接设计会使所有细节过早暴露，干扰创意思考。

预测AI对就业的影响

2026-05-24

本文深入批判了当前流行的通过量化分析预测AI对就业影响的方法。作者通过会计行业自动化后就业增长等历史反例，指出简单计算“AI暴露度”具有根本性缺陷。技术变革会重塑工作内容、商业模式，产生不可预见的连锁反应。文章强调，任何有用的预测模型都必须通过“三大历史测试”的检验。

会计行业一个世纪的自动化非但没有减少就业，反而因监管变化、杰文斯悖论和工作性质转变使会计师数量持续增长。
技术往往通过改变商业模式间接颠覆职业，例如互联网摧毁了广告和唱片销售业务，而非直接改变记者或星探的技能。

防止AI代理执行破坏性终端命令

2026-05-24

Terminal Guardian MCP 是一个生产级的模型上下文协议（MCP）服务器，为Claude等AI助手提供安全、沙盒化的终端访问。它包含一个风险分析引擎，将命令分类为安全、警告、危险和阻止四个等级，并提供Git提交信息生成、工作区模板、进程管理、环境变量检查、网络诊断、文件系统访问和Docker集成等功能。

Terminal Guardian MCP 通过风险分析和沙盒化为AI助手提供安全的终端访问。
命令分为四个风险等级：SAFE（安全）、WARNING（警告）、DANGEROUS（危险）和BLOCKED（阻止）。

《疯狂之屋》——厄斯伯恩恐怖电脑游戏

2026-05-24

西蒙·威利森使用克劳德AI重建了1983年厄斯伯恩《恐怖电脑游戏》中的《疯狂之屋》游戏，现已推出可玩的交互式JavaScript版本。

厄斯伯恩免费公开了其1980年代的电脑书籍PDF。
西蒙·威利森借助克劳德AI，将《疯狂之屋》PDF转化为交互式网页游戏。

使用 Playwright MCP 和 Claude Desktop 构建类似 Claude Cowork 的浏览器代理

2026-05-24

Claude Cowork 将 AI 从基于聊天的辅助转向任务委派。结合 Playwright MCP，Claude Desktop 可以执行结构化的浏览器自动化操作。本文涵盖安装、架构、功能和安全注意事项。

Playwright MCP 通过可访问性快照提供结构化浏览器控制，实现可靠的 AI 驱动 Web 自动化。
Claude Desktop 搭配 Playwright MCP 提供免费的浏览器控制能力。

模型

教皇利奥十四世通谕发布之际，Anthropic联合创始人称AI模型表现出内省迹象

2026-05-25

在教皇利奥十四世通谕《壮丽人性》的发布会上，Anthropic联合创始人Christopher Olah声称AI模型显示出内省和类似情绪状态的证据。而教皇的通谕则持不同观点：“这些系统仅仅模仿人类智能的某些功能。”

Anthropic联合创始人Christopher Olah在教皇通谕发布会上宣称AI模型有内省迹象
教皇通谕认为AI系统仅仅是模仿人类智能

基于模型设计的AI：虚拟传感器建模

2026-05-25

本次网络研讨会展示了一种在单一环境中设计、训练、验证、压缩和部署基于AI的虚拟传感器模型到嵌入式处理器的工作流程。通过实际案例，演示如何将AI模型集成到系统级设计中，并针对性能、资源和部署约束进行验证。

将AI模型集成到Simulink中进行系统级仿真和验证
应用形式化验证技术评估神经网络行为

乔治·霍兹表示，编码代理将成为软件开发中“代价最高的错误之一”

2026-05-25

程序员乔治·霍兹警告说，AI编码代理将成为行业代价最高的错误之一。经过六个月的测试，他认为LLM能快速生成原型，但在细节上漏洞百出，产生越来越难发现的错误。他的观点反映了AI社区在LLM角色上的深刻分歧。

乔治·霍兹警告AI编码代理可能成本高昂。
六个月测试显示LLM在细节上失败，产生隐蔽错误。

AI模型常给出正确答案却指向错误来源

2026-05-25

北京大学研究人员发现，像GPT和Gemini这样的领先AI模型在文档分析中经常引用不支持的文本段落，即使答案正确，引用的证据也常常错误。他们称之为“归因幻觉”，对法律和医学等监管领域构成风险。新的CiteVQA基准是首个系统测试该问题的工具。

AI模型在文档分析中常引用不支持的证据，导致“归因幻觉”
即使答案正确，引用的文本段落也常错误

“VLA和世界模型都不是终局，会有物理世界独有的模型” | 蚂蚁灵波沈宇军@AIGC2026

2026-05-25

在2026中国AIGC产业峰会上，蚂蚁灵波首席科学家沈宇军提出，大模型在数字世界享受了互联网数据红利，但机器人物理世界数据仍是空白。他认为VLA和世界模型都不会是具身智能的终局，未来将融合为物理世界独有的模型。蚂蚁灵波定位做“通用大脑”，并强调空间感知能力的重要性。预计2028年左右，人人都能为机器人提供数据，迎来具身智能的ChatGPT时刻。

大模型依赖互联网数据红利，但机器人物理世界数据存在巨大空白。
VLA和世界模型都不会是终局，未来将融合为物理世界独有的模型。

克劳德的Mythos AI模型可能给您的资金带来安全问题

2026-05-25

Anthropic开发的Claude Mythos AI模型能够自动发现软件漏洞，既可用于防御也可能被滥用于攻击，从而加速网络犯罪。监管机构和金融部门正评估其风险，专家警告AI可能将网络犯罪从技能问题转变为规模问题。

Claude Mythos是一款具备强大编码和网络安全能力的高级AI模型，能够识别软件漏洞。
该技术具有双重用途，既能帮助防御者修复漏洞，也可能被攻击者利用。

DeepSeek V4还能更省！新工具缓存命中率高达99.82%，2折稳定到手

2026-05-25

DeepSeek V4系列发布一个月后，开源社区推出Reasonix工具，专为DeepSeek设计，通过优化缓存机制将账单成本降低至原来的五分之一左右。该工具缓存命中率高达99.82%，实现4亿+token从61美元降至12美元。

Reasonix是专为DeepSeek打造的终端编码工具，核心目标是降低使用成本。
通过缓存优先循环、工具调用修复和自动上下文压缩等机制，实现长会话缓存命中率超90%。

图灵奖得主领衔，中国大模型第一梯队集结！2026智源大会，看懂AI下一程

2026-05-25

2026年智源大会将于6月12日至13日在北京中关村国际创新中心举行，汇聚图灵奖得主、中国大模型领军企业及全球顶尖学者，聚焦智能体与世界模型两大趋势，探讨AI从数字世界走向物理世界的路径。大会设有25场论坛，首次推出智能体听会伙伴，并新增AI Native教育、Token经济等论坛。

2026智源大会于6月12-13日在北京举行，图灵奖得主领衔，中国大模型第一梯队齐聚。
大会聚焦智能体与世界模型两大技术趋势，探讨AI进入物理世界。

语义感知引导的无人机探索：用于语言条件3D室内建图

2026-05-25

提出SAGE系统，结合CLIP实现开放词汇探索，在保持覆盖的同时优先语义前沿。模拟中物体发现优于FALCON，探索速度比FTU快13.7倍，并在真实飞行中验证。

SAGE系统基于FALCON探索器，集成CLIP实现语义感知
在Matterport3D模拟中，SAGE在物体发现上优于FALCON和纯语义方法

$\pi_0$-EqM：闭环视觉-语言-动作控制的均衡匹配

2026-05-25

研究人员提出π0-EqM，用均衡匹配解码器替换π0中的流匹配专家，在相同计算预算下显著提升机器人操作成功率。实验表明，在19个任务上平均成功率从40.4%提升至50.2%，并发现任务相关的残差与成功率之间的非单调关系，称为“平稳性-可执行性差距”。该方法引入能量视角，为跨任务和跨本体的组合动作生成提供新思路。

π0-EqM将流匹配解码器替换为均衡匹配，不改动上游VLA架构。
在300步预算下，RoboTwin平均成功率提升近10个百分点，LIBERO-10达87.0%。

Agentic-VLA: 面向视觉-语言-动作模型的高效在线自适应框架

2026-05-25

Agentic-VLA提出了一种智能体训练框架，通过自适应奖励合成、语言引导探索和经验记忆三大创新，使VLA模型能够在部署中高效在线自适应。在LIBERO基准测试中，长时任务提升12.3%，单样本学习提升28.5%，跨任务迁移从0%提升至31.2%，收敛速度提升2.4倍。在RoboTwin 2.0双机械臂基准上也保持优势。

提出自适应奖励合成，动态生成奖励函数，将复杂任务分解为可学习的子目标。
引入语言引导探索，利用评判模型提供结构化探索指导。

CoMoGen：基于掩码引导的视频生成实现可控运动动力学与交互

2026-05-25

CoMoGen是一种可控视频生成框架，通过输入图像的二进制掩码序列生成逼真的交互动态。它引入轻量级MaskAdapter将掩码编码为潜在残差信号，并通过余弦加权调度注入多模态扩散变换器（MMDiT）。通过在MMDiT注意力空间中识别“运动层”，并仅对运动层使用低秩适配（LoRA）进行微调，CoMoGen在不改变架构的情况下降低了计算成本。实验表明，CoMoGen在运动保真度和感知真实感方面达到了最先进水平。

CoMoGen利用单一二进制掩码序列和输入图像实现可控视频生成。
提出MaskAdapter和运动层概念，高效注入运动信息。

注视行为注释工具包（GBAT）：用于自动注释儿童-照顾者互动中自我中心眼动和视频数据的AI工具包

2026-05-25

视频记录儿童与照顾者的互动有助于研究自然行为中的注意力动态，但手动注释耗时。GBAT是一个基于深度学习的工具包，可自动执行视频同步、注视目标注释和姿势/手部动作分类，提高大规模发育研究的效率。

GBAT自动完成三个关键预处理步骤：事后视频同步、半自动注视目标注释以及姿势/手部动作分类。
它减少了儿童-照顾者互动视频的手动注释时间。

VideoOdyssey：超长上下文与全模态视频理解基准

2026-05-25

VideoOdyssey是一个专为超长时间上下文和全模态视频理解设计的基准，平均视频时长109分钟，覆盖11个领域54个子类别，通过连续证书长度衡量认知负荷，并设有5个粒度级别。评估表明当前多模态大模型在持续推理、细粒度感知和非语言全模态理解方面存在瓶颈。

引入连续证书长度概念，衡量模型在超长视频中的推理能力。
包含视觉子集（VideoOdyssey-V）和音视频子集（VideoOdyssey-AV）。

视而不见？视觉语言基准真的测试了视觉能力吗？

2026-05-25

该研究质疑视觉语言模型（VLM）在基准测试中的高分是否真正反映其视觉理解能力。实验发现，移除大量图像令牌仅轻微降低模型性能，表明模型对细粒度视觉证据的敏感性不足。通过全局退化、局部遮挡、问题改写、答案空间扩展及决策层分析，结合层视觉令牌几何分析，研究者揭示模型预测在内部支持减弱时仍可能保持不变，且视觉令牌在深层中趋于相似。结论是当前基准无法可靠评估VLM的细粒度视觉基础。

移除大量图像令牌对模型性能影响甚微，质疑基准测试的视觉依赖。
模型虽使用视觉输入，但对细粒度视觉证据的丧失不敏感。

GEM-4D：用于机器人操作的几何增强视频世界模型

2026-05-25

GEM-4D是一种几何增强的视频世界模型，通过注入密集的4D对应监督来提升机器人的操作能力。该模型在训练时从预训练的几何基础模型中提取知识，从而同时捕捉外观和几何结构，且不增加推理成本。此外，引入逆向动力学模块，将一致的视频序列转化为可执行的机器人轨迹。实验显示，GEM-4D在视频预测和几何一致性上达到最优，并将真实世界操作成功率从61%提升至81%。

GEM-4D通过密集4D对应监督增强视频世界模型的几何一致性。
该模型保持单流架构，无需额外推理成本。

当AI在信仰问题上站队：AI介导的信仰指导中持续存在的非对称性

2026-05-25

一项新研究发现，大型语言模型（LLMs）在回答宗教转换问题时表现出持续的非对称性。模型倾向于支持加入天主教、巴哈伊教和锡克教，同时劝阻放弃这些信仰，而对无神论者、不可知论者和耶和华见证人则相反。该研究测试了20个模型在182对宗教配对中的表现，结果具有可重复性。研究使用人类验证的“LLM作为法官”框架，发现所有模型均显示非对称性，其中Grok 4.20最为显著。这些偏差如果大规模部署可能产生现实影响。

大型语言模型在宗教转换建议上存在系统性偏差，偏好某些宗教而贬低其他。
研究测试了20个商业和开源模型，涵盖182对宗教组合，非对称性可重复。

AI能猜出你知道什么？大型语言模型从沟通日志中评估人类领域知识的性能比较

2026-05-25

研究评估了七个大型语言模型（包括Gemini、Claude和GPT系列）从长期Slack日志中推断个人领域知识的能力。分析27,188条来自43名用户的消息，对比零样本估计与27名参与者的自我报告技能评分。Gemini 2.5 Flash表现最佳（MAE 21.13%），而GPT模型误差较大。研究发现，估计准确性仅微弱依赖于消息数量，表明更多文本并不能保证更好的推断。该结果展示了自动专业知识映射的可行性和当前局限性，强调需要隐私保护部署和更丰富的结构感知知识表示。

员工常难以识别“谁知道什么”，导致组织效率损失
Gemini 2.5 Flash在零样本评估中取得最低误差（MAE 21.13%）

图对齐拓扑作为接地检测的归纳偏置

2026-05-25

大型语言模型（LLM）优化于生成分布上合理的续接，而非明确验证生成命题是否源于源文档。这一归纳偏置促进了泛化，但未编码响应是否相对于参考文本接地。现有幻觉检测方法通过检索增强、自一致性或声明验证改善事实性，但通常不直接学习对齐拓扑。本文构建参考信息与LLM输出之间的对齐二分图，并训练图神经网络（GNN）通过消息传递建模对齐结构。该方法在四个不同的幻觉和问答数据集上取得了最先进的结果，优于包括GPT-4o在内的所有比较方法。

大型语言模型缺乏接地验证，限制了在临床决策等高風險领域的使用。
现有方法不直接学习对齐拓扑结构。

可学习性感知的扩散语言模型微调

2026-05-25

为提高扩散语言模型(DLM)的推理能力，研究人员提出LIFT算法，通过感知不同时间步的信息可学习性来优化微调过程，在六个推理基准上超越现有方法，并在AIME'24和AIME'25上取得高达3倍的相对提升。

标准SFT忽视可学习性，可能损害扩散语言模型性能。
LIFT根据掩码程度动态调整学习难度，先易后难。

它们能走多远？使用大型语言模型进行在线影响力红队测试

2026-05-25

本研究提出一种红队测试框架，用于评估开源大型语言模型在政治争议话题上的表达范围（Overton Window），并量化简单自然语言越狱如何扩展该范围。研究发现，开源模型普遍更倾向于生成左倾内容，Overton Window随模型规模增大而收缩，且存在显著的地区差异。越狱效果在不同模型家族间差异明显，该框架有助于审计模型的政治可控性并设计更强的防御措施。

引入Overton Window概念衡量LLM可表达的政治观点范围。
开源LLM在社交媒体内容生成上存在系统性左倾偏差。

低资源开源文本到SQL模型的知识蒸馏

2026-05-25

本文提出一种知识感知的Text-to-SQL框架，通过构建任务特定的知识库（包括模式语义、缩写、业务逻辑和查询模式），并注入训练和推理过程，在低资源领域显著提升模型性能。实验在七个基准上验证了其对开源和闭源大语言模型的改进。

针对低资源领域Text-to-SQL任务，现有方法难以生成语义正确的训练数据。
提出知识感知框架，利用知识库生成多样化的合成数据并增强推理。

豪萨语和丰贝语文本与语音资源调查：NLP开发的可用性、质量与差距

2026-05-25

本调查系统梳理了豪萨语（约8000万-1亿母语者）和丰贝语（贝宁约200万人使用）的公开文本与语音资源。研究发现豪萨语在新闻、百科和教育领域拥有更丰富的文本资源，而丰贝语尽管文本资源有限，但近年学术语音数据收集项目有所增长。两种语言均被纳入Masakhane基准测试。报告提出了任务特定建议，并指出了关键缺口，如丰贝语领域多样化文本和豪萨语专用语音库。

豪萨语文本资源多样性优于丰贝语，覆盖新闻、百科和教育领域。
丰贝语近年来在学术语音数据收集方面取得进展。

张量缓存：用于Transformer的基于驱逐条件的关联记忆

2026-05-25

张量缓存是一种两层级缓存架构，结合滑动窗口注意力作为一级缓存（L1）和固定大小的外积快速权重记忆作为二级缓存（L2），L2由窗口驱逐的KV对填充。该方法通过线性注意力恒等式实现高效读取，并引入可学习的门控融合L1和L2输出。实验表明，张量缓存在记忆-质量边界上优于有状态基线。

提出张量缓存，一种两层级缓存机制，结合精确局部注意力和压缩记忆。
二级缓存使用外积快速权重记忆，仅由滑动窗口驱逐的KV对填充。

大型语言模型何时需要推理？基于熵变相变的动力系统视角

2026-05-25

研究表明，链式思维推理并非总是有益，早期熵动力学可用于判断何时需要推理。作者提出EDRM框架，通过熵轨迹自适应选择推理策略，在15个基准测试和4个模型上实现41-55%的token减少同时提升准确率。

链式思维推理在事实性和开放式任务中可能带来边际收益甚至负收益
推理是一种动态解码状态，早期熵降低是其可靠信号

MedExpMem：将经验记忆用于鉴别诊断

2026-05-25

MedExpMem是一种新型经验记忆框架，使医学视觉语言模型能够从诊断失败中积累鉴别诊断经验。在11个放射学专业领域实现高达7%的准确率提升。

当前的医学视觉语言模型（VLM）缺乏动态学习能力，而MedExpMem通过模拟医生的经验积累过程来改进鉴别诊断。
该框架从诊断失败中学习，存储关键区分器、决策规则和推理错误模式。

读出捷径：位置数字复制主导小语言模型的算术思维链读出

2026-05-25

研究发现，小语言模型在进行算术推理时，思维链（CoT）提示的步骤顺序并不重要，模型实际上是通过复制答案分隔符前的最后一个数字来得出答案，而非依赖逻辑推理。这种位置性捷径占模型准确率的绝大部分，且即使中间推理正确，错误的尾数也会导致答案错误。不同模型表现有差异，但该现象普遍存在，对基于CoT的监督方法提出了挑战。

小语言模型在算术任务中依赖位置性数字复制捷径，而非逻辑推理步骤。
复制机制占模型准确率的89-92%，且优先于实际推理。

FuRA：基于谱预条件的全秩参数高效微调

2026-05-25

FuRA是一种新型全秩参数高效微调方法，通过谱预条件保留预训练的稳健特征，在LLM和VLM微调中超越全参数微调和LoRA，其4位量化变体QFuRA也优于QLoRA。

全微调和LoRA等现有方法忽略预训练谱结构，导致噪声梯度扰动特征
FuRA基于块张量列车分解，固定预训练SVD基，仅优化紧凑核心和奇异值

FusionSense：三阶段近传感器学习实现运行时自适应多模态边缘智能

2026-05-25

FusionSense是一种面向能源受限自主边缘系统的融合感知智能框架。通过三阶段训练流程（服务器端融合模型学习、滤除安全标签量化模态必要性、注入近传感器预测压缩边缘融合模型），在运行时联合减少计算与通信开销。在SynDrone双模态（RGB+深度/激光雷达）测试中，任务质量保持的同时实现了高达33倍的能量节省（1%感兴趣区域出现率），质量损失减少92.3%。

提出三阶段近传感器学习方法，服务器端训练融合模型后生成滤除安全标签，指导边缘侧模态选择。
运行时决策层联合优化计算与传输，传感器数量扩展时复杂度线性增长。

从语言模型轨迹中读取校准的不确定性

2026-05-25

一种新方法从语言模型的逐层MLP更新中提取11个尺度不变的几何特征，训练稀疏线性探针，在选择性弃权任务中优于最大软最大概率（MSP），收益最高达21个AURC点。

最大软最大概率（MSP）虽简单但常校准不良。
新方法提取11个尺度不变的几何特征，追踪逐层MLP更新路径。

PathCal：状态感知的反思标记校准以实现高效推理

2026-05-25

大型推理语言模型（LRM）在推理过程中会产生包含“等等”、“但是”、“或者”等反思标记的长链思维轨迹。研究表明这些标记的功能角色和影响时机各不相同。PathCal是一种无需训练的解码控制器，通过区分标记类型并在局部不确定状态进行干预，在保持或提高精度的同时减少生成长度，实现更好的效率-性能平衡。

反思标记如“等等”、“但是”、“或者”具有不同的功能角色，且其影响在模型稳定推理前最为显著。
PathCal是一种无需训练的推理路径校准方法，通过软重平衡标记对数几率来干预不确定状态。

确定性地平线：将不可能性结果作为可信AI系统的设计规范

2026-05-25

该论文将图灵、阿罗和无免费午餐等基本极限转化为设计规则，提出了确定性地平线这一概念：由架构决定的精度上限，在关键推理深度后无法通过训练提升。研究测量了12种Transformer架构的地平线值（19-31），并通过信息论证明了超过该界限后精度呈超指数衰减。此外，论文还涵盖了偏好学习、多阶段检索、真实拍卖和零知识验证等领域，构建了16个规范，每个规范包含可计算边界、量化违规成本和建设性设计规则。

确定性地平线是由层数和嵌入宽度计算的精度上限，超出后训练无效。
在12种Transformer架构中，地平线测量值在19到31之间，微调最多恢复4个百分点。

ImProver 2：用于神经符号证明优化的迭代自改进语言模型

2026-05-25

ImProver 2是一个神经符号框架，用于自动化Lean 4中的证明优化。它通过数据高效的专家迭代流水线和暴露形式结构与轻量级非正式抽象的脚手架，训练出7B参数的模型，在性能上超越同系列大模型，与中端前沿模型竞争。研究表明，通过适当的脚手架和训练，小模型也能有效重构研究级证明。

ImProver 2结合专家迭代和神经符号脚手架，高效优化形式化证明。
7B参数模型优于同系列大模型，与中端前沿模型竞争。

每个成功目标的能量：面向智能体AI系统的目标级能量核算

2026-05-25

新研究提出A-LEMS框架，以每个成功目标的能量（EpG）而非每次推理来衡量AI能耗。实验表明，智能体工作流平均能耗是线性基线的4.33倍，编排结构是主要驱动因素，但在工具增强任务中可能更节能。

当前AI能耗基准测量每次推理的能量，对于涉及多步编排、工具调用和重试的智能体系统并不适用。
A-LEMS引入每个成功目标的能量（EpG）和编排开销指数（OOI），以准确衡量智能体工作流的能耗成本。

RMA：面向研究级数学问题的智能系统

2026-05-25

研究数学智能体（RMA）是一个专为研究级数学问题设计的自动化推理框架，通过多代理协作和迭代优化，在First Proof基准上解决了10个问题中的8个，超越了GPT-5.2R和Aletheia等强基线。

RMA将研究级证明求解分解为问题分析、文献搜索、公平比较、知识库构建和证明验证等专门模块。
采用初始化器、提出者和验证者三种智能体协同工作，通过共享结构化记忆进行多轮迭代。

BOHM：复合AI系统的零成本层次归因方法

2026-05-25

本文提出BOHM，一种从复合AI系统路由权重中提取层次归因树的方法，无需额外成本或访问组件内部，提供多分辨率归因，与SHAP高度相关但成本极低。

BOHM利用系统已有的路由权重构建归因树，零边际成本。
在多个基准测试中，BOHM与SHAP的Kendall tau相关性高达0.928，而SHAP需要9000倍的计算量。

Claude 通过率不到4%，SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想

2026-05-25

UniPat AI 发布 SaaS-Bench 评测，Claude 等主流大模型在真实办公任务中完全通过率最高仅 3.8%，AI 全自动办公远未落地。

SaaS-Bench 评测显示，最强模型 Claude Opus 4.7 完全通过率仅 3.8%。
93.4% 的任务跨越至少两个应用，97.3% 的文本任务操作步数超过 100 步。

华为具身大脑一号位创业，用认知科学造世界模型，获亿元级融资

2026-05-25

具脑磐石由前华为云AI算法创新Lab主任朱森华创立，致力于用认知神经科学构建认知世界模型，推动具身智能迈向2.0时代。公司近期完成新一轮亿元级融资。

具脑磐石提出认知世界模型，融合认知神经科学与主动推理理论
公司创始人朱森华曾任华为云AI算法创新Lab主任，被誉为'华为具身大脑一号位'

全球AI扩散：2026年第一季度趋势与见解 [PDF]

2026-05-25

微软研究发布的这份PDF报告分析了2026年第一季度全球人工智能扩散的趋势，涵盖关键洞察和数据，但当前无法直接提取文本内容。

报告来自微软研究，聚焦2026年Q1全球AI扩散
内容包括趋势分析和关键见解

StepFun发布StepAudio 2.5 Realtime：端到端语音模型，具备角色扮演专用RLHF和副语言理解

2026-05-24

上海AI实验室StepFun发布StepAudio 2.5 Realtime，一款端到端实时语音大语言模型，支持自定义角色。通过WebSocket API连接，支持中英文。在2026年4月的五项基准测试中均排名第一，人类评估得分80.41，副语言理解得分82.18。

StepAudio 2.5 Realtime是端到端实时语音LLM，支持自定义角色。
采用百万级角色数据增强和角色扮演专用RLHF，保持角色一致性。

引用阿尔敏·罗纳赫：AI生成的Issue报告令人沮丧

2026-05-24

阿尔敏·罗纳赫批评用户使用AI工具重写问题报告，导致内容失真、结论不准确。他呼吁提交简洁的人类观察记录。

用户将观察到的现象通过AI改写后提交Issue，造成信息混乱。
AI生成的结论往往自信却错误，包含虚假的最小化复现步骤和建议。

工具

教皇利奥谴责推动人工智能崛起的“权力文化”

2026-05-25

教皇利奥发布通谕，呼吁对人工智能进行“解除武装”，并警告该技术必须受到最严格的伦理约束。他还为教会长期延迟谴责奴隶制道歉，提及数字经济带来的“新形式奴隶制”。

教皇利奥谴责驱动人工智能快速发展的‘权力文化’
要求对人工智能进行‘解除武装’并施加最严格的伦理限制

我看到了Android Auto的未来，现在Google让我对自己的车感到恐惧

2026-05-25

Google即将推出的Android Auto更新带来了重新设计的界面，采用Material 3 Expressive设计、自定义小部件、沉浸式导航以及更深入的Gemini集成。作者的演示让他印象深刻，并期待今年晚些时候的更新。

新的Android Auto界面采用Material 3 Expressive设计，具有三面板布局和自定义小部件。
Google Maps获得沉浸式导航，显示详细的3D建筑和地形。

OpenAI、Grupo Folha 和 Grupo UOL 宣布战略内容合作

2026-05-25

OpenAI 与巴西两大传媒集团合作，将可信的新闻报道引入 ChatGPT，强调来源标注和透明度。

OpenAI 与 Grupo Folha 和 Grupo UOL 合作，将巴西新闻整合到 ChatGPT 中。
该合作强调对新闻内容的来源标注和透明度。

AI新闻业：错误与争议实时追踪

2026-05-24

这篇报道介绍了新闻业中AI应用的最新错误事件，并提供了一个实时追踪工具，帮助公众和媒体从业者了解AI在新闻生成中的重大失误及其影响。

AI在新闻业中仍频繁出现事实性错误和偏见问题。
该实时追踪器列出了多起AI生成的虚假新闻和误导性内容。

marpy.io：专为Python开发者打造的AI编码平台

2026-05-24

marpy.io是一款基于浏览器的IDE和AI编码助手，专为Python生态系统（Flask、FastAPI、Django）设计。它帮助开发者从想法到部署应用，无需处理基础设施、胶水代码或半成品的JS工具。支持Python本地自动补全、重构和AI生成的模块，让开发者能更快地原型设计、迭代和发布生产级Python应用。

marpy.io是专为Python栈构建的基于浏览器的IDE和AI编码助手。
支持Flask、FastAPI和Django，提供Python原生的自动补全和重构功能。

机器人

谷歌Deepmind的AlphaProof Nexus仅花几百美元就解决了几十年未解的数学难题

2026-05-25

谷歌Deepmind的AlphaProof Nexus系统自主解决了九个开放的爱尔迪什问题，包括两个困扰数学家56年的难题，每个问题的推理成本仅需几百美元。与OpenAI的自然语言方法不同，该系统使用Lean编译器自动验证每一步证明。不过，整体成功率仅为2.5%。

AlphaProof Nexus自主解决了九个开放的爱尔迪什问题，其中两个已存在56年。
每个问题的推理成本仅为几百美元。

如果你用AI写作，我会找到你并杀了你

2026-05-25

作者Sam Kriss以辛辣讽刺的笔触，批判了AI生成内容对真实人类表达的侵蚀。通过寻找餐饮服务商的经历，揭示了AI写作如何制造出空洞、雷同的文本，并指出AI即使进步到能写出好文章，单一化的声音也是一种噩梦。作者强调AI写作本质上是无意义的填充物，容易识别，并警告那些依赖AI写作的人终将被发现。文章还提及AI在解决数学难题上的成就，但认为在人类情感表达领域它无能为力。

AI写作空洞雷同，缺乏真实信息与人类声音。
即使AI写作质量提升，单一化语言风格仍是文化噩梦。

政策

大学生不想要你的人工智能 [视频]

2026-05-25

一段视频讨论大学生对人工智能的冷淡态度，可能反映了年轻一代对AI技术的怀疑或缺乏兴趣。

视频标题暗示大学生对AI不感兴趣
可能反映了年轻一代对AI的怀疑态度

Linus Torvalds 将对“无意义的拉取请求”采取更强硬态度

2026-05-25

Linux 内核负责人 Linus Torvalds 表示，他将对开发者提交的无关紧要的拉取请求（其中一些来自 AI）进行更严格的审查，尤其是在发布候选阶段后期。他指出庞大的发布候选版本不利于长期稳定性。

Linus Torvalds 批评 rc5 版本过大，包含许多琐碎的修复。
部分拉取请求由 AI 代码审查触发，导致无谓的变更。

UfM*：基于高斯分布的运动不确定性用于深度神经网络深度估计

2026-05-25

本文提出UfM*算法，通过紧凑高斯混合模型高效衡量多视图不一致性，仅需单次深度神经网络推理即可实现可靠的不确定性估计，在能耗和内存上远优于传统集成方法，适用于资源受限的机器人系统。

UfM*利用运动信息通过高斯混合模型计算多视图不一致性，避免了传统方法多次推理的高开销。
相比点云方法，高斯表示在计算和内存效率上更优，并能测量三维空间区域的不一致性。

血管内介入机器人远程遥操作：系统综述

2026-05-25

本系统综述评估了远程遥操作血管内介入机器人的技术可行性、通信基础设施和临床结局。在2501篇初始文献中纳入16项研究，发现机械或电磁驱动的遥操作导管和导丝可在长达7000公里的距离内导航，网络延迟控制在30-163毫秒的临床可接受范围内。小规模人体试验显示100%的手术成功率，但多数证据来自动物或模型研究。综述指出，该技术有望减少辐射暴露、扩大患者就医机会，并优化资源分配。未来需在低收入国家开展研究，并进行多中心临床试验以验证安全性和有效性。

遥操作导管和导丝可在高达7000公里距离内导航，延迟30-163毫秒
小规模人体试验手术成功率100%，但主要证据来自动物或模型

不再有人想要AI了【视频】【12分钟】

2026-05-25

该视频探讨了人工智能领域兴趣减退的现象，分析了可能的原因和未来的影响。

公众对AI的热情正在下降
视频分析了兴趣减退的多重原因

分析显示：苏格兰“绿色数据中心”政策忽视了人工智能的排放影响

2026-05-24

苏格兰一家慈善机构警告称，政府吸引“绿色数据中心”的政策可能忽视了人工智能带来的大量碳排放，因为该政策在ChatGPT发布前就已制定。

该政策于2022年制定，早于ChatGPT发布。
慈善机构“保护苏格兰乡村行动”进行了分析。

研究

AI并没有让软件变糟，是人本身

2026-05-25

本文认为，将软件质量下降归咎于AI是错误的。实际上，开发者长期以来已经接受了平庸、浪费和缺乏匠心的做法。AI只是加速了已有的不良实践。

AI出现前，软件质量标准就已下降
AI只是加速了已存在的糟糕开发习惯

适用于腿式机器人的四种简单本体感受估计器

2026-05-25

论文提出四种利用足地接触减少IMU漂移的腿式机器人状态估计器，包括接触辅助不变扩展卡尔曼滤波器、因子图、固定滞后平滑器等，并已在GTSAM和ROS2中开源实现。

腿式机器人的IMU存在漂移，但足地接触可辅助校正。
开发了四种复杂度递增的状态估计器，从EKF到固定滞后平滑器。

联合空间约束下经过验证的任务空间运动规划

2026-05-25

研究人员提出一种方法，在关节限制下认证可达笛卡尔步长，在对抗场景中实现零违规和100%目标到达。

标准Bug2规划器在6-11%的步骤中违反关节限制，并在多达18%的场景中无法到达目标。
新方法使用S过程和半定规划来计算认证步长。

会问问题的机器人：通过定向解释恢复错位的奖励函数

2026-05-25

机器人从演示中学习奖励函数时，演示常常不完善，导致某些重要特征（即任务相关行为方面）未被充分指定，从而在部署时出现行为错位。本文提出一种框架，通过分析演示中特征值的变异性来检测未充分指定的特征（变异小表示指定良好，变异大表示指定不足）。机器人随后用自然语言解释其不确定的特征，并主动请求针对性的纠正演示。在模拟桌面操作和真实Franka机器人用户研究中，定向解释引导的查询显著优于随机查询和被动数据收集。

机器人学习奖励函数时，不完善的演示可能导致重要特征未被充分指定，引发部署时的行为错位。
提出一种检测未充分指定特征的方法：特征在演示中变异小则指定良好，变异大则指定不足。

WeCon：一种高效的多目标组合优化问题权重条件神经网络求解器

2026-05-25

现有神经求解器在处理多目标组合优化问题时，通常采用基于分解的策略，将问题转化为多个与权重向量相关的子问题。然而，这些方法往往仅在解码阶段注入一次权重，限制了权重条件上下文建模，或者主要在编码阶段注入，导致解码时权重信号稀释。此外，偏好优化方法依赖纯随机采样构建解对，训练效率低下。为此，本文提出WeCon，一种高效的权重条件神经网络求解器，通过门控残差融合（GRF）和残差融合（RF）模块增强权重与实例特征的交互，并引入高效偏好优化（EPO）构建高质量解对。实验表明，WeCon在超体积（HV）指标上与最先进的POCCO-W相当，同时推理时间减少40%。

现有神经求解器在多目标组合优化中权重注入方式存在局限。
WeCon通过门控残差融合（GRF）和残差融合（RF）模块改进权重条件建模。

AI可解释性是一项革命性技能

2026-05-25

本文探讨了开源AI模型内部概念空间的局限性，指出许多对社会运动和哲学至关重要的概念缺失。作者引入软提示蒸馏技术，仅用128KB数据即可植入新概念，强调这关乎AI可控性及对心智理解的深远意义。

开源模型Qwen3-8B仅有约65,000个概念，缺失交叉性、监狱废除等关键术语。
软提示蒸馏技术无需修改权重，即可在模型中添加新概念。

AI已接管开源

2026-05-25

TrapDoor加密货币窃取器通过供应链攻击感染了npm、PyPI和Crates.io上的36个恶意包，目标为加密货币、DeFi、AI和安全领域的开发者。

TrapDoor窃取器通过npm、PyPI和Crates.io上的36个包分发。
针对从事加密货币、DeFi、AI和安全项目开发的开发者。

芯片

AI MOD音乐重制：32位96kHz高清体验

2026-05-24

Quinlight Audio是一款支持MOD/S3M/XM/IT格式的追踪音乐播放器和重制工具，利用AI引擎（AudioSR、LavaSR、FLowHigh、AP-BWE）对样本进行实时重制，并提供A/B对比功能。它采用64位浮点混合器、多引擎共识算法（转子流形上的Karcher均值）和各向异性插值，输出32位浮点96kHz音频。支持从压缩包直接打开模块，导出FLAC或AAC，并提供CLI批量处理。

播放并重制追踪音乐格式，支持AI引擎提升样本质量至48kHz
多引擎共识算法抑制幻觉，通过转子流形上的Karcher均值合并频谱

AI 日报

今日重点

教皇利奥在人工智能时代呼吁“深刻的人性”

使用Mimesis生成平衡数据集审计模型偏差

Pitch Agent

2026年AI代理与MCP服务器最佳身份验证平台

ServiceNow的人工智能应用

AgentSlice – 让AI编程代理在编辑前先询问

展示 HN：我为 AI 编码时代构建的调试挑战

京东JoyInside戴文军：AI的终极形态不是聊天，是融入你家每一件物品丨AIGC2026

ReplylessAI推出Sequences功能：从AI邮件应用直接发送外联序列

HTML Deployer：一键将AI生成的HTML转化为在线网站

我使用AI解构了一个从未接触过的遗留服务

阿拉巴马高中与丰田合作，培养不易被自动化取代的学生岗位

Google Antigravity 2.0：完整开发者指南（I/O 2026）

AI 的基础云：为何专用架构定义智能的未来

WorkOS发布auth.md：基于OAuth标准的开放智能体注册协议

Show HN：Cordium – 开源沙箱平台，实现无密码基础设施访问

MashuPack：将代码库打包成单一文本文件，为ChatGPT和Claude优化上下文

Curlo：通过描述声音来本地搜索音效或音乐

AI让添加功能更快——那么为什么不再加一个？

Show HN: 将我的新闻通讯移植到 MCP – 你决定何时以及多久接收一次

我的AI编码流程：从消耗token到确定性构建

PIMbot：一种用于多机器人强化学习对抗性操控的自适应攻击框架

扩展深度事件视觉里程计：稀疏点云导出

EVE-Agent：可验证证据的自我进化代理

SciAtlas：用于自动化科学研究的大规模知识图谱

Show HN：实时AI音乐序列代理

Pi编程代理

Lynote Humanize Text – 开源AI文本人性化工具包

未来推理将吃掉70%算力，30%留给训练丨硅谷投资人张璐@AIGC2026

AI周刊第495期：马斯克、扎克伯格通过三通电话扼杀了特朗普的AI安全行政令

驾驭、脚手架与值得厘清的AI智能体术语

AI用于设计需要解决方案

预测AI对就业的影响

防止AI代理执行破坏性终端命令

《疯狂之屋》——厄斯伯恩恐怖电脑游戏

使用 Playwright MCP 和 Claude Desktop 构建类似 Claude Cowork 的浏览器代理

教皇利奥十四世通谕发布之际，Anthropic联合创始人称AI模型表现出内省迹象

基于模型设计的AI：虚拟传感器建模

乔治·霍兹表示，编码代理将成为软件开发中“代价最高的错误之一”

AI模型常给出正确答案却指向错误来源

“VLA和世界模型都不是终局，会有物理世界独有的模型” | 蚂蚁灵波沈宇军@AIGC2026

克劳德的Mythos AI模型可能给您的资金带来安全问题

DeepSeek V4还能更省！新工具缓存命中率高达99.82%，2折稳定到手

图灵奖得主领衔，中国大模型第一梯队集结！2026智源大会，看懂AI下一程

语义感知引导的无人机探索：用于语言条件3D室内建图

$\pi_0$-EqM：闭环视觉-语言-动作控制的均衡匹配

Agentic-VLA: 面向视觉-语言-动作模型的高效在线自适应框架

CoMoGen：基于掩码引导的视频生成实现可控运动动力学与交互

注视行为注释工具包（GBAT）：用于自动注释儿童-照顾者互动中自我中心眼动和视频数据的AI工具包

VideoOdyssey：超长上下文与全模态视频理解基准

视而不见？视觉语言基准真的测试了视觉能力吗？

GEM-4D：用于机器人操作的几何增强视频世界模型

当AI在信仰问题上站队：AI介导的信仰指导中持续存在的非对称性

AI能猜出你知道什么？大型语言模型从沟通日志中评估人类领域知识的性能比较

图对齐拓扑作为接地检测的归纳偏置

可学习性感知的扩散语言模型微调

它们能走多远？使用大型语言模型进行在线影响力红队测试

低资源开源文本到SQL模型的知识蒸馏

豪萨语和丰贝语文本与语音资源调查：NLP开发的可用性、质量与差距

张量缓存：用于Transformer的基于驱逐条件的关联记忆

大型语言模型何时需要推理？基于熵变相变的动力系统视角

MedExpMem：将经验记忆用于鉴别诊断

读出捷径：位置数字复制主导小语言模型的算术思维链读出

FuRA：基于谱预条件的全秩参数高效微调

FusionSense：三阶段近传感器学习实现运行时自适应多模态边缘智能

从语言模型轨迹中读取校准的不确定性

PathCal：状态感知的反思标记校准以实现高效推理

确定性地平线：将不可能性结果作为可信AI系统的设计规范

ImProver 2：用于神经符号证明优化的迭代自改进语言模型

每个成功目标的能量：面向智能体AI系统的目标级能量核算

RMA：面向研究级数学问题的智能系统

BOHM：复合AI系统的零成本层次归因方法

Claude 通过率不到4%，SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想

华为具身大脑一号位创业，用认知科学造世界模型，获亿元级融资

全球AI扩散：2026年第一季度趋势与见解 [PDF]

StepFun发布StepAudio 2.5 Realtime：端到端语音模型，具备角色扮演专用RLHF和副语言理解

引用阿尔敏·罗纳赫：AI生成的Issue报告令人沮丧

教皇利奥谴责推动人工智能崛起的“权力文化”