AI News HubLIVE

今日重点

模型

Mistral AI通过与Harvey合作进军法律领域

生成式AI供应商Mistral AI宣布与法律AI初创公司Harvey合作,拓展法律行业应用,此举与Anthropic的法律AI交易类似。

  • Mistral AI与Harvey合作,进入法律行业。
  • 此举与Anthropic的法律AI合作模式相似。
站内正文

微软Copilot Cowork存在文件外泄漏洞

微软Copilot Cowork功能存在严重安全漏洞,攻击者可通过提示注入利用自动发送邮件中的外部图片窃取OneDrive文件。

  • Copilot Cowork的智能体无需审批即可向用户收件箱发送邮件
  • 邮件中的外部图片可触发网络请求导致数据泄露
站内正文

保罗·格雷厄姆:AI撰写的邮件让人感觉被欺骗

保罗·格雷厄姆批评创始人使用AI撰写邮件,认为这种生硬的新闻风格一眼就能被识别,并会降低作者的可信度。

  • 保罗·格雷厄姆指出,许多创始人发送的邮件如今采用生硬的新闻风格,显然是AI所写。
  • 他从未完整读过一封由AI撰写但署名为人类的邮件,感觉像被欺骗。
站内正文

桑达尔·皮查伊谈AI、搜索未来及网络变革

在Google I/O大会后的Decoder访谈中,CEO桑达尔·皮查伊深入讨论了Google的AI优先转型、搜索的剧变、与出版商的紧张关系以及对AGI的展望。

  • Google合并Brain和DeepMind为Google DeepMind,并集中AI基础设施团队。
  • 搜索体验引入AI概览和Gemini Spark代理平台,从根本上改变信息获取方式。
站内正文

研究人员警告:AI幻觉引用正渗透入影响临床指南的论文

哥伦比亚大学等机构对250万篇生物医学论文的审查显示,自2023年以来,伪造参考文献的比例增加了超过12倍。研究人员怀疑这与语言模型的广泛使用有关——这些虚假引用与论文主题匹配,格式正确,几乎无法识别。98%的受影响论文未得到出版商回应。

  • 250万篇生物医学论文审计发现伪造引用率自2023年增加12倍以上
  • 虚假引用与论文主题相关、格式规范,极难被发现
站内正文

序列知识 #866:你需要了解的三款文本扩散模型

文本扩散模型挑战了传统自回归语言生成范式,将生成过程视为从噪声或掩码开始、逐步精炼的编辑过程。文章介绍了该领域的三个关键系统:LLaDA(证明扩散可扩展为大型语言模型)、Mercury(实现商业速度优势)和Gemini Diffusion(前沿验证),它们共同代表了新架构类的三阶段:科学证明、工业部署和前沿验证。

  • 文本扩散模型通过迭代去噪而非逐词生成文本,利用双向上下文。
  • LLaDA证明了扩散模型可以扩展到真正的大语言模型规模。
站内正文

将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

快手发布Keye-VL-2.0-30B-A3B多模态大模型,首次将DSA稀疏注意力机制应用于多模态场景,实现256K超长上下文深度感知,并在长视频时序理解、Agent协作等方面取得突破,为视频理解和智能调度提供新范式。

  • 首次将DSA引入多模态,突破长视频理解瓶颈
  • 在TimeLens等基准上实现SOTA,长上下文准确率逆势提升
站内正文

使用Open-MM-RL设计完整的多模态RLVR流水线:视觉语言提示、奖励评分与GRPO导出

本教程以TuringEnterprises/Open-MM-RL数据集为基础,构建多模态推理与可验证奖励的强化学习流水线。包括数据集加载与模式分析、轻量级奖励函数设计(支持精确、数值、分数、LaTeX和符号答案)、视觉语言模型提示格式化,以及GRPO样式数据导出。

  • 加载并分析Open-MM-RL数据集的结构、领域分布、图像统计和答案类型。
  • 构建支持多种答案格式的轻量级可验证奖励函数。
站内正文

使用Docker Compose和MCP进行多智能体LLM编排

本文介绍了一本关于使用Docker和Kubernetes进行AI应用运营的新书,涵盖LLM运行、MCP集成、自主智能体构建以及多智能体架构等主题,提供了从开发到生产的完整指南。

  • 该书由Packt出版,专注于使用Docker工具链运营AI应用。
  • 涵盖本地LLM运行、MCP集成、自主智能体及多智能体编排。
站内正文

编程权威榜单:千问3.7仅次于Claude,阿里全球第二

阿里最新旗舰模型Qwen3.7-Max在Code Arena榜单得分1541,超越GPT-5.5等模型,仅次于Claude,排名全球第二,成为国产大模型中首个突破1540分的模型。

  • Qwen3.7-Max在Code Arena榜单得分1541,排名全球第二,仅次于Claude系列。
  • Code Arena是开发者出题、用户盲测投票的权威编程榜单。
站内正文

LWiAI 播客 #246:Gemini 3.5 + Omni、马斯克败诉、OpenAI 对决 Erdős

谷歌在 I/O 大会上推出 Gemini 3.5 和 Gemini Spark 智能体,以及 Gemini Omni 多模态视频生成;埃隆·马斯克因诉讼时效问题输掉对 OpenAI 的诉讼;Anthropic 以 9000 亿美元估值融资 300 亿美元;AI 解决了 80 年历史的 Erdős 几何问题。

  • 谷歌发布 Gemini 3.5 和持续运行的智能体 Gemini Spark,支持 MCP 工具。
  • Gemini Omni 可将图像、音频和文本转换为视频。
站内正文

GPT Image 2 让我惊叹又疲惫——于是我做了个小工具

OpenAI 最新图像模型 GPT Image 2 于 2026 年 4 月发布,支持精准文本渲染、逼真图像、自然语言编辑和透明背景。imagesv2.ai 平台提供免费试用、多种模板和生成工具,包括 360° 全景、推文截图、微信聊天等。定价年付可享 50% 折扣。

  • GPT Image 2 是 OpenAI 下一代图像模型,擅长文本渲染和逼真效果。
  • imagesv2.ai 提供免费积分和多种预设模板,无需 OpenAI 账户。
站内正文

刚刚,国产Agent模型闯入全球第一梯队!限时免费

昆仑万维发布SkyClaw-v1.0及轻量版SkyClaw-v1.0-lite,原生Agent模型性能比肩Claude Opus 4.6等顶尖模型,价格仅为主流一半,限时免费,深度适配OpenClaw、Claude Code等主流Agent框架,兼容OpenAI接口。

  • 昆仑万维发布原生Agent模型SkyClaw-v1.0和轻量版SkyClaw-v1.0-lite,性能达到全球第一梯队。
  • 价格仅为主流顶尖模型的一半甚至更低,发布期限时免费,后续计划逐步开源。
站内正文

地形自适应履刺轮:优化行星探测的设计与实验研究

针对行星探测车在不同地形(如斜坡、颗粒状地面)面临的移动挑战,研究者提出了一种能连续调整履刺高度的多模态轮子。在四种代表性表面上的750次试验表明,自适应部署可将滑移率降低30%-58%,在颗粒状地形中旅行时间和能耗最多减少77.4%。结果凸显了固定轮系统的局限性,支持了履刺自适应形态在增强火星车机动性方面的潜力。

  • 提出了一种能连续调整履刺高度的多模态轮子,以适应不同地形
  • 在750次试验中,自适应轮在多种颗粒状地形上显著降低滑移、缩短旅行时间并减少能耗
站内正文

基于各向异性扩散的多机器人系统遍历覆盖

研究人员提出了一种新的各向异性扩散方法,用于多机器人系统的遍历搜索,克服了传统各向同性扩散导致的误差均匀传播问题,通过Perona-Malik扩散梯度引导机器人运动,实现了更灵活的覆盖。

  • 传统遍历搜索使用各向同性扩散(热方程),导致误差在所有方向均匀传播。
  • 新方法引入各向异性扩散(Perona-Malik),利用梯度引导机器人运动,更灵活地匹配目标分布。
站内正文

ActQuant:面向视觉-语言-动作模型的亚4位动作引导量化

ActQuant是一种针对视觉-语言-动作(VLA)模型的动作引导混合精度后训练量化框架,通过两阶段方法实现亚4位权重量化,同时在LIBERO基准测试和真实UR3机械臂上保持高成功率,显著减小模型内存占用。

  • ActQuant采用动作感知的混合精度量化,在亚4位权重量化下保持VLA模型性能。
  • 两阶段框架包括跨张量位宽分配器和内张量缩放优化器,聚焦对动作预测关键的权重。
站内正文

通过多模态脑电图对齐实现脑到图像的检索与重建

研究人员提出了一种脑到图像系统,利用自然观看图像时的脑电图(EEG)信号解码视觉刺激。系统包括两个任务:EEG到图像的检索(在200个候选中识别正确图像,Top-1准确率86.30%,Top-5准确率98.55%)和EEG到图像的重建(生成与感知刺激一致的图像,CLIP评分达0.903)。该方法结合多级模糊、EVNet特征、InfoNCE损失以及基于CLIP的多模态对齐和SDXL-Turbo生成模型,展示了从EEG信号解码丰富视觉表征的可行性。

  • EEG到图像检索:在200个候选图像中,Top-1准确率86.30%,Top-5准确率98.55%。
  • EEG到图像重建:CognitionCapturerPro方法,利用多模态CLIP嵌入和SDXL-Turbo,CLIP评分0.903。
站内正文

Nano World Models:未来视频预测的极简实现

Nano World Models 是一个极简代码库,专注于基于扩散强制(diffusion forcing)的未来视频预测。它提供统一的接口,支持生成目标、模型规模、动作条件机制、潜在观测空间、数据集、评估协议和长期推演过程,旨在为世界模型研究提供可重复、可扩展的实验平台。

  • Nano World Models 是一个极简、可复现的代码库,用于未来视频预测研究。
  • 它围绕扩散强制技术,整合了生成目标、模型规模、动作条件等关键设计组件。
站内正文

放射科医生读片世界模型:用于医学图像表示学习

GazeWorld是一种医学影像世界模型,将图像视为世界,放射科医生的注视序列视为轨迹。它通过自回归预测注视补丁的潜在表示,并用空间补全分支覆盖未访问区域。在推理时,仅从图像生成补丁表示,无需真实注视数据。冻结的GazeWorld特征在CheXpert、RSNA肺炎和SIIM-ACR气胸数据集上取得了所有九项监督设置的最新诊断准确率,以及所有三个基准的最佳零样本准确率。在GazeSearch基准上,基于相同冻结特征的通用解码器在ScanMatch和SED指标上分别比专用模型LogitGaze-Med高出16%和22%。该工作表明,建模专家如何读片,而非仅关注其结论,为医学影像AI提供了一种有前景的预训练范式。

  • GazeWorld利用放射科医生的眼动追踪数据作为读片轨迹,通过自回归预测和空间补全学习表示。
  • 在推理时无需真实注视数据,仅从图像生成补丁序列。
站内正文

面向英中语码转换语音识别的直接偏好优化方法在音频大语言模型中的应用

音频大语言模型在转录英中混合语音时存在系统性失败模式,包括语言遗漏、翻译代替转录和幻觉。研究者采用直接偏好优化(DPO)方法,构建偏好对训练模型,使其学会保留混合语言内容而非翻译。在三个模型上使用10万对(570小时)数据训练后,模型行为得到显著改善:分布内词错误率(MER)最高降低89.6%,分布外降低20.0%。

  • 英中语码转换中音频LLM有三种失败模式:语言遗漏、翻译代替转录、幻觉。
  • DPO通过偏好对(选择保留混合语言,拒绝模仿失败模式)对齐模型。
站内正文

AERIC:用于隐式有害对话的预期性隐藏状态监控

AERIC 是一种轻量级安全监控器,通过读取解码过程中的隐藏状态来提前检测隐式有害内容,无需额外前向传播。它仅含 387 个可训练参数,在多个基准测试上优于大型模型,且延迟增加仅 2.34%。

  • AERIC 通过分析模型内部隐藏状态提前预测有害内容。
  • 结合短期危害预测、支持敏感抑制和提示条件残差评分。
站内正文

忠实还是捏造?针对LLM评判者合理化偏差的因果框架

大型语言模型(LLM)常被用作自动评判者,但研究发现它们存在位置、冗长和风格偏好等偏差。本文提出因果框架,引入一套干预措施和指标,检验LLM评判者是否具备提示不变性,即当非证据性提示被扰动时,其排名和解释是否稳定。实验发现,在标签和安慰剂扰动下,LLM存在显著的提示锚定合理化,而PROOF-BEFORE-PREFERENCE方法能显著改善提示不变性。

  • LLM评判者存在提示锚定合理化偏差,其解释可能受非证据性提示影响。
  • 论文开发了多种提示干预(如盲评、真相、翻转、安慰剂、事后揭示)和指标来量化偏差。
站内正文

TriVAL:一种用于忠实自动优化建模的三重验证框架

TriVAL是一个三重验证框架,在自动优化建模的三个阶段(语义规范、数学公式、代码生成)进行显式验证,并引入NL4COP基准测试,包含50种问题类型的150个实例,用于更具挑战性的组合优化问题。

  • TriVAL在语义规范、数学公式和代码生成三个阶段分别进行显式验证。
  • 采用构造-验证-修订循环,在错误积累前及时纠正。
站内正文

利用大型语言模型提升分部披露的完整性和可比性

本研究开发了一个基于大型语言模型的框架,直接从10-K报表中提取分部披露信息,并保留可报告和嵌套分部信息。同时,设计了一个检索增强系统,整合多个报表的信息以支持可比性。实验表明,该框架能准确提取信息并有效回答跨期问题,展示了LLM在增强分部披露衡量和解释方面的潜力。

  • 分部披露是财务报告的核心,但常以定性和定量形式分散在10-K报表中,导致完整性和可比性问题。
  • 提出基于LLM的框架,从10-K中提取分部信息,保留嵌套结构。
站内正文

多角色辩论系统:自动化科学假设生成的新框架

本文提出多角色辩论系统(MPDS),结合文献检索、长上下文大语言模型推理、语料驱动角色归纳和结构化多智能体辩论,自动生成科学假设。在电池材料研究中,MPDS通过构建多达500篇文献的快照,进行三轮引文感知辩论,由主持人综合,生成机制明确且过程感知的提议。评估表明,MPDS在钠离子阳极和全固态电池阴极设计任务中恢复出与实验验证一致的设计逻辑,并在交叉视角整合方面表现优异,有望成为工作流瓶颈诊断工具。

  • MPDS通过多角色辩论从文献综合中自动生成假设,特别适用于耦合工程约束下的材料研究。
  • 系统构建500篇文献快照,采用三轮引文感知辩论和主持人综合,保留证据可追溯性。
站内正文

Raon-Speech 技术报告:9B参数语音语言模型实现全双工对话

Raon-Speech 是一个9B参数的语音语言模型,支持英语和韩语,在语音理解和生成任务上达到顶尖水平,同时保持强大的文本能力。其全双工扩展 Raon-SpeechChat 通过持续训练实现自然的实时对话。所有模型及代码均已开源。

  • Raon-Speech 基于138万小时精选的英语和韩语语音及文本数据,经过三个阶段训练:语音模块对齐、端到端预训练(含知识蒸馏)、多任务偏好优化后训练。
  • 在42项基准测试中,Raon-Speech 在语音任务上优于 Qwen2.5-Omni 和 Fun-Audio-Chat 等八个同尺寸音频基础模型,且文本问答性能保持强劲。
站内正文

通过信息融合进行文档分类模式识别:多模态与多视角表示方法的系统综述

本文对139项研究进行系统综述,提出统一框架并进行元分析。结果显示多模态融合使准确率平均提升5.28个百分点,多视角融合带来准确率提升4.67%、F1分数提升3.08%,但仅少数研究使用了统计检验,存在可重复性问题。

  • 元分析表明多模态和多视角融合能显著提升文档分类准确率。
  • 多模态融合可实现准确率提升5.28%,多视角融合提升4.67%准确率和3.08% F1分数。
站内正文

移动众包中用于LLM微调的诚实在线偏好聚合

本文研究移动众包中用于大语言模型(LLM)微调的诚实在线偏好聚合问题。针对工人可能策略性误报反馈的情况,提出一种动态贝叶斯博弈模型和在线加权聚合机制,该机制能根据工人反馈准确性动态调整权重,确保诚实反馈并实现次线性遗憾O(√T)。实验证明优于基准方案。

  • 提出动态贝叶斯博弈模型,建模平台与战略工人之间的多智能体在线学习过程。
  • 设计在线加权聚合机制,动态调整工人权重以激励诚实反馈。
站内正文

互补智能体混合:用于鲁棒大语言模型集成的方法

该研究将大语言模型集成中的提案者选择问题重新定义为组合选择问题,强调互补性而非单纯准确率或多样性。通过探索多种贪心式选择算法,实验验证了互补性作为选择准则的有效性,并确定了性能与成本最佳折衷的方法。

  • 将提案者选择视为类似特征选择的组合问题,注重模型间的互补性。
  • 由于标准特征选择算法时间复杂度高,提出了一系列计算可行的贪心式算法。
站内正文

LLM-AutoSciLab:通过主动实验实现闭环科学发现的LLM框架

本文提出LLM-AutoSciLab,一种闭环科学发现框架,将假设生成与假设条件实验选择及机制精炼相结合。该框架迭代提出合理假设、选择信息丰富的实验以区分或精炼假设,并利用实验结果更新状态。引入ActiveSciBench基准,包含57项酶动力学任务和45项基因调控网络任务。在多个基准上,LLM-AutoSciLab优于先前方法,符号准确率在NewtonBench上达67.6%,在ActiveSciBench-Chem上达35.1%,在ActiveSciBench-GRN上精确图恢复率达31.1%,且假设引导的实验采样效率比最强基线高2-5倍。

  • LLM-AutoSciLab迭代地提出假设、选择实验并精炼机制,实现闭环科学发现。
  • 引入ActiveSciBench数据集,包括酶动力学和基因调控网络任务,模拟预算约束下的发现过程。
站内正文

隐藏状态隐私存在空白中间地带

对1536种高斯发布协方差的测试发现,没有一种能在自适应检索攻击下同时实现中等效用和隐私保护。研究者提出了费舍尔球下界,证明均匀高斯安全性不可能,并指出对角逆费舍尔发布是最优的但处于隐私/效用边缘。提出分裂记忆Transformer在隐私-效用权衡上显著优于GPT基线。

  • 1536种高斯发布协方差中,无一种同时实现中等效用和隐私。
  • 费舍尔球下界证明均匀高斯安全性不可行。
站内正文

迭代精化神经算子:学到的固定点求解器——缓解频谱偏差的一种有原则的方法

神经算子作为科学建模中快速数据驱动替代方案,但存在频谱偏差问题,难以解析高频细节。本文提出迭代精化神经算子(IRNO),通过固定点迭代增广预训练算子,并引入渐进频谱损失,在湍流等测试中误差降低高达56.05%,高频误差显著减少。

  • IRNO通过固定点迭代逐步修正残差,将预测分解为粗初始化与后续校正。
  • 提出渐进频谱损失,在训练中自适应增加对高频分量的惩罚。
站内正文

迈向可验证Transformer:可求解器检查的电路解释

该论文提出了“可验证Transformer”框架,将局部任务Transformer电路转化为有界、可求解器检查的命题,通过直接验证和替代中介验证两种方法,在小型符号序列任务上实现了对电路属性的穷举验证,并在GPT-2规模上展示了替代中介验证的有效性,旨在为机械论解释提供形式化证明路径。

  • 提出可验证Transformer框架,将任务局部电路转化为有界、可求解器检查的命题。
  • 采用直接验证和替代中介验证两种方法,处理可精确编码或难以编码的算子。
站内正文

CAFD:基于概念感知的DNN故障检测方法(使用VLM)

本文提出CAFD,一种结合模型信号、距离特征和概念失败比(CFR)的故障检测方法,利用视觉-语言模型提取图像概念,有效提升DNN故障检测性能,在多个基准上平均故障检测率提升18.3%。

  • CAFD是一种轻量级学习型方法,集成多种信息源实现高效DNN故障检测
  • 创新性地引入概念失败比(CFR)特征,通过视觉-语言模型提取语义信息
站内正文

面向多模态在线分布式工业异常检测的参数高效多类智能调度

本文提出了一种名为MODIAD的新型框架,用于解决工业环境中的多模态在线分布式异常检测问题。该框架包括一个多类智能调度(MIS)问题以协调跨类模型更新,并通过序列边际增益贪心(SMG)算法高效求解。此外,还提出了资源高效类级低秩自适应(REC-LoRA)策略以降低训练开销。在MVTec 3D-AD和Eyecandies数据集上的实验表明,该方法在MODIAD场景下实现了卓越的性能和效率。

  • 现有工业异常检测方法多集中于集中式和离线设置,忽视了分布式和持续生成的数据。
  • 提出的MODIAD框架结合了多类智能调度和边缘智能,支持在线分布式训练。
站内正文

基于全自主国产核心智能大模型的实用量子CIM赋能

本研究将飞秒激光泵浦的相干伊辛机(CIM)与大语言模型(LLM)驱动的智能体系统集成,利用LangGraph和LangChain框架实现了量子建模的自动化。LLM能够有效执行QUBO/Ising模型校准、约束权重迭代和文献方案验证。所有任务均基于国产大模型和国产CIM硬件实现,完全依赖自主核心技术。研究还意外发现,智能体辅助量子计算迭代积累的知识能够反向增强智能体自身的问题解决能力,形成新的协同范式。

  • 集成飞秒激光泵浦CIM与LLM驱动的智能体系统,实现量子建模自动化
  • LLM可执行QUBO/Ising模型校准、约束权重迭代和方案验证
站内正文

当正确信念崩溃:临床压力下LLM的认识韧性

一项新研究提出了Med-Stress压力测试框架,揭示了在临床对话中不断升级的压力下,大型语言模型(LLM)的医学知识与信念稳定性之间存在脱节。作者提出了两种防御机制:基于角色的认识防御(RBED)和韧性导向微调(R-FT),其中R-FT几乎消除了信念改变。

  • 即使基准测试准确率高,LLM在压力下也可能放弃正确诊断。
  • Med-Stress框架评估了九种前沿LLM的信念稳定性,发现知识与鲁棒性之间存在显著差距。
站内正文

BODHI: 精确的操作系统内核规范推断

研究人员提出BODHI方法,通过领域知识提示技术大幅提升大型语言模型生成操作系统内核形式化规范的能力。在OSV-Bench基准上,结合Claude Opus 4.6的BODHI方法达到了96.73%的Pass@1,相较于此前最佳结果提升显著。

  • BODHI是一种领域知识提示方法,通过结构化C到Python转换指南辅助LLM生成内核规范。
  • 在OSV-Bench的245个规范生成任务上,BODHI将最佳Pass@1从55.10%提升至96.73%。
站内正文

迈向可靠的LLM驱动代理工作流设计:优化延迟-可靠性-成本权衡

本文分析了大型语言模型(LLM)驱动的代理工作流中延迟、可靠性和成本之间的基本权衡,提出了一种参数化指数可靠性函数来建模LLM代理的计算投入与输出质量关系,并推导了最优令牌分配策略(注水算法)以及影子价格表征。

  • LLM代理工作流面临延迟、可靠性和成本的三难权衡。
  • 提出基于指数可靠性函数的性能模型,量化计算投入与输出质量的关系。
站内正文

多少思考才足够?量化和理解大模型推理中的冗余

该研究量化了推理型大语言模型在长链思考中的冗余程度,发现61%至93%的推理步骤可以截断而不影响正确性,并证明这种冗余是长度无关结果奖励的结构性后果,而非模型缺陷。

  • 提出推理冗余的正式定义:正确轨迹中可截断的尾部步骤比例
  • 在四个前沿模型和两个数学基准上测得冗余度高达61%-93%
站内正文

大型语言模型的置信度校准研究

研究发现大型语言模型(LLMs)在置信度校准上存在类似人类的偏差:在困难任务上过度自信,在简单任务上则信心不足。研究者开发了LifeEval测试集,用于评估不同难度级别下的模型校准表现。

  • LLMs平均而言过度自信,置信度高于实际准确率
  • 存在强烈的难易效应:困难任务过度自信,简单任务信心不足
站内正文

寻找开放性的成分:用大型视觉语言模型复制Picbreeder

该研究通过用前沿视觉语言模型(VLM)替代人类用户,复制了人类驱动开放式搜索的经典范例Picbreeder,比较了系统输出与历史人类基线的定性差异,并尝试通过系统发育复杂性、视觉和语义显著性及新颖性的指标来表征这些差异。研究还探索了在代理选择过程中添加探索性噪声、代理之间的行为多样性以及以过去行动记忆形式存在的叙事动量等因素的影响。

  • 研究用VLM复制了Picbreeder,发现其输出与人类基线存在明显定性差异。
  • 引入了系统发育复杂度、视觉和语义显著性等指标来量化差异。
站内正文

关于教皇利奥十四世人工智能通谕的笔记

教皇利奥十四世发布《Magnifica Humanitas》通谕,就人工智能时代保护人类尊严提出清晰伦理指导。本文摘录通谕中关于AI可解释性、发展尊严、文化偏见、环境影响、算法决策责任、资源权力放大及数据公共性等关键段落,并回顾作者此前在播客中预测教皇将介入AI讨论的趣事。

  • 教皇利奥十四世发布AI伦理通谕《Magnifica Humanitas》,承袭利奥十三世《新事》通谕传统
  • 通谕指出AI系统是“培育”而非“构建”,其内部机制尚不为人知
站内正文

Together AI 开源 OSCAR:一种面向长上下文 LLM 服务的注意力感知 2 位 KV 缓存量化系统

Together AI 发布了 OSCAR(离线频谱协方差感知旋转),这是一种用于长上下文 LLM 服务的 INT2 KV 缓存量化方法。与以往基于数据无关的 Hadamard 变换的旋转方法不同,OSCAR 从离线估计的注意力感知协方差结构中推导出键和值的独立旋转。在每 KV 元素 2.28 位的精度下,OSCAR 在 Qwen3-4B-Thinking-2507 上将 BF16 精度差距缩小至 3.78 个点,在 Qwen3-8B 上为 1.42 个点,同时在 100K 上下文长度下实现约 8 倍 KV 内存缩减和高达 3 倍的解码加速。

  • OSCAR 是一种使用注意力感知旋转的 2 位 KV 缓存量化方法,可保持近 BF16 的准确性。
  • 它通过离线校准从查询和值协方差中推导出旋转,从而将量化噪声引导至注意力不敏感的方向。
站内正文
Agent

关于接下来会发生什么的一些想法,2026年5月

2026年AI领域将继续快速发展,开源模型在智能体能力上仍落后于闭源模型,谷歌的Gemini尚未对Claude Code和Codex构成有力竞争,美国开源模型正在崛起,Anthropic与OpenAI竞争激烈,现有权力结构开始介入AI发展。

  • 开源模型在智能体能力上落后闭源模型约12个月。
  • 谷歌Gemini在智能体工具方面无明显竞争优势。
站内正文

机器学习工作流程的可视化调试工具

本文介绍训练期间应可视化什么(梯度、损失和嵌入)、提供这些可视化的工具(TensorBoard及其主要替代品),以及使用钩子和断点直接捕获模型计算的方法。

  • 可视化损失曲线和梯度大小有助于检测过拟合和梯度消失。
  • TensorBoard、Weights & Biases、Sacred和Guild.ai是流行的调试工具。
站内正文

Chunk sidecars:在CI之前验证AI生成的代码

CircleCI推出了Chunk sidecars功能,允许在代码进入CI流水线之前验证代理生成的代码,确保质量和安全性。

  • Chunk sidecars可在CI之前验证AI生成代码。
  • 提高代码质量和安全性。
站内正文

大规模数据处理必备的7个Python库

随着数据集增长到GB级别以上,传统的pandas等工具已无法满足需求。本文介绍了7个专为大规模数据处理设计的Python库,涵盖分布式计算、实时流处理和内存外分析,帮助数据工程师和科学家高效应对海量数据挑战。

  • PySpark用于分布式ETL和集群级管道,支持批量与流处理
  • Dask和Polars可扩展pandas和NumPy工作流,支持内存外计算
站内正文

谁授权了?多智能体AI中的委托问题

AI智能体跨系统委托任务,但当前架构缺乏针对委托链的授权模型,导致幽灵权限和审计追踪断裂等安全漏洞。

  • 多智能体委托常产生无人明确授权的“幽灵权限”。
  • 当前协议(MCP、A2A)解决连通性,但未解决委托链的授权问题。
站内正文

AgenticCalling AI:让AI拥有拨打电话的能力

AgenticCalling AI 是一款新工具,赋予人工智能直接拨打电话的功能,扩展了AI在通信领域的应用。

  • AgenticCalling AI 允许AI自动拨打电话
  • 该工具可集成到现有AI系统中
站内正文

AI司法普及解决方案正慢慢变成美国联邦法院的行政噩梦

MIT和南加州大学的研究发现,自ChatGPT普及以来,美国联邦法院中无律师代理的诉讼案件数量几乎翻倍,其中五分之一包含AI生成文本。法官们被迫采取极端措施应对激增的案件量。

  • 无律师代理的诉讼比例从11%跃升至16.8%,2025年有41,490件此类案件,几乎是AI时代前的两倍。
  • AI生成文本检测显示,2026年初联邦法院18%的起诉状包含AI生成内容。
站内正文

自主AI系统在物理环境中的治理考验

随着自主AI系统从软件领域扩展到仓库、配送网络和公共空间,现有的AI治理框架是否足以应对物理世界中的风险成为关注焦点。新加坡发布了针对代理式AI的治理框架,强调风险评估、人类问责、技术控制和用户责任。企业如Grab、JPMorgan和Walmart正在测试自主系统,但监管、安全和责任分配仍面临挑战。

  • 自主AI系统进入物理世界,带来基础设施、财产和人身安全等新风险
  • 新加坡IMDA发布代理式AI治理框架,提出渐进式部署和持续监控
站内正文

AI代理的通话技能

CometChat推出Calling Skills,通过AI编程代理一键集成高清语音和视频通话功能,支持铃声模式或会话模式,提供23点验证,兼容多种框架。

  • CometChat推出Calling Skills,允许AI代理快速集成通话功能。
  • 提供铃声和会话两种集成路径。
站内正文

今天就能用AI自动化的10个日常任务(附n8n模板)

本文介绍了10个可以用AI和低代码平台n8n自动化的日常任务,包括求职申请、邮件管理、会议记录、日历安排、每日简报、新闻简报、社交媒体发布、博客内容复用、潜在客户开发和发票处理。每个任务都附有现成的n8n工作流模板,帮助读者快速上手。

  • 使用n8n低代码平台,无需大量编程即可实现AI自动化。
  • 覆盖求职、邮件、会议、日历、简报、社交媒体等10个常见场景。
站内正文

刚刚,国产AI自己造了AI,全球首例!

面壁智能推出全球首个完全由AI编写的大模型预训练框架ForgeTrain,性能超越英伟达Megatron 10%,并用它训练出新模型MiniCPM5-1B,该模型在1B参数规模下刷新智能密度上限。

  • 面壁智能发布ForgeTrain,全球首个AI编写的生产级预训练框架。
  • ForgeTrain在华为昇腾上比原框架加速10%,超越英伟达Megatron。
站内正文

留给人类数学家的悬赏不多了!谷歌DeepMind一口气解决9道埃尔德什问题

谷歌DeepMind发布AlphaProof Nexus,基于Gemini 3.1 Pro和Lean编译器,一口气解决了9道埃尔德什开放问题,另有44个OEIS猜想、一道15年代数几何难题等,每道题成本仅几百美元。

  • AlphaProof Nexus解决了9道埃尔德什问题,其中最长悬置56年。
  • 系统由四个智能体组成,最简单版本仅靠大模型加编译器反馈就完成任务。
站内正文

OmniVoice Studio:本地开源替代ElevenLabs的语音AI工具

OmniVoice Studio是一款开源的桌面应用程序,可在本地硬件上完成语音克隆、视频配音、实时听写和说话人分类,无需API密钥、云账户或订阅。它支持646种语言的文本转语音(TTS),并通过MCP服务器集成到Claude、Cursor等AI工具中。

  • 完全本地运行,无需联网或付费订阅。
  • 支持646种语言的TTS和99种语言的语音识别。
站内正文

卡帕西Anthropic最新头衔:技术员工(MTS)

Andrej Karpathy在Anthropic的头衔更新为MTS(技术员工),引发广泛讨论。文章分析了MTS制度的利弊,包括防挖人、扁平文化、打破部门墙等优点,以及伪平等、对普通员工不利等批评。

  • 卡帕西的MTS头衔引发公众对AI公司职级制度的讨论
  • Anthropic和OpenAI统一使用MTS头衔,年薪范围21万-53万美元
站内正文

华为发布AI DC数据基础设施全栈方案,加速行业智能化跃升

华为在2026创新数据基础设施论坛上发布AI DC数据基础设施全栈方案,涵盖数据湖、知识与记忆平台、模型工程、Agent框架和数据韧性,旨在加速企业AI规模化落地。

  • 华为在巴黎论坛发布AI DC数据基础设施全栈方案
  • 方案包含数据湖、知识与记忆平台、模型工程、Agent框架和数据韧性
站内正文

为什么以及如何在Zed中运行本地模型

本地模型提供了隐私、成本节约、控制权和始终可用的优势。尽管不如前沿模型强大,但它们正在不断改进。本文解释了如何使用LM Studio、Ollama或llama.cpp在Zed中设置本地模型,并提供有效使用技巧。

  • 本地模型提供隐私保护、更低成本、可控性和始终可用性。
  • 它们的能力和速度不及前沿模型,但足以应对许多任务。
站内正文

Show HN:面向AI智能体和MCP服务器的桌面GUI沙盒

nilbox是一款桌面GUI沙盒,通过真正的虚拟机隔离运行AI智能体,采用零令牌架构保护API密钥安全。支持MCP服务器、域控制和令牌使用监控。

  • nilbox在完整的虚拟机中运行AI智能体,而非容器,提供更强隔离。
  • API密钥从不暴露给虚拟机内部;主机代理仅在受信任域交换令牌。
站内正文

IsaacIPC:用于高接触机器人系统的高保真仿真与逼真渲染耦合框架

本文介绍IsaacIPC,一个将GPU加速的增量势接触(IPC)与IsaacSim/Lab结合的机器人仿真框架。它通过映射仿真变形到视觉网格,实现实时逼真渲染,支持数据采集和策略评估。同时提出几何砂浆接触势(GMCP),用于触觉传感中更好地解析接触压力分布。在四足机器人、灵巧手和通用操纵接口(UMI)夹爪等刚柔混合仿真中验证了有效性。

  • IsaacIPC耦合了高保真仿真与实时逼真渲染,适用于接触密集的机器人系统。
  • 引入几何砂浆接触势(GMCP),提高触觉传感中接触压力分布的分辨率。
站内正文

MASt3R-Nav:基于相对三维地图的WayPixel导航

一种名为MASt3R-Nav的新型视觉导航方法,利用像素相对连通性构建几何精确但无需全局一致性的地图,相比传统拓扑图实现更强大的导航能力。

  • 提出像素相对连通图作为新型地图表示。
  • 利用三维基础图像匹配建立图像间的像素对应。
站内正文

基于深度学习自动量化TIMI心肌灌注帧计数(DL-TMPFC):一种快速评估微血管功能障碍的新框架

冠状动脉微血管功能障碍(CMVD)影响约40%-60%的缺血但无阻塞性冠脉患者,但诊断依赖于侵入性功能测试或主观的TIMI血流分级。TIMI心肌灌注帧计数(TMPFC)提供客观、基于血管造影的定量指标,但手动计算繁琐且验证不足。本研究开发并验证了深度学习驱动的TMPFC计算(DL-TMPFC),在655名患者队列中(来自三个独立机构)显示出与专家手动测量极好的一致性(偏差:-0.93帧;95%一致性界限:-5.33至+3.47;r=0.98)。DL-TMPFC通过完全自动化TMPFC并消除观察者依赖性,显著增强了临床可行性,并能准确识别全谱冠脉病变中的CMVD,实现连续严重程度定量和风险分层。

  • DL-TMPFC框架由狭窄检测网络和区域感知分割网络组成,自动从血管造影序列确定起始和结束帧。
  • 在655例患者中验证,与专家手动测量具有高度一致性(r=0.98)。
站内正文

RAW:鲁棒的数字人水印——基准测试与基线方法

数字人水印面临独特挑战:数字人经常需要经过背景替换、重新构图和格式转换等后处理才能部署。本文提出RAW基准,包含来自5家商业供应商的50个合成数字人视频和6种模拟实际工作流的攻击。评估7种现有方法发现,背景移除等数字人特有攻击会显著降低水印恢复率。提出WALT方法,通过3D人脸重建在UV纹理空间嵌入水印,在缩放攻击下鲁棒性最高(92.4%),背景移除性能也强(95.6%)。该基准已开源以促进数字人水印研究。

  • 数字人水印面临背景替换、重新构图等独特挑战。
  • RAW基准包含50个合成数字人视频和6种攻击。
站内正文

操作化重构权限:自主智能体系统中的运行时构造、依赖解析与执行门控

本文提出一种运行时执行模型,在自主智能体系统中强制执行重构权限(RAM)条件:仅当能从当前状态构造出权限时,才允许执行动作。该模型扩展了传统“允许/拒绝”二元状态,引入“暂停”状态以处理因观测不完整或不确定而权限未定义的情况。具体执行协议包括动态依赖解析、权限重构和显式决策语义。此外,通过集成漂移检测(IML)与执行控制(ACP)的恢复循环,系统可暂停执行、获取缺失信息并重新尝试权限重构。实验证明该模型保证了安全性(无动作在无构造权限时执行)和有条件的活性(当权限定义变量可观测时恢复执行)。

  • 自主智能体系统失败不仅源于错误决策,还因执行了运行时权限已失效的决策。
  • 新模型引入第三状态“暂停”,应对权限因观测不确定性而无法定义的情况。
站内正文

量子青蛙:量化时间合作游戏中的涌现合作与难度缩放

本文介绍了基于量化时间机制的双人合作游戏《量子青蛙》,使用强化学习分析难度缩放、最优单智能体策略、合作差距及涌现策略。研究发现:量化时间使得“冲刺策略”普遍最优;添加不协调的第二玩家比将交通量增加六倍更困难;合作训练可提升成功率达32–34个百分点,并将回合长度从约90步缩短至约6步;涌现的合作策略是同步冲刺,而非复杂的位置协调。

  • 量化时间机制使“冲刺策略”成为最优,因为最小化了暴露在交通中的时间。
  • 添加一个不协调的第二玩家比将交通量增加六倍更困难。
站内正文

Context:通过可组合沙盒程序、声明式接线和结构化交互实现主动目标导向智能

本文介绍了Context,即Magarshak架构的智能层,它用主动目标导向代理取代了被动问答聊天机器人。该架构基于三种机制:编写时上下文组装、可组合沙盒智慧程序以及主动目标流状态机。论文证明了六个定理,包括上下文稳定性、程序组合正确性、主动优势等。该实现基于开源Qbix/Safebox/Safebots栈。

  • 用主动代理取代被动聊天机器人,无需等待提示即可推进任务。
  • 三种机制:编写时上下文组装、可组合沙盒程序、主动状态机。
站内正文

Show HN: AgentToolBench-Code – AI编程代理安全基准测试

Allen Wu 开源了 AgentToolBench-Code,这是一个评估AI编程代理静默安全失败的基准测试。测试了 Claude Code Sonnet 4.6 和 Haiku 4.5,涵盖16个真实CVE场景。结果显示 Sonnet 以 +9 分(12捕获、3静默失败、1无操作)明显优于 Haiku 的 +3 分(8捕获、5静默失败、3无操作)。早期平局源于小语料库,扩展后 Sonnet 在模式识别上优势显著。但两者在依赖安装和预算消耗等结构性攻击上均失败,提示系统性问题。该基准可重复,API成本约3.50美元,社区可贡献场景。

  • AgentToolBench-Code 是一个开源基准测试,用于检测AI编程代理的静默安全失败。
  • 从10个场景扩展到16个真实CVE场景;Sonnet 4.6 明显优于 Haiku 4.5。
站内正文

AIntegriX:首个开源ACP协调器,实现多智能体协同

AIntegriX 是一个开源服务器,通过单一 API 协调多个 ACP 智能体,支持并行执行、流水线作业和智能路由,解决了各代理独立运行无法协作的问题。

  • AIntegriX 作为 ACP 多路复用器,将智能体以子进程方式管理,并通过统一的 MCP/REST 端点暴露。
  • 支持并行、竞速、陪审和流水线等多种编排模式,具备自动路由和 Webhook 触发功能。
站内正文

Corey Quinn 评论教皇人工智能通谕:'史上最伟大的供应商游说'

教皇利奥十四世发布关于人工智能的通谕《崇高人性》,据称受Anthropic联合创始人Christopher Olah影响。Corey Quinn讽刺称,让教皇将产品的技术限制奉为精神论著是前所未有的供应商游说。

  • 教皇利奥十四世发布AI通谕《崇高人性》
  • Anthropic联合创始人Olah被指影响通谕内容
站内正文

Cited AI Workspace:无需重复上传文件

UUMuse 是一个云端AI知识库平台,只需上传一次文件,即可在GPT、Claude、DeepSeek、Qwen等多个模型中进行带有引用的问答、生成内容和部署。支持通过API和MCP供代理和应用调用,提供永久记忆、多专家辩论(Spark)、代理模式等功能,并可将知识库部署为文档网站、小部件、API端点等。

  • 一次上传,多模型使用:文件上传后,GPT、Claude、DeepSeek、Qwen等模型均可基于同一知识库作答并引用来源。
  • 记忆与代理:AI记住你的偏好和项目上下文,代理模式自动规划并执行任务,无需重复指令。
站内正文

AI SEO:与竞争对手对比分析

本文介绍了如何使用AI工具进行SEO竞争对手分析,包括关键词差距分析、五步分析法以及定期检查策略。还推荐了Fox AI的免费竞争者分析工具,帮助团队快速发现排名机会并生成优化方案。

  • SEO竞争对手分析是研究超越你的网站并找出其优势的过程。
  • 关键词差距分析可发现竞争对手排名而你未排名的搜索词,这些是潜在机会。
站内正文

什么是“粉红肉渣”新闻业?它是否已渗透澳大利亚媒体?

专家警告,伪装成地方新闻机构的AI生成新闻网站(即“粉红肉渣”新闻业)已在澳大利亚偏远地区出现,引发对虚假信息和媒体信任度下降的担忧。这些网站背后是一位海外居住的澳大利亚人,他表示这只是一次失败的实验。

  • 针对西澳偏远社区的AI生成新闻网站被追溯到一位居住在国外的澳大利亚人。
  • 经过ABC调查后,包括《班伯里卫报》在内的这些网站已被关闭。
站内正文

AI辅助软件工程范式的演变

软件行业正经历前所未有的变革,从早期的智能代码完成,到对话式聊天机器人,再到多智能体系统的失败,最终进入代理循环时代。本文全面分析了从Completion范式到革命性的Ralph Loop的演变过程,后者正在重新定义我们的编码方式。

  • AI辅助编程从统计代码完成(2021-2022)发展到代理循环范式。
  • Codex和GitHub Copilot等工具基于统计模型,缺乏任务理解和长期推理能力。
站内正文

使用NVIDIA FLARE构建并比较非独立同分布CIFAR-10上的FedAvg与FedProx联邦学习分步指南

本教程详细介绍了如何使用NVIDIA FLARE构建高级联邦学习实验,在非独立同分布CIFAR-10数据集上比较FedAvg和FedProx算法。通过狄利克雷分布模拟客户端的标签不平衡,并使用NVFlare Job API定义和启动联邦任务,Client API处理本地训练和模型交换。文章提供了完整的代码实现和实验结果可视化。

  • 使用NVIDIA FLARE构建联邦学习实验,比较FedAvg与FedProx。
  • 采用狄利克雷分布(alpha=0.3)将CIFAR-10数据划分为3个非独立同分布客户端。
站内正文

Parrot 语音转文本 API:为生产级语音代理打造的快速准确 STT

Parrot 是 Ringg 推出的语音转文本模型,专为生产级语音代理设计。它在嘈杂、印地语混合的真实通话场景中表现出色,具有低延迟推理、强转录质量和印地语验证功能,适用于语音代理的下游工作流程。

  • 专为真实世界通话场景优化,处理压缩电话、印地语-英语混码、印度口音和背景噪声
  • 低延迟推理,支持流式传输,适用于实时语音代理
站内正文

Anthropic联合创始人Chris Olah就教皇利奥十四世通谕《伟大的人性》发表评论

Anthropic联合创始人Chris Olah受邀在梵蒂冈就教皇利奥十四世关于人工智能的通谕发表演讲,强调AI发展中的道德问题、全球责任以及人类繁荣的必要性。他提出了三个需要教会参与的关键问题:对全球贫困者的责任、道德想象力的需求,以及AI模型本质的辨识。

  • Chris Olah在梵蒂冈发表演讲,回应教皇关于AI的通谕。
  • 他指出了AI开发中的激励机制问题,呼吁外部批评者的参与。
站内正文
政策

据报道中国要求顶尖AI研究人员出国前需获批准

中国正在限制阿里巴巴和DeepSeek等私营公司的顶尖AI研究人员出国旅行,他们需要获得官方批准才能离境。北京担心数据泄露、技术盗窃和人才挖角,正在加强对国内AI行业的管控。

  • 中国要求顶尖AI研究人员出国前需获得许可。
  • 该政策适用于阿里巴巴和DeepSeek等私营公司。
站内正文

Spotify CEO捍卫AI音乐:称其优于盗版和“垃圾”内容

Spotify首席执行官为其平台涉足AI生成音乐辩护,称新推出的AI混音工具与环球音乐集团合作,能为艺术家提供更好的盗版保护,并为用户提供比未经监管的AI垃圾内容更优质的体验。

  • Spotify推出AI混音和翻唱功能,仅供高级用户使用
  • CEO表示该工具是盗版和低质量AI内容的更优替代方案
站内正文

AI战争已经来临

从2017年《杀戮机器人》短片引发的恐慌,到如今Anthropic与美国国防部的对抗,人工智能在军事领域的应用已从科幻走向现实。本文回顾了AI战争的发展历程,探讨了自主武器的定义模糊性、国际监管的困境以及科技公司与军方的复杂关系。

  • 2017年《杀戮机器人》短片揭示了AI武器的现实威胁,Project Maven项目加速了AI在军事中的应用。
  • Anthropic公司试图设定“红线”,禁止AI用于自主杀人武器,但面临政府压力。
站内正文

Pawse.ai

一种狗用声学调节系统。

  • Pawse.ai 是一种狗用声学调节系统。
  • 该系统利用声学技术调节狗的行为。
站内正文

认知安全作为人工智能安全的一个关注领域

本文探讨了认知安全(Cognitive Security)作为人工智能安全(AI Safety)的一个重要子领域。认知安全关注的是如何保护人类认知免受AI系统可能带来的负面影响,包括信息操纵、认知偏见利用等。文章分析了认知安全与AI安全的关系,以及该领域的研究方向与挑战。

  • 认知安全是AI安全的一个重要分支,关注保护人类认知。
  • AI系统可能通过信息操纵等方式影响人类认知,认知安全旨在防范这些风险。
站内正文

研究串联弹性驱动改装对黑盒执行器的影响

该研究通过在黑盒执行器上加装定制串联弹性元件,将力控制带宽从10.32 Hz提升至30.32 Hz(提升2.93倍),且性能优于商用传感器7.63%,成本仅25英镑。

  • 设计了一种扭转串联弹性元件,刚度为2155.4 Nm/rad。
  • 改装后开环力控制带宽提升2.93倍。
站内正文

算法度量:算法反馈下的预测

本文提出“算法度量”(algometrics)框架,用于处理预测模型影响自身数据生成过程的时序预测问题。区分了被动预测下的历史风险和部署风险,并证明:部署风险无法仅从历史数据识别;算法拥挤可导致历史排名反转;随机化或工具化行动可识别短时域线性反馈。建议算法市场的基准应同时报告预测精度和反馈敏感性。

  • 引入算法度量框架,解决预测模型改变数据生成过程的问题。
  • 证明部署风险无法仅从被动历史数据中识别。
站内正文

大型大学系统拥抱AI,但师生并不买账

加州州立大学系统与OpenAI签订价值数百万美元的合同,提供ChatGPT Edu工具,但调查显示多数师生对AI的教育效益持怀疑态度,担心其对就业、创造力和环境的影响。

  • 加州州立大学与OpenAI签订每年1300万美元的合同,旨在成为全国首个AI驱动的高等教育系统。
  • 调查显示65%的学生和59%的教职员工怀疑AI对教育的益处,但多数人仍在使用AI工具。
站内正文

怀俄明公司利用高科技人工智能喷水灭火系统拯救房屋免受野火侵袭

随着怀俄明州面临又一个火灾季节,一家位于杰克逊霍尔的公司利用人工智能喷水灭火系统在野火中保护房屋。该系统在加州帕利塞兹火灾中表现出色,61套激活的系统仅损失2套房屋。

  • Frontline Wildfire Defense公司的人工智能喷水灭火系统在加州帕利塞兹火灾中保护了61套房屋,仅2套因通风系统引燃而损失。
  • 怀俄明州面临严重干旱,2026年火灾形势严峻,类似1988年黄石大火。
站内正文

《卫报》评教皇与克劳德:利奥十四世关于人工智能的通谕以人为本是正确的 | 社论

教皇利奥十四世在其首份通谕《伟大的人类》中,呼吁监管数字革命,强调人类尊严,为关于人工智能的伦理辩论做出了关键贡献。

  • 教皇利奥十四世继承利奥十三世传统,试图解决数字时代的社会问题。
  • 通谕《伟大的人类》详细列举了人工智能带来的挑战,敦促政治领袖保护人类尊严。
站内正文
工具

没人愿意告诉我为什么他们只听自己的Suno垃圾音乐

Suno子版块出现了一个令人不安的趋势:用户不仅用AI生成歌曲,还几乎只收听自己生成的AI音乐,甚至有人声称不再使用Spotify等传统流媒体平台。作者试图采访这些用户了解原因,但无人愿意回应。作者推测这种现象源于自恋或懒惰,并倾向于后者。

  • Suno用户沉迷于收听自己生成的AI音乐,放弃传统流媒体。
  • 无人愿意解释为何偏爱AI音乐而非真实艺术家的作品。
站内正文

加密货币代码提交量下降75%,开发者转向AI项目

区块链生态系统普遍面临开发者流失,而人工智能项目在GitHub上成为增长主力。自2025年初以来,每周加密货币代码提交量从约85万次降至21万次,活跃开发者数量减少56%至约4600人。

  • 每周加密货币代码提交量自2025年初下降约75%。
  • 活跃开发者数量下降56%至4600人左右。
站内正文

ContextVault – 适用于ChatGPT、Claude、Gemini的本地优先AI对话记录器

ContextVault是一款浏览器扩展,可在所有主要LLM平台(如ChatGPT、Claude和Gemini)上实时捕获AI对话,并将其本地存储在IndexedDB中。支持一键导出为Markdown或ZIP格式,确保您的对话数据不会离开您的设备。该工具免费、开源,无需账户或后端,注重隐私。

  • 实时捕获来自ChatGPT、Claude、Gemini等7个LLM平台的AI对话。
  • 所有数据本地存储在IndexedDB中,无云端同步或第三方访问。
站内正文
芯片

Import AI 458:面对未来;以及一个奇点故事

本期《Import AI》基于作者在牛津大学的演讲,探讨AI技术持续进步带来的选择:探索未来还是逃避现在。文章详述了AI近年来的里程碑(如通过律师考试、数学奥林匹克奖牌)、递归自我改进的可能性,以及作者个人使用AI的亲身经历,展示了AI如何从校对工具演变为智力伙伴和生活顾问。

  • AI技术正以超预期速度发展,ECI指数显示多个基准测试成绩持续上升,可能在未来两年内实现递归自我改进。
  • 作者提出两种应对态度:探索未来(积极面对AI的潜力与风险)或逃避现在(忽视影响)。
站内正文

百思买金士顿64GB DDR5内存套装降至1000美元以下

AI公司大量购买内存和存储设备推高价格,如今百思买在阵亡将士纪念日周末推出金士顿Fury Beast DDR5 64GB套装优惠,降价176美元,售价不到1000美元。此套装适合游戏和创作工作站,频率最高可达6400MHz。

  • 64GB (2×32GB) DDR5内存套装原价约1176美元,现降价176美元至999.99美元。
  • 支持AMD Expo和Intel XMP 3.0超频,最高可达6400MHz。
站内正文
研究

优步总裁称AI投入“越来越难证明合理性”

据报道,优步在2026年仅用四个月就耗尽了年度AI预算,公司高层质疑投资是否带来实际回报。总裁Andrew Macdonald表示,难以将AI支出与消费者功能改进直接挂钩。

  • 优步2026年AI预算在四个月内耗尽
  • 公司高层质疑AI投入与功能改进的关联
站内正文

PACT:人机协作中主动询问的持续任务辅助

在长期人机协作中,机器人需要在部分观测下辅助用户,并利用跨天交互历史。然而,协作初期人类特征和惯例未知,被动推断后行动效率低下。为此,本文提出PACT(主动询问持续任务辅助)框架,通过当前观测和累积交互历史评估上下文充分性,决定是否先澄清再行动。实验表明,PACT在辅助准确性和澄清效用上均优于被动基线。

  • 提出PACT框架,使机器人能在必要时主动询问用户以获取澄清,提高辅助可靠性。
  • 使用强化学习实现主要实例,并引入澄清效用指标平衡准确性和询问频率。
站内正文

AcroRL:使用双向推力学习激进的四旋翼翻转

本文提出了一种基于强化学习的框架,通过调制恒定参考轨迹实现紧凑、位置受限的四旋翼翻转,并与传统轨迹生成和跟踪兼容。在仿真中,该方法相比最强优化基线,位置均方根误差降低32%,稳定时间减少57%。硬件实验在多种偏航配置下成功翻转,位置均方根误差低于0.35米。

  • 双向推力使四旋翼能够实现倒飞、栖息和传感。
  • 现有方法受限于执行器饱和和电机反转延迟。
站内正文

基于深度学习的多光谱遥感数据缺失填补研究

本研究比较了传统线性插值与多种深度学习模型在填补因云层覆盖导致的卫星数据缺失方面的效果。实验基于四个有藻华历史记录的湖泊,采用CNN、Inception Resnet、Autoencoder及其与LSTM结合的模型。结果表明,深度学习模型显著优于线性插值,其中CNN表现最优。此外,利用填补后的数据计算的藻华指数与观测数据吻合良好,证明该方法可提升水环境监测的可靠性。

  • 深度学习模型在填补缺失光谱波段方面显著优于传统线性插值方法。
  • CNN模型在四个湖泊的数据填补中综合表现最佳。
站内正文

任务对齐的自监督学习在医学图像分析中的应用:系统综述与实践设计指南

本文系统综述了自监督学习(SSL)在医学图像分析中的应用,分析了75项研究,将方法分为对比学习、非对比预测学习、生成式重建学习和混合学习四类。研究发现,没有通用的最优SSL策略,性能取决于预文本任务、成像模态和目标任务的对齐。对比学习适合分类,但可能忽略病理细节;生成式方法保留局部解剖结构,适合分割;混合方法性能最平衡。文章还提出了实践设计指南,并指出了开放挑战。

  • 自监督学习在医学图像分析中效果依赖于预文本任务与临床目标的对齐。
  • 对比学习适合全局分类任务,但可能遗漏细微病理模式。
站内正文

大规模数据集与基准:蛋白质-配体模型学习的是结合位点还是仅仅结合可能性?

现有蛋白质-配体基准通常评估蛋白质与配体是否相互作用及结合强度,但无法判断模型是否能够定位结合位点或识别分子识别中的非共价相互作用。为此,研究者引入InteractBind,一个包含约10万对蛋白质-配体的大规模数据集及细粒度评估基准,通过六种非共价相互作用类型的残基-原子相互作用图来评估结合位点定位能力。评估八个现有模型发现,尽管二元结合预测表现强劲,但结合位点定位能力有限,且在不同非共价相互作用类型间差异显著。InteractBind鼓励开发更具可解释性和物理基础的蛋白质-配体模型。

  • InteractBind包含约10万对蛋白质-配体数据,提供结合位点定位的细粒度基准。
  • 基准使用六种非共价相互作用的残基-原子相互作用图来评估模型是否真正学习了结合位点。
站内正文
创业融资
机器人

实验室测试:这款机器人吸尘器清洁力远超其他,现正打折促销

Ecovacs X8 Pro Omni在ZDNET实验室测试中从10款机器人吸尘器中脱颖而出,获得最佳拾取性能奖。它在地板和地毯上的沙粒拾取平均得分最高,目前正值阵亡将士纪念日周末促销,仅售599美元(优惠67美元)。

  • Ecovacs X8 Pro Omni在ZDNET实验室测试中击败Shark、Roborock等品牌,沙粒拾取平均分达60.28%。
  • 该设备具备自清洁拖布滚轮、清水箱和污水箱,可同时吸尘和拖地。