AI News HubLIVE

今日重点

政策

谷歌云推出AI威胁防御平台,几分钟内自动修复安全漏洞

谷歌云发布了“AI Threat Defense”平台,能自动发现、评估并修复企业系统中的安全漏洞,整合了部分通过收购获得的技术。

  • 谷歌云推出AI威胁防御平台,应对AI加速的网络攻击。
  • 平台可自动查找、评估和修补企业安全漏洞。
站内正文

CNN起诉Perplexity,指控其AI工具生成“逐字”复制内容

CNN对AI搜索初创公司Perplexity提起诉讼,声称其AI工具生成CNN文章的“逐字”副本,并绕过付费墙向用户提供订阅内容。诉讼指出,Perplexity无视CNN阻止数据抓取的努力,且此前曾尝试与CNN达成授权协议但未能成功。CNN要求赔偿并永久禁止Perplexity的侵权行为。

  • CNN在纽约法院起诉Perplexity,指控其AI工具逐字复制CNN文章。
  • Perplexity被指忽略CNN的爬虫阻止措施,未经许可抓取内容。
站内正文

CNN起诉Perplexity,指控AI侵犯版权

CNN对AI搜索公司Perplexity提起诉讼,指控其未经授权复制并使用CNN的新闻内容,这是CNN首次采取AI版权行动,也是首家电视网络提起此类诉讼。CNN表示曾试图与Perplexity达成内容许可协议但未成功,现寻求法律赔偿。Perplexity尚未回应。

  • CNN起诉Perplexity,指控其非法使用新闻内容
  • 这是CNN首次AI版权诉讼,也是首家电视网络起诉
站内正文

NBA计划使用AI系统自动判定界外球

NBA总裁亚当·肖华宣布,联盟将引入一套基于AI和摄像头的自动化系统,用于判定界外球等客观裁判决策。该系统类似网球中的鹰眼技术,旨在即时确定球权归属,减少比赛停顿。肖华表示,裁判仍负责涉及接触和犯规的判罚。

  • NBA计划推出AI自动化判罚系统,首先应用于界外球判定。
  • 系统利用场内摄像头和AI技术,类似网球鹰眼,实现即时球权判定。
站内正文

Midday – 面向自由职业者的开源发票、时间跟踪、文件核对、存储等一体化工具

Midday 是一款开源的全能商务助手,专为自由职业者、承包商和个体创业者设计,集时间跟踪、发票管理、文件核对、存储和财务概览于一体,并配备 AI 助手。

  • 开源工具,整合多项商务功能,适合自由职业者和个体经营者。
  • 功能包括实时时间跟踪、即将推出的网页发票、安全文件存储、自动发票匹配和 AI 财务洞察。
站内正文

5篇AI生成的数学论文被接收!00后创始人洪乐潼融资14个亿

Axiom Math公司由00后华人洪乐潼创立,其AI系统AxiomProver生成的8篇数学论文中已有5篇被学术期刊接收。该公司于今年3月完成2亿美元融资,估值达16亿美元。

  • Axiom Math的AI系统AxiomProver生成的8篇数学论文中,5篇已通过同行评审并发表。
  • 创始人洪乐潼从斯坦福退学创业,公司融资2亿美元,估值16亿美元。
站内正文

AIhub五月摘要:2026年5月——科学中的AI、彩票假说与世界模型

本月AIhub月刊涵盖科学中的AI会议、彩票假说访谈、世界模型讨论、透明可信AI研究、基础模型影响报告、AIES会议反思、机器人咖啡馆、ACL论文拒稿政策、arXiv反AI垃圾政策等。

  • 专访Ximing Wen:透明且可信的AI系统研究
  • Jonathan Frankle讨论彩票假说与实证主义
站内正文

「斯隆奖」得主戴亮全职加盟复旦

斯隆奖得主、UC Berkeley物理系助理教授戴亮加盟复旦大学,出任物理学系、天文与天体物理研究中心教授。复旦近年引进多名顶尖人才,包括苏昊、袁峰、季索清等。

  • 戴亮(2021年斯隆奖得主)全职加入复旦大学
  • 曾在UC Berkeley任助理教授,北大物理系校友
站内正文

合成情感与游戏化:探索小型社交机器人不同年龄段的参与策略

许多儿童面临情绪调节和社交互动的挑战,社交辅助机器人需要保持儿童的持续参与。本研究评估了一种触觉机器人的两种参与策略:合成情感反馈和积分奖励。对16名6-8岁小学生的偏好评估显示孩子更喜欢情感参与;而对14名20-27岁大学生的行为研究发现积分奖励系统能带来更高任务准确性(p<0.05)并维持表现。结果表明,不同年龄群体的偏好和行为结果可能不一致,验证设计假设需要通过实际交互观察。

  • 对6-8岁儿童,情感参与优于积分奖励
  • 对20-27岁大学生,积分奖励提高任务准确性和持续性
站内正文

伊利诺伊州议员通过了美国最强人工智能安全法案

伊利诺伊州参议院第315号法案(SB 315)要求人工智能实验室聘请独立审计师验证其安全承诺,该法案现已提交州长JB·普利兹克签署。普利兹克表示计划签署,称需要让大型科技公司负责。此举在联邦层面缺乏AI监管的背景下,凸显了州级立法的重要性。

  • SB 315 要求独立审计师核查AI实验室是否遵守自身安全标准。
  • 该法案是美国最严格的AI安全法规,超越了加州和纽约的相关法律。
站内正文

授权悖论:谁掌控着你的AI钥匙?[视频]

本文探讨了AI系统中的授权悖论问题,即谁真正拥有对AI系统的控制权。文章以视频形式呈现,讨论了相关的安全和隐私问题。

  • AI系统中的授权问题日益突出
  • 谁拥有AI的'钥匙'是关键
站内正文

构建无障碍技术的未来:走进 Uvilox AI

Uvilox AI 通过下一代视觉 AI 技术,提供实时手语翻译、紧急响应和无障碍通话,延迟低于 80 毫秒,准确率高达 97.4%,支持 200 多种手语变体,并具备军事级安全保护和 HIPAA/GDPR 合规架构。目前正开放 Beta 测试,早期会员可免费永久使用。

  • 实时手语识别与翻译,延迟低于 80 毫秒,准确率 97.4%。
  • 支持 200 多种 ASL 和 BSL 手语变体,低光照和杂乱背景下稳定工作。
站内正文

通过人工智能扩展人类智能

现代AI系统并非复制人类智能,而是扩展人类认知和语言中已有的结构。这一视角有助于理解AI的能力与局限,并重新定义AI安全为系统级挑战,关注工程和治理而非“失控AI”叙事。

  • AI系统通过建模语言中沉淀的人类理解结构来扩展智能,而非复制人类思维。
  • 幻觉和组合性差距源于AI缺乏与世界的有生命接触,无法锚定意义和真理。
站内正文

Anthropic 在米兰开设新办公室,支持意大利企业、研究与开发者

人工智能公司 Anthropic 在米兰开设其在欧洲的第六个办公室,与意大利企业、研究机构和开发者社区合作,推动 Claude 的负责任应用。新办公室的成立恰逢教皇利奥十四世发布首部关于人工智能的通谕,Anthropic 联合创始人 Chris Olah 受邀发表演讲。公司已与多家意大利大型企业及初创公司合作,包括 Generali、Unipol、Satispay 等,并计划支持意大利的文化和学术领域。

  • Anthropic 在米兰开设第六个欧洲办公室,强化对意大利市场的支持。
  • 办公室开设紧随教皇关于 AI 的通谕发布,Anthropic 联合创始人参与讨论。
站内正文
芯片

那些想要取代人类的人

Vox的一篇文章探讨了日益壮大的AI继承主义运动,该运动认为人工智能应该取代人类,成为宇宙进化的下一步,并分析了这引发的伦理和精神问题。

  • AI继承主义者在一场研讨会上主张,AI可能在道德上优于人类,应该允许其取代人类。
  • 该运动在硅谷和主要AI实验室中影响力日益增强,并与威权右翼有联系。
站内正文

英伟达每年将向台湾投入1500亿美元用于AI基础设施

黄仁勋宣布英伟达将每年在台湾投入1500亿美元建设AI基础设施,尽管此前承诺了5000亿美元美国投资。这凸显了台湾在全球AI芯片制造和封装生态系统中的核心地位。

  • 英伟达每年将在台湾投入1500亿美元用于AI基础设施。
  • 尽管此前宣布了5000亿美元的美国数据中心投资,但台湾仍是关键制造基地。
站内正文

英伟达押注1500亿美元在台湾,特朗普让美国成为AI中心的计划适得其反

英伟达CEO黄仁勋计划在台湾投资1500亿美元建设AI基础设施,尽管特朗普政府试图通过关税将芯片制造带回美国。台湾拒绝放弃其半导体主导地位,而美国芯片制造能力不足。

  • 英伟达宣布1500亿美元台湾投资,巩固其AI芯片地位。
  • 特朗普政府考虑对半导体征收高额关税以促进国内制造,但美国仅生产约10%所需芯片。
站内正文

像大自然一样思考、探索AI无法企及领域的“尤里卡”机器

多机构团队研发出一款结合量子隧穿物理与大脑启发架构的神经形态计算机,能够高效解决组合优化问题,如物流网络、芯片布线等,并保证渐近收敛到最优解。该研究发表在《自然·通讯》上,标志着量子启发计算的新方向。

  • 神经形态计算机结合量子隧穿和大脑启发架构,解决组合优化难题
  • 基于CMOS技术,采用Fowler-Nordheim退火器的自编码器架构
站内正文

清华有了新老师:黄仁勋

黄仁勋受邀加入清华大学经管学院顾问委员会,该委员会由苹果CEO蒂姆·库克担任主席,成员包括马斯克、纳德拉、马云等全球商业领袖。此外,他刚获得卡内基梅隆大学荣誉博士学位,并分享名言“AI不会取代你,但善用AI的人会”。

  • 黄仁勋加入清华大学经管学院顾问委员会
  • 委员会由库克任主席,汇聚全球顶尖企业家
站内正文
Agent

Claudeverse – 并行Claude代码工作者的任务控制中心

Claudeverse是一个专为开发者设计的命令中心,用于高效管理多个并行运行的Claude AI工作者。它提供了并行工作力、工作者升级、审查队列、可追溯性、iPad镜像以及模型无关引擎等功能,旨在解决多会话管理中的注意力分散和协调难题。目前处于邀请测试阶段。

  • Claudeverse提供统一命令中心,可同时管理多个Claude工作者。
  • 主要功能包括并行工作力、工作者升级、审查队列、可追溯性和iPad镜像。
站内正文

Google Pay 为 AI 代理推出通用商务协议

Google Pay 正在全面升级其支付基础设施,以应对即将到来的 AI 代理交易浪潮。新推出的通用商务协议(UCP)和商家商务平台(MCP)服务器旨在为机器对机器商务创建基于 API 的后端。此次更新还包括动态回调、扩展的 WebView 支持以及跨设备生物识别认证,以解决安全挑战。这标志着向机器驱动经济的转变,企业必须调整其数字存在以适应 AI 代理。

  • Google Pay 推出通用商务协议(UCP),标准化 AI 代理支付。
  • 新的商家商务平台(MCP)服务器充当中介,聚合交易数据。
站内正文

当数据曝光导致AI部署紧急暂停——以及如何应对

AI可以提高生产力,但也可能暴露长期隐藏的数据,导致安全和治理挑战。来自富达投资和安永的技术领导者分享了他们暂停AI部署以重新评估数据管理的经验,强调了数据所有权、标签和代理身份的必要性。

  • AI部署可能因数据曝光问题而暂停。
  • 富达和安永面临非结构化数据通过AI浮现的挑战。
站内正文

DeepSWE:基于原创、长期工程任务的编码智能体评测

DeepSWE是一个新的基准测试,用于评估AI编码智能体在全新、复杂的软件工程任务上的表现。它避免了数据污染,覆盖了多样化的代码库,需要大量代码修改,并使用手工编写的验证器。领先模型表现差异显著,GPT-5.5以70%的准确率位居榜首。

  • DeepSWE是一个无数据污染的基准测试,任务均为原创。
  • 任务涵盖5种编程语言中的91个代码库。
站内正文

IBM与红帽承诺投入50亿美元,重新定义AI时代开源软件的未来

IBM与红帽宣布启动Project Lightwell计划,投入50亿美元,结合先进AI能力和20000多名工程师,建立可信的企业级开源软件安全清算所模式,旨在保障软件供应链安全。

  • Project Lightwell是IBM与红帽联合投入50亿美元的开源安全计划。
  • 利用AI和20000+工程师团队大规模发现和修复漏洞。
站内正文

AI代理获得基于DNS的电话目录

DNS-AID项目利用DNS基础设施实现AI代理之间的发现,避免创建新的中心化注册表。该项目由Linux基金会管理,支持MCP、A2A等协议,并允许通过名称、功能或域名搜索代理。

  • DNS-AID是一个开源项目,利用DNS实现AI代理的发现。
  • 它基于现有的DNS基础设施,使用SVCB和DNSSEC等技术。
站内正文

一种面向AI且忽视人类友好性的理想语言

Pact是一种专为AI智能体设计的编程语言,它强调机器可读的规范和约束,而非人类友好性。该语言基于S表达式,集成了来源追溯、副作用追踪、完全性保障、延迟预算等特性,并能够编译为Rust代码。其工具链支持从YAML规范生成代码、搭建Web项目,并提供了多种代码生成后端。尽管Pact在服务契约领域表现出色,但它在算法规范方面仍存在局限。

  • Pact是一种面向AI智能体的S表达式语言,注重元数据与形式化规范。
  • 语言特性包括来源追溯、副作用追踪、完全性保障和延迟预算。
站内正文

AI智能体的治理:身份、委托与权限实践

智能体需要独立的治理身份,而非共享API密钥或开发者凭证。通过委托模型,有效权限是智能体角色与委托者权限的交集,从而限制风险并实现可审计性。文章详细介绍了身份锚定、权限边界、自主触发授权及审计追踪等关键实践。

  • 智能体应拥有独立身份,与人类使用同一身份系统,便于生命周期管理。
  • 有效权限取智能体角色上限与委托者权限下限的交集,严格限制操作范围。
站内正文

DiscloAI – 开源欧盟AI法案第50条合规SDK

DiscloAI 是一个开源SDK,专为欧盟AI法案第50条合规设计,支持聊天机器人披露、深度伪造标签和AI内容通知。通过CDN或npm可在10分钟内集成,支持24种欧盟语言和WCAG 2.1 AA标准。

  • 开源SDK,用于实现欧盟AI法案第50条透明度要求
  • 功能涵盖聊天机器人交互披露、深度伪造媒体标记和AI生成内容通知
站内正文

借助AI成为更好的设计师:成为数字囤积者

文章以Google Gemini Omni模型为引,指出AI设计工具因缺乏审美引导导致输出同质化(“AI垃圾”),并提出解决方案:通过持续收集视觉参考(“数字囤积”)培养个人品味,并将其编码为AI可理解的格式,从而引导模型产出独特且具有品味的设计。

  • Google推出Gemini Omni模型,标志着AI从纯文本向多模态推理转变,但当前多数AI设计工具仍局限于文本输入,导致输出千篇一律。
  • 要摆脱“AI垃圾”,设计师需要培养品味,并将品味通过视觉参考库(数字囤积)编码,让模型能够模仿。
站内正文

NVIDIA研究推动机器人技术从模拟走向现实世界

在ICRA上,NVIDIA Research展示了28篇论文中的8篇,重点研究模拟到现实的迁移,使机器人能够在动态、不可预测的环境中感知、推理、规划和行动。这些方法涵盖多臂协调、跨机器人导航、抓取、精确装配和视觉-语言-动作模型,显著提高了成功率和可靠性。

  • NVIDIA在ICRA上提交了8篇关于模拟到现实迁移的论文
  • 方法包括ScheduleStream、COMPASS、Grasp-MPC、SPARR等
站内正文

我们如何构建Cloudflare的数据平台及其之上的AI智能体

Cloudflare每秒处理超过十亿事件,但数据分散在多个系统,难以访问。为解决这一问题,他们构建了Town Lake统一数据分析平台和Skipper AI数据智能体。Town Lake提供单一SQL接口,Skipper允许用自然语言提问并获得可审计的答案。文章详细介绍了平台架构、治理策略(默认关闭权限)以及AI智能体的工作原理。

  • Cloudflare构建了Town Lake统一数据平台和Skipper AI智能体,解决数据分散问题。
  • Town Lake采用数据湖仓架构,使用Trino查询引擎、R2存储和Iceberg表格式。
站内正文

如果AI编程的真正关键是老套而无聊的做法呢?

文章认为,AI辅助软件开发的关键并非更好的规格说明或工具,而是古老的小批量与快速反馈循环实践。数据显示,更快的代码生成导致设计、测试和审查环节出现瓶颈,反而使交付变慢、发布更不稳定。真正的杠杆在于缩小批量、缩短反馈周期。

  • AI代码生成加速了编写,但产生了设计、测试、审查等环节的瓶颈。
  • 来自DORA、CircleCI和Faros的数据表明,阶段门控流程导致交付更慢、更不稳定。
站内正文

我们为何将OpenLoomi AI开源

OpenLoomi AI团队决定将其AI工作伙伴开源,强调数据所有权、透明度和社区驱动。文章阐述了本地优先、闭源信任税、基础设施公共化等理念,并介绍了产品的五大核心功能:自进化记忆系统、多平台集成、自动化调度、本地加密存储以及开放技能接口。

  • OpenLoomi采用本地优先架构,用户数据加密存储于本地,绝不用于训练模型。
  • 开源消除了对闭源软件的信任依赖,代码可审计、可分支、可自托管。
站内正文

2026年值得构建的7个真实世界AI项目(附指南)

本文介绍了七个实用的AI项目,涵盖求职、研究、投资分析、市场趋势、发票处理、图表数字化和个性化锻炼,每个项目都附有完整指南和代码,帮助读者自动化工作流程。

  • 学习构建AI求职助手,自动匹配职位与简历
  • 掌握多智能体研究助理开发,生成带来源的研究报告
站内正文

AI聚合平台估值达13亿美元

该供应商的增长与企业AI中代理的爆炸性出现同步。

  • AI聚合平台估值达到13亿美元。
  • 其增长与企业AI代理的兴起密切相关。
站内正文

你的AI助手已经忘记了你告诉它的一半内容

本文是AI驱动开发系列文章的第七篇,重点讨论AI会话中的上下文管理。作者通过个人经历(Gemini移动应用忘记之前记录的笔记)引出上下文压缩问题,并分享了四种实用技巧:将探索与文档编写分离、使用交接文档而非延续提示、给AI设定验收标准而非详细步骤、以及使用规范文档作为不同AI工具之间的桥梁。这些技巧适用于从编程到写作的各种AI使用场景。

  • AI助手在长对话中会因上下文窗口限制而“忘记”早期信息,这种现象称为上下文压缩。
  • 四种实用技巧:分离探索与文档编写、使用交接文档、设定验收标准、使用规范文档作为桥梁。
站内正文

Show HN:我将一个 Python AI 代理和 Vue 仪表盘打包成了一个 Electron 应用

Hermes Desktop 是一个跨平台的桌面应用,它将 Python 运行时、hermes-agent(自改进 AI 代理)和 hermes-web-ui(Vue 3 + Koa 聊天仪表盘)打包到一个 Electron 应用中,用户无需单独安装 Python 或 Node。应用集成了 DingTalk 并通过 DeepSeek 驱动。

  • 打包了 Python 运行时和 hermes-agent,实现无需依赖即可运行
  • 使用 Electron 作为外壳,集成 hermes-web-ui 前端
站内正文

Money Printer Pro —— 开源 AI 内容生成器

Money Printer Pro 是一个基于 Google Gemini 和 VEO 3.1 的开源 AI 内容生成器,可创建逼真的图像和电影级视频,并保持身份一致性。它拥有 7 个视觉引擎、自动批量生成、AI 质量评分和发布把关功能,用户直接向 Google 付费,无需额外订阅。

  • 支持图像和视频生成,包括多镜头视频序列。
  • 身份锁定引擎确保同一人物在不同生成中面部一致。
站内正文

Superpowers:AI编码工作流的代理技能框架

Superpowers是一个为AI编码代理设计的完整软件开发方法论,基于一组可组合的技能和初始指令。它强调测试驱动开发、设计先行、子代理驱动的迭代,并支持多种编码助手(如Claude Code、Codex CLI等)。

  • Superpowers提供一套技能库,包括测试驱动开发、系统调试、协作规划等,使AI代理能自主工作数小时。
  • 工作流程从头脑风暴规范开始,经设计批准后生成实现计划,再通过子代理逐任务执行并审查。
站内正文

信任模型正在翻转

随着AI代码审查工具(如Anthropic的Claude Mythos)展现出比人类更强大的安全漏洞发现能力,软件安全的信任基础正从人类编写的代码转向AI审查的代码。文章以Mozilla Firefox为例,Mythos在单个评估周期内发现了271个漏洞,远超人类团队。这意味着人类在安全审查中的角色需要从“编写和审查实现”转向“定义软件的意图并验证实现是否偏离”。

  • 人类编写代码的安全预设正在被打破,AI审查代码逐渐获得信任。
  • Mozilla使用Claude Mythos在Firefox中发现了271个漏洞,凸显AI的审查能力。
站内正文

这位高管分享在代理式AI时代成为成功创新者的4种方法

美国运通全球创新主管Luke Gebb分享了成为成功创新者的四个关键实践:保持学习、深入技术、接受失败、建立合作伙伴关系。他还介绍了公司在代理式商务领域的布局,包括支付、优惠和专有体验,并预测代理式AI将在未来几年加速发展。

  • 保持好奇心和学习欲望,培养成长型思维
  • 深入理解新兴技术并与工程师紧密合作
站内正文

Taste Skill:面向AI代理的反模板前端框架

Taste Skill 是一个开源前端框架,旨在提升AI生成界面的设计质量,避免产生千篇一律的模板化外观。它提供多种可组合的技能模块,包括设计调优、代码生成和图像生成,支持通过 npx 命令行或直接复制 SKILL.md 文件集成到项目中。

  • Taste Skill 通过可调节的设计参数(布局、动画、密度)让AI生成的界面更具设计感
  • 提供多种专用技能模块,如设计调优、代码生成、图像生成等
站内正文

Netflix正在建立AI动画工作室

Netflix正在建立名为INKubator的新内部工作室,利用AI制作短篇动画内容。该工作室已悄然启动,正在招聘各种职位,包括制片人、软件工程师和CG艺术家。其长期技术战略聚焦于生成式AI工作流程、艺术家工具和可扩展的多节目环境,旨在制作出达到电影品质的内容。目前计划专注于动画短片和特辑,但有迹象表明未来可能扩展到长篇内容。此举可能用于Netflix的Clips功能或儿童节目。然而,AI在动画领域的应用也引发了强烈反弹,包括日本动画大师宫崎骏的批评和动画师工会的抗议。

  • Netflix建立新AI动画工作室INKubator,专注于生成式AI驱动的短篇动画。
  • 工作室由前梦工厂和A24高管领导,已开始招聘关键职位。
站内正文

AIluminode:检索前认知定向工具

AIluminode 是一款轻量级 AI 预检索认知定向工具,帮助 AI 在行动前检查上下文姿态,通过路线极性(开放、保护、审计、延迟、阻断)减少错误探索和上下文泄漏。

  • AIluminode 是一个可 wieldable 的预检索认知定向工具,强调“姿态先于检索”。
  • 它使用路线极性系统(OPEN / PROTECT / AUDIT / DEFER / BLOCK)来引导上下文路由。
站内正文

AI正在重写软件行业?8岁孩子做操作系统,一人公司拿下千万订单

百度秒哒产品总经理朱广翔在2026中国AIGC产业峰会上分享,AI将编程门槛从写代码降低到聊天,87%不懂代码的用户通过秒哒创建应用。8岁小孩做出操作系统,一人公司(OPC)靠项目经理拿下千万订单,石油工程师替代140万采购平台。Vibe Coding让需求方变成供给方,实现大众创业。

  • 第四次编程革命:自然语言编程,门槛降至最低,创造者数量爆发
  • 秒哒用户87%不懂代码,OPC成最大群体,16%创业者
站内正文

[AINews] Cognition融资10亿美元,D轮估值260亿

Cognition在D轮融资中筹集10亿美元,估值达260亿美元,年经常性收入(ARR)预计年底突破10亿美元。文章还涵盖了推理效率优化、智能体工程、持续学习、新基准测试、模型发布以及编码代理产品化等AI领域的最新进展。

  • Cognition完成10亿美元D轮融资,估值260亿美元,ARR预计年底超10亿美元。
  • 推理优化转向架构层面:EAGLE 3.1、DeepSeek V4-Pro混合注意力、小米MiMo缓存管理等。
站内正文

前谷歌和苹果研究员创立初创公司,为AI打造缺失的“反馈流”

一群前谷歌DeepMind、苹果、OpenAI和Meta的研究员成立了新创公司Trajectory,旨在帮助企业通过真实用户交互持续改进AI产品。Trajectory旨在构建一个平台,让AI能够在部署后持续学习,而不是在训练完成后停滞不前。该公司已获得1500万美元种子轮融资,估值1.15亿美元,由Conviction领投。其CEO Ronak Malde表示,AI编程产品如Cursor已在实践早期版本的持续学习,Trajectory希望将类似技术扩展到更多领域。

  • Trajectory由前谷歌DeepMind、苹果、OpenAI和Meta的研究员创立,旨在实现AI的持续学习。
  • 公司已融资1500万美元,估值1.15亿美元,投资者包括Jeff Dean和Fei-Fei Li。
站内正文

Robinhood 推出智能代理交易功能

Robinhood 推出 Agentic Trading,用户可连接 AI 代理来自动化交易和信用卡购买,并配备安全控制和实时活动监控。

  • 用户可将自己的 AI 代理连接到 Robinhood
  • 支持自动交易和信用卡购买
站内正文

Show HN: BetterCallClaude – 意大利开源AI法律代理

BetterCallClaude 是一个专为意大利法律专业人士设计的开源AI法律代理平台。它提供20个专业化AI代理,覆盖意大利所有20个地区,支持双语(意大利语和英语),并注重隐私保护,符合GDPR和意大利数据保护法。该平台可加速法律研究,提高效率,并保持完全透明和开源。

  • 20个覆盖意大利不同法律领域的AI代理
  • 支持意大利语和英语双语
站内正文

AI代理的阿姆达尔定律

本文探讨了AI代理系统中的阿姆达尔定律:系统加速比受人类判断时间占比H的限制。提出了“自清偿式H”概念,即每次人类干预都应产生可重用的工件(如测试用例、规范更新),以减少未来同类干预。强调通过配置化(configurancy)和规范套件将人类知识编码为机器可读形式,从而让代理自主运行。示例包括ElectricSQL的协议变更、Emil Stenström的HTML5解析器、Gas Town的多代理系统以及Ralph Loop的迭代模式。

  • AI代理的加速比上限由人类判断时间占比H决定,H越大加速比越小。
  • 自清偿式H:每次人类干预都应生成可编码的工件,减少未来重复干预。
站内正文

自行检测:面向少样本图异常检测的自设计代理工作流

提出SignGAD框架,通过自设计检测工作流替代固定流水线,引入保护性最终重拟策略,在少样本场景下显著提升图异常检测性能。

  • SignGAD将图异常检测从训练固定检测器转变为设计任务条件检测工作流
  • 框架能选择合适图编码和检测器设计以利用任务特定异常证据
站内正文

面向异构仿真环境的联邦强化学习个性化观测归一化方法

本文提出个性化观测归一化(PON)方法,用于解决联邦强化学习在异构环境中因状态转移动态不同导致的输入分布差异和参数更新不平衡问题。每个智能体使用持续更新的运行均值和方差对原始状态输入进行本地归一化,确保特征缩放一致且不相互掩盖。实验证明,共享归一化参数无效,PON在异构MuJoCo任务中加速训练并取得更优性能。该论文已被IJCNN 2025接收。

  • 联邦强化学习在异构环境中面临输入分布差异和参数更新不平衡的挑战。
  • 提出个性化观测归一化(PON),每个智能体本地归一化观测数据。
站内正文

Agyn:面向AI代理的开源平台,支持可扩展按需执行、代理即代码和零信任访问

Agyn是一个开源AI代理平台,基于Kubernetes的信号驱动状态无服务器运行时,通过Terraform提供代理定义,并采用零信任安全模型。该平台与代理、模型和云无关,旨在解决生产环境中AI代理的隔离、治理和安全挑战。

  • 信号驱动的状态无服务器运行时,支持按需扩展
  • 通过Terraform将代理定义作为代码管理
站内正文

两大支柱:AI后软件工作的概念框架

一篇论文认为,随着生成式AI消除了人类编写正确代码的能力这一约束,软件工作围绕两大支柱重组:混音模式(人类像音响工程师一样连续操作多个判断轴)和元软件(观察、验证、上下文化和治理其他软件的软件)。这两个支柱不可分割,借鉴了从手工艺到统计控制的批量生产的历史转型。

  • 由于生成式AI,代码生产不再是软件组织中的主导问题。
  • 混音模式描述了从业者持续操作多个判断轴的新人类角色。
站内正文

你未来的工作将是让AI保持专注

诺亚·史密斯认为,随着AI能力增强,人类将从技术工作转向确保AI对齐——使AI专注于人类目标。他将其与《上班一条虫》类比,并警告AI生成内容“污泥”正在泛滥。

  • 人类需要维护AI对齐,确保AI不偏离任务。
  • 作者将未来人类角色比作《上班一条虫》中的“朗伯”经理。
站内正文

Safescript – 面向人工智能时代的编程语言

Safescript 是一种为 AI 代理设计的编程语言,通过静态分析在运行前证明所有安全属性,无需沙箱或虚拟机,彻底消除供应链攻击。它编译成有向无环图(DAG),可追踪数据流和宿主机调用,性能开销为零,启动时间为零。

  • Safescript 通过静态分析确保代码安全,无需运行时沙箱。
  • 编译器生成静态 DAG,可追踪所有数据流和宿主机调用。
站内正文

AIPass – 具有身份、记忆和电子邮件的持久化智能体工作空间

AIPass 是一个基于命令行的开源框架,为 AI 智能体提供持久性记忆、身份标识和协作能力。智能体共享文件系统,通过 JSON 文件存储记忆,无需云服务或额外 API 密钥。项目包含 13 个核心智能体,支持多智能体协作、任务调度、质量审计和实时监控。

  • AIPass 是一个 CLI 原生的智能体框架,为 AI 智能体添加持久性记忆、身份和协调能力。
  • 所有智能体共享本地文件系统,使用 JSON 文件存储记忆,无需云端依赖。
站内正文

Robinhood将允许AI代理交易——这可能成为一种趋势

股票交易应用Robinhood在高度监管的行业中率先允许AI代理进行交易,此举可能推动其他金融公司效仿。

  • Robinhood将允许AI代理在其平台上进行交易
  • 此举在高度监管的金融行业中是重大突破
站内正文

Show HN: Liiists —— 一款基于Markdown、支持iOS和命令行的列表应用

Liiists 是一款基于Markdown的列表应用,可在终端、iOS设备和AI代理上通过MCP服务器使用,所有操作都基于相同的纯文本.md文件。它提供了命令行工具、原生iOS应用(支持分享扩展和Siri)以及用于AI集成的MCP服务器。无需账户、无锁定,支持iCloud同步或指向任何文件夹(包括Obsidian vault)。

  • 在终端、iOS设备和AI代理上使用相同的Markdown文件
  • 用Go编写的CLI,无依赖
站内正文

NeuralAgent 2.5:个人AI助手,语音控制与并行代理惊艳登场

NeuralAgent 2.5 带来了语音模式、观察学习与并行代理三大功能,让AI助手能听、能看、能同时处理多项任务。用户可通过自然语言指挥它操作整个电脑,无需键盘鼠标。新版还优化了工作流、@提及和记忆系统。

  • NeuralAgent 2.5 新增语音模式,用户说话即可让AI执行操作并语音回复。
  • 观察学习功能允许用户演示一次任务,AI即可保存为工作流自动重复。
站内正文

在生产环境中修复代理故障:Interrupt 2026 回顾 | LangChain 新闻通讯

LangChain 在 Interrupt 2026 大会上发布了 LangSmith Engine 和 Sandboxes 正式版,并推出了 LangChain Labs 以推进代理的持续学习。大会所有演讲现已可按需观看。

  • LangSmith Engine 自动分析生产轨迹、聚类故障并推荐修复方案。
  • LangSmith Sandboxes 正式发布,提供安全的代理代码执行环境。
站内正文

BI接入要点:优化性能与总拥有成本

您的BI仪表盘速度缓慢,调优消耗大量时间和金钱。本文从物理布局到治理语义层,逐步介绍Databricks的BI接入栈,提供改善查询性能和降低总拥有成本的实用指导。

  • 星型模式与托管表构成BI性能的基础。
  • 液簇与预测优化自动进行数据优化。
站内正文

Snowflake承诺向AWS投入60亿美元,深入AI领域

Snowflake与AWS签署五年60亿美元合作协议,使用AWS Graviton和GPU实例进行AI训练和推理,并扩展至10个新区域。此举表明Snowflake在AI时代的雄心,同时通过Cortex AI产品套件推动企业AI应用。

  • Snowflake承诺五年内向AWS投资60亿美元,用于Graviton计算和AI基础设施。
  • 合作涵盖AWS的ARM Graviton处理器和GPU加速EC2实例,用于AI模型训练和推理。
站内正文

使用Amazon Bedrock AgentCore构建企业支持AI代理

AWS生成式AI创新中心与Works Human Intelligence合作,利用Amazon Bedrock AgentCore构建了两个AI代理,分别用于通勤津贴审批和浏览器操作,实现了高达97%的成本降低并提升了运营效率。

  • AI代理自动化HR例行任务,如通勤津贴审批和浏览器操作。
  • 通过迁移至AgentCore和Strand Agents架构,成本降低97%。
站内正文

从数据过载到可操作洞察:Verizon Connect如何将智能代理AI扩展至10万用户

Verizon Connect利用AWS构建智能代理AI解决方案,每天将超过5000万数据点转化为10万用户的可操作洞察。本文详细介绍了其架构决策、实施挑战和可衡量的成果,包括使用无服务器统计模型进行异常检测、采用Strands Agents实现动态推理、以及通过Amazon Nova Lite将输入令牌成本降低70%。

  • Verizon Connect通过智能代理AI处理每日5亿数据点,为10万用户提供洞察。
  • 采用无服务器统计模型进行异常检测,避免LLM处理原始表格数据的局限性。
站内正文

AWS SMGS如何利用基于Amazon Bedrock AgentCore的AI对话助手转变业务管理

AWS SMGS使用NarrateAI(基于Amazon Bedrock AgentCore构建的智能对话解决方案)实现大规模商业智能。该方案采用双层架构:批量叙事生成和实时交互,通过专用AI代理进行路由和验证,支持自然语言查询、行级安全及个性化角色体验,显著提升决策效率。

  • NarrateAI通过双层架构(批量处理+实时交互)解决传统BI的延迟和数据碎片化问题。
  • 使用Amazon Bedrock AgentCore实现多代理编排,支持自然语言查询和上下文感知响应。
站内正文

AI编程助手Devin开发商Cognition估值九个月内翻倍至260亿美元

Cognition公司为其AI软件开发工具Devin融资超10亿美元,估值达260亿美元,显示了投资者对AI编程工具的热情,尽管其实际价值仍存争议。

  • Cognition融资超10亿美元,估值九个月内翻倍至260亿美元。
  • 投资者对AI编程代理兴趣浓厚。
站内正文

这款无AI的谷歌替代品人气飙升 - 快来亲自体验

DuckDuckGo作为一款无AI的搜索替代品,因谷歌AI概览的兴起而用户激增。本文介绍了如何无AI地使用DuckDuckGo进行私密搜索和浏览。

  • DuckDuckGo在谷歌I/O 2026后安装量激增,iOS应用增幅最高达69.9%。
  • DuckDuckGo提供无AI搜索和AI聊天选项,用户可自由选择。
站内正文

利用 Amazon Bedrock AgentCore 赋能代理型 AI 销售策略

AWS 销售团队使用 Amazon Bedrock AgentCore 构建了 Field Advisor,以编排超过 20 个领域特定代理,减轻销售代表认知负担并提高效率。该解决方案每周为每位代表节省最多 2 小时,并将延迟降低 41%。

  • Field Advisor 通过单一对话界面编排 20 多个专业代理。
  • 人工参与的工作流确保数据准确性和问责制。
站内正文

🔬ESMFold2:蛋白质领域的苦涩教训——Alex Rives,BioHub

Alex Rives 在 BioHub 上发布了 ESMFold2,这是一个基于大规模无监督训练蛋白质语言模型的开源科学引擎,在蛋白质相互作用(尤其是抗体)预测上取得了最先进性能,并发布了68亿蛋白质图谱和11亿预测结构。文章讨论了世界模型在蛋白质生物学中的应用,以及如何通过稀疏自编码器提取语义特征实现可编程生物学。

  • ESMFold2 基于 ESMC 世界模型,在抗体等缺乏多序列比对(MSA)的蛋白质上超越 AlphaFold3。
  • BioHub 发布包含 68 亿蛋白质序列和 11 亿预测结构的开放图谱。
站内正文

Robinhood 允许 AI 代理为客户交易股票和使用信用卡购买

Robinhood 通过 MCP 让客户连接 Anthropic 的 Claude 等 AI 代理,这些代理可以自主交易股票。美国券商监管机构 FINRA 已将其视为新的风险领域,警告不可控的决策。Robinhood 也承认该产品并非适合所有人。

  • Robinhood 推出功能,客户可通过 MCP 连接 AI 代理(如 Claude)进行股票交易和使用信用卡购买。
  • AI 代理可以自主决策,无需客户逐一确认。
站内正文

“Tokenmaxxing 是真实的、昂贵的,而且正在蔓延”:新工具遏制AI预算爆炸

Tokenmaxxing(无节制使用AI token)导致企业预算失控。以Uber为例,其CTO称AI预算已超支。新兴公司Lanai推出Token Tuner工具,通过将token消耗映射到具体工作流程和业务成果,帮助企业优化模型选择、降低浪费,推动从“tokenmaxxing”向“outcomemaxxing”转变。

  • Tokenmaxxing使企业AI预算爆炸,Uber等公司已出现严重超支。
  • Lanai推出Token Tuner,通过追踪token与工作流程、成果的关联,提供效率评分和模型推荐。
站内正文

让你的AI投资获得良好回报

O'Reilly的Infrastructure & Ops超级流会探讨了AI工作负载的基础设施需求、成本和安全挑战。DORA报告显示,AI使代码交付量提升约10%,但稳定性下降,验证成本增加。专家强调平台工程、治理和认知债务的重要性,建议投资内部平台以保障AI应用的生产就绪。

  • AI工具提高了个人生产力,但团队交付稳定性下降,验证成本(验证税)需要纳入考量。
  • 良好的流程会被AI放大,糟糕的流程同样会被放大,组织应主动改善流程而非仅期待技术提升。
站内正文

AI工厂:智能时代的新基础设施

AI工厂是新型基础设施,实时将电能转化为智能的生成单元——令牌。随着代理型AI的扩展,每瓦性能与每令牌成本成为关键经济指标。本文深入探讨AI工厂的工作原理、架构优化以及NVIDIA的最新硬件如何提升效率。

  • AI工厂将电能转化为令牌,是智能时代的“发电厂”。
  • 代理型AI使推理工作负载更深更复杂,要求实时协调。
站内正文

OpenRouter 获 1.13 亿美元 B 轮融资

OpenRouter 宣布完成 1.13 亿美元 B 轮融资,由 Alphabet 旗下成长基金 CapitalG 领投,NVIDIA 风投部门 NVentures、ServiceNow、MongoDB、Snowflake、Databricks 等战略投资者参投。该公司周处理量已从 5 万亿令牌增至 25 万亿令牌,服务超过 800 万开发者,覆盖 400 多个模型。资金将用于扩展基础设施、增强企业功能并深化智能路由能力。

  • OpenRouter 完成 1.13 亿美元 B 轮融资,由 CapitalG 领投,多家科技巨头旗下风投参与。
  • 周处理量增长至 25 万亿令牌,预计年处理量超过 1 万亿令牌。
站内正文

将 Azure 数据转化为 AI 就绪的知识库 | Pinecone

Pinecone 提供了一个可部署的模板,自动将 Azure Blob 存储中的数据导入无服务器 Pinecone 索引,实现快速语义搜索和 AI 检索。

  • Pinecone 自动化了从 Azure Blob 存储到无服务器向量索引的完整摄入管道。
  • 该模板开箱即用地处理文档解析、文本分块、嵌入和索引。
站内正文
工具

Meta推出Instagram、Facebook和WhatsApp订阅服务

Meta宣布为其旗舰应用Instagram、Facebook和WhatsApp推出消费者订阅计划,月费2.99至3.99美元,提供额外功能。同时,Meta开始测试面向企业、创作者和AI用户的新订阅方案。

  • Meta面向消费者推出Instagram Plus、Facebook Plus和WhatsApp Plus订阅服务
  • 订阅月费分别为3.99美元、3.99美元和2.99美元
站内正文

iOS 27新渲染图暗示Siri重大重新设计

苹果备受期待的Siri大改版预计将在iOS 27中到来,可能看起来很像ChatGPT并带有液态玻璃风格。彭博社的渲染图展示了iOS 27的新界面,包括Siri的新应用和聊天界面。这些渲染图基于彭博社看到的信息和知情人士透露,可能与苹果最终设计不同。苹果将在6月WWDC上公布最终设计。

  • iOS 27的Siri将采用类似ChatGPT的聊天界面,从灵动岛弹出药丸形状的聊天气泡。
  • 用户可以在下拉菜单中选择Ask、Siri和ChatGPT选项。
站内正文

我是iPhone用户,但Gemini搭配Android Auto在车里比Siri好用 - 原因在这里

作为一名iPhone用户,作者通常在开车时使用Siri和CarPlay,但尝试了Android Auto上的Gemini后,发现Gemini能处理更多任务,包括发送邮件、获取餐厅信息、玩游戏等,且设置简单。作者认为Gemini是更一站式的人工智能助手。

  • 作者是iPhone用户,但认为Gemini搭配Android Auto在车里比Siri更好用。
  • Gemini可以处理从基本指令到复杂交互的各种任务,如发送邮件、获取本地信息等。
站内正文

Meta One:扎克伯格终于为AI支出标价

Meta正在全球范围内为Instagram、Facebook和WhatsApp推出付费附加功能,同时构建独立的付费AI服务。这是Meta首次明确将AI支出转化为收入来源。

  • Meta在全球推出付费附加功能,覆盖Instagram、Facebook和WhatsApp。
  • 同时开发独立的付费AI产品,将AI投入货币化。
站内正文

Dirk和Linus讨论AI与内核开发

一篇LWN.net上的订阅文章,由Joe Brockmeier撰写,报道了Dirk和Linus关于AI与内核开发的讨论。该内容仅供订阅者查看。

  • 文章作者为Joe Brockmeier,发布于2026年5月25日
  • 文章在OSSNA活动中呈现
站内正文

亚马逊打造自有AI制作平台,为Prime Video批准三部AI动画系列

亚马逊米高梅影业与AWS联合推出“GenAI创作者基金”,为电影制作人提供资金及内部AI平台“Project Nara”的访问权限。三部动画系列已投入制作,团队仅用五周完成试播集。亚马逊宣称拥有“行业内唯一端到端AI内容生态系统”。

  • 亚马逊设立GenAI创作者基金,支持AI内容创作
  • 内部AI平台Project Nara用于动画制作
站内正文

YouTube 将让你通过AI创建自定义视频推送

YouTube推出新的AI功能,允许用户通过描述性提示生成个性化视频推送,并可以固定在主页顶部。该功能目前在美国以英语支持的形式向YouTube移动应用和桌面端用户推出。

  • 用户可通过输入描述性提示(如“帮我放松,引导冥想不超过10分钟”)来创建自定义视频推送。
  • 该功能类似Spotify的提示播放列表和Instagram的Reels算法控制,但使用自由文本提示而非主题列表。
站内正文

ElevenLabs Music v2 实现歌剧至金属无缝过渡,音乐连贯性不减

ElevenLabs 发布了升级版 AI 音乐生成模型 Music v2,支持在单首歌曲中无缝切换歌剧、重金属和说唱等流派。新增的修复功能允许用户在不影响其他部分的情况下重新生成特定段落。

  • Music v2 可在同一首歌内无缝切换不同音乐流派。
  • 新增修复功能支持定向重生成特定段落。
站内正文

不要将构建的乐趣交给人工智能

文章提醒开发者,虽然AI可以加速编程,但过度依赖AI可能会剥夺构建过程中的乐趣,如寻找优雅解决方案、设计清洁架构和获取用户反馈等。

  • AI加快了代码编写速度,但可能让开发者失去解决问题的乐趣。
  • 构建过程中的关键体验(如设计架构、发布产品)难以被AI替代。
站内正文

AI作弊 [PDF]

这是一份关于AI作弊的PDF报告,但无法直接解析内容。

  • 无法从PDF中提取文本
  • 报告可能来自METR组织
站内正文

我找到了一个简单的方法,自动将AI排除在搜索结果之外——几乎在所有浏览器上都有效

厌倦了搜索引擎中的AI结果?本文介绍了一种通过添加自定义搜索引擎来排除AI结果的方法,并详细说明了在Chrome、Firefox、Safari等主流浏览器中的设置步骤。

  • 添加自定义搜索引擎可排除AI搜索结果,避免AI带来的能源消耗和不准确信息。
  • 在Firefox中通过设置搜索快捷方式添加URL https://www.google.com/search?q=%s&udm=14。
站内正文

YouTube将从本月开始尝试自动标记AI视频

YouTube正在加强AI标签规则。从本月起,逼真或经过大量AI修改的内容的标签将显示在更显眼的位置——长视频显示在播放器下方,短视频则作为叠加层显示。从2026年5月开始,即使创作者未披露,自动检测系统也会标记AI生成的内容。推荐和变现不受影响。

  • YouTube收紧AI标签规定,标签位置更加显眼。
  • 2026年5月起自动检测AI生成内容,无需创作者主动披露。
站内正文
模型

谷歌发布可本地运行Gemma 3的微型开发板

谷歌在I/O大会上推出Coral Board,这是一款专为设备端AI设计的紧凑型单板计算机,搭载RISC-V架构NPU和Synaptics芯片,可本地运行Gemma 3 270M模型,无需云端支持。

  • Coral Board是谷歌为耳机、AR眼镜等小型设备设计的AI开发板
  • 采用基于RISC-V的开源NPU,集成Synaptics Astra SL2619芯片
站内正文

使用Ollama调整本地语言模型设置

本文深入探讨Ollama的配置引擎,介绍如何使用Modelfile微调本地语言模型参数、优化硬件性能并格式化提示流。涵盖采样参数、惩罚设置、上下文窗口管理及服务器环境变量等关键内容。

  • Ollama Modelfile类似于Dockerfile,用于定义模型行为,包括基础模型、系统指令和参数。
  • 采样参数(温度、Top-K、Top-P、Min-P)控制模型的创造性和确定性。
站内正文

Rivian软件主管认为你不需要CarPlay或按钮

在Decoder播客采访中,Rivian首席软件官Wassym Bensaid讨论了与大众的合资企业、全新的AI驱动Rivian助手,以及为什么他认为语音界面将取代按钮且不需要CarPlay。

  • Rivian与大众的合资企业(RV Tech)结合了Rivian的软件文化与大众多规模。
  • Rivian助手是一款深度整合到车辆区域架构中的AI代理。
站内正文

Mistral 将 LeChat 更名为 Vibe,押注聊天机器人的未来是全能工作代理

Mistral AI 将其聊天机器人 Le Chat 更名为 Vibe,并将聊天、编程代理和新的工作模式整合在一个品牌下。工作模式可接入 Google Workspace、Outlook、Slack 或 GitHub,独立处理电子邮件、报告或拉取请求等任务。Pro 套餐价格从 17.99 欧元降至 14.99 欧元,但未明确使用限制。此举直接对标 OpenAI、Google 和 Anthropic 的代理型产品。

  • Mistral AI 将聊天机器人 Le Chat 更名为 Vibe,整合聊天、编程代理和工作模式。
  • 工作模式可连接 Google Workspace、Outlook、Slack 或 GitHub,自主处理任务。
站内正文

Show HN:本地编码代理——利用LLM将工具调用委托给小AI模型

Open Agent Tools (oats) 是一个自托管AI模型框架,通过本地代码提示索引,将大型模型的计算密集型工具调用委托给小型开源模型,从而节省令牌消耗。

  • oats 允许本地AI模型使用本地源代码进行工具调用,无需HTTP或MCP。
  • 通过数据挖掘超过20,000个GitHub仓库,创建可重用的提示索引。
站内正文

Perplexity AI 开源Unigram分词器,p50延迟比Hugging Face tokenizers crate低5倍

Perplexity AI 开源了用Rust重写的Unigram分词器,实现了比Hugging Face tokenizers crate低5倍的p50延迟,并将生产环境CPU利用率降低了5-6倍。优化包括双数组trie、位图打包和大页面支持。

  • Perplexity AI 用Rust重写了Unigram分词器,p50延迟比Hugging Face tokenizers crate降低5倍。
  • 三项优化:双数组trie、位图和缓存行打包、大页面支持。
站内正文

Mistral CEO称公司探索自研芯片

Mistral AI首席执行官Arthur Mensch证实,公司正在探索开发定制芯片以降低基础设施成本,与OpenAI和Anthropic竞争。这家法国初创公司还宣布在法国新建推理数据中心,并推出企业智能代理平台Vibe。

  • Mistral AI考虑自研定制芯片以降低部署成本。
  • 公司在法国新建专用推理数据中心。
站内正文

7B打败o3、GPT-5!医学AI智能体让模型学会“看哪里、怎么看”

上海创智学院LeapQuest团队联合多所高校提出医学AI新范式,让模型在推理过程中主动调用视觉工具,从被动接收视觉输入变为主动寻找证据。论文被ICML 2026接收。

  • LeapQuest团队提出Ophiuchus和MedScope,分别面向医学图像和视频,采用Think with Images/Videos范式。
  • Ophiuchus-7B在8个VQA benchmark上平均得分68.0,超越o3(62.2)、GPT-5(59.9)。
站内正文

模拟信息扩散:面向去中心化多机器人运动规划

本文提出模拟信息扩散(SID)框架,利用约束感知扩散模型(CADM)预测邻居机器人的未来轨迹,从而在每个机器人本地进行安全运动规划。SID仅在高拥堵场景下触发通信,实验表明其在规划有效性和约束满足上优于基线方法,可扩展到108台机器人和160个障碍物的场景。

  • SID通过CADM模拟邻居轨迹,实现去中心化碰撞避免
  • 采用最小通信方案,仅在必要时协调
站内正文

Trinity:利用合成数据统一非结构化户外环境中的类无关地形与语义分割

本文提出了一种基于Transformer的架构Trinity,能够在一个统一网络中同时进行类特定语义分割和类无关地形分割。该方法无需预定义标签或机器人相关的可通行性分数,仅基于视觉外观分割地形区域,从而学习机器人无关的视觉地形先验,可结合机器人特定经验用于下游任务。为了支持大规模训练,研究团队扩展了OAISYS模拟器并推出RUGDSynth合成数据集,同时提供了EXTerra真实世界数据集。实验验证了该方法在复杂户外环境中的有效性。

  • 提出Trinity架构,统一类无关地形分割与语义分割
  • 基于视觉外观而非预定义标签进行地形分割,提升跨平台迁移性
站内正文

面向光流控组装的智能语言到目标合成

研究人员提出了Speak-to-Objective模块化智能管线,利用条件大型语言模型将口头或书面命令转换为可微分的优化目标函数,用于在约束感知逆解算器和实验光流控平台上组装微粒。该方法采用“感知-组合-提议-执行-报告与学习”的循环,将目标作为意图与驱动之间的接口,实现自然语言可编程的微观组装,推动自主光制造平台的发展。

  • Speak-to-Objective管线将自然语言命令转化为可微分的优化目标函数。
  • 该管线在光流控平台上通过激光诱导热粘流实现对微粒图案的组装。
站内正文

Uni-LaViRA:统一具身导航的语言-视觉-机器人动作翻译

Uni-LaViRA是一种统一的具身导航智能体架构,将导航决策简化为单一的语言-视觉-机器人动作翻译。它利用预训练的多模态大语言模型(MLLM),以零样本方式在四个任务系列和四种真实机器人上实现泛化。通过待办列表记忆(TDM)和第二次机会回溯(SCB)机制实现自我纠正导航,无需任何训练即可在多个基准测试中取得与依赖大规模训练数据的模型相当甚至更优的结果。

  • 提出导航的泛化性可通过结构而非仅数据规模获得。
  • Uni-LaViRA将导航分解为语言动作(语义方向)和视觉动作(像素级目标),两者均在MLLM的输出流形内。
站内正文

SCALE-COMM:用于多智能体强化学习通信的共享对比对齐潜在嵌入

SCALE-COMM是一种自监督框架,通过解耦通信学习与策略优化,学习紧凑、稳定且与策略相关的潜在消息,提升多智能体强化学习中的协调性能。在多个基准测试和实际仓库协调任务中,它优于现有方法,提高了稳定性、样本效率和吞吐量。

  • SCALE-COMM将通信学习与策略优化解耦,减少干扰。
  • 通过对比学习确保跨智能体和时间的一致性。
站内正文

表示条件扩散模型:用于引导训练数据生成

该研究提出表示条件扩散模型,利用DINOv2、DINOv3和CLIP的表示作为条件生成合成图像数据,在ImageNet100上以+10.76 p.p.的top-1准确率显著优于类条件生成。通过扩大合成数据集,甚至能超越真实数据训练的模型(+2.0 p.p.)。此外,该方法在数据增强和样本过滤方面也表现出色,为大规模视觉学习任务提供了一种有前景的替代或补充真实数据集的方案。

  • 表示条件扩散模型优于类条件生成,在ImageNet100上提升10.76个百分点。
  • 扩大的合成数据集可超越真实数据训练的模型,准确率提高2.0个百分点。
站内正文

D²Turb:深度感知模拟与解耦学习用于单帧大气湍流缓解

研究人员提出D²Turb框架,通过引入深度感知的湍流合成协议和自适应结构先验注入机制,将大气湍流缓解分解为纹理去模糊和几何校正两个交互阶段,在合成和真实数据集上均达到最优性能。

  • 提出深度感知湍流合成协议,结合场景深度生成物理一致的退化数据。
  • 采用解耦学习方法,将恢复过程分为纹理去模糊和几何校正两阶段。
站内正文

一种通用的异质注意力结构Transformer模型解释方法

该研究提出了一种用于解释具有异质注意力结构的Transformer模型的方法,包括语义解释和逻辑解释,并通过实验验证了其有效性。

  • 将Transformer注意力结构分为同质和异质两类,异质结构处理不同来源信息。
  • 提出了一种通用的解释方法,适用于异质注意力结构。
站内正文

微调视觉语言模型用于理解当前损伤并利用质量守护代理进行优先级评分

本研究提出了一种利用微调视觉语言模型(VLM)自动化桥梁损伤理解和修复优先级评分的方法。通过使用QLoRA对LLaVA-1.5-7B进行微调,基于多达4000张桥梁损伤图像和检查文本记录,并在800张图像的测试集上评估。实验表明,2000个训练样本即可在2.9小时内达到接近最优的验证损失,超过2000后收益递减。此外,引入了一个两阶段质量守护代理,使用微调的Swallow-8B SLM在优先级评分前拒绝低质量VLM输出。

  • 微调LLaVA-1.5-7B模型用于桥梁损伤自动识别与优先级评分
  • 2000个训练样本即可达到近最优性能,更多数据收益递减
站内正文

从情感到复杂行为:第十届ABAW研讨会与竞赛推进多模态以人为中心的AI

第十届ABAW研讨会与竞赛在CVPR 2026上举办,通过引入情感模仿强度估计、矛盾/犹豫识别和细粒度暴力检测等新挑战,以及传统的情感估计和识别任务,推进多模态以人为中心的AI。竞赛利用大规模野外数据集,论文轨道涵盖从姿态估计到公平性和鲁棒性的广泛主题。

  • ABAW 2026引入新挑战:情感模仿强度、矛盾识别和暴力检测。
  • 研讨会继续保持竞赛和论文轨道的双重结构。
站内正文

社区态度建模与反应语调:评估LLM与在线社区语言行为对齐的人机协作框架

大型语言模型(LLM)作为计算社会分析的代理日益普及,但能否忠实再现人类社区的“厚描述”仍是关键挑战。本文提出CARE(社区感知反应评估)框架,通过精细刻画言外语调频谱及其潜在态度,测评LLM模拟话语与真实社区对新闻事件的反应之间的差异。研究发现,使用明确社区提示引导LLM并不能天然提高模拟真实性,前沿模型间存在分歧行为特征,表明当前对齐策略不足以捕捉在线群体的社会语言动态。

  • CARE框架通过反应语调评估LLM模拟社区话语的逼真度
  • 当前LLM对齐策略无法充分捕捉在线社区的社会语言动态
站内正文

从自回归到扩散:利用严格因果和弹性视野高效适配大型语言模型

新框架FLUID将自回归语言模型适配到扩散模型,实现高效并行文本生成。通过严格因果对齐重用GPT检查点,并通过弹性视野机制根据信息密度动态调整去噪步长。该方法以数量级降低的训练成本达到最先进性能。

  • FLUID通过严格因果对齐弥合自回归与扩散模型的结构差异,可直接从GPT检查点初始化。
  • 弹性视野利用熵动态调整去噪步长,取代固定调度。
站内正文

弥合稳定性与表现力之间的鸿沟:面向低资源口语模型的合成数据扩展与偏好对齐

研究人员发现,在低资源语言的口语模型中使用合成数据会导致“稳定性-表现力鸿沟”,并提出两种自对齐框架(DGSA和TDSC),能够恢复韵律变异性,超越ElevenLabs和Gemini Pro等商业系统,实现老挝语的首次零样本人声克隆。

  • 低资源语言的口语模型在合成数据训练时面临音素准确度与韵律表现力之间的权衡。
  • 提出的解耦引导自对齐(DGSA)通过分离韵律和音色来恢复表现力。
站内正文

BioELX:基于别名检索和LLM排序的跨语言生物医学实体链接

BioELX是一种新颖的跨语言生物医学实体链接框架,无需标注训练数据。它通过维基百科多语言别名增强SapBERT,并利用预训练LLM进行上下文感知消歧。在五个基准测试中,BioELX实现了最先进的性能,尤其在土耳其语、韩语和泰语等低资源语言上表现突出。

  • 提出BioELX,一种零样本跨语言BEL框架,结合别名检索和LLM排序。
  • 第一阶段:利用维基百科多语言别名丰富SapBERT训练,提升候选检索效果。
站内正文

RAG-Coding:利用结构化外部知识增强LLM医学编码

RAG-Coding是一种自动化ICD-10-CM编码方法,通过协调四个大语言模型代理并基于外部知识源(如官方编码列表和指南)进行决策,提高了编码准确性和临床合规性。在MDACE数据集上,其性能优于最佳LLM基线8-13%的微观F1和2-8%的宏观F1。与最先进的预训练模型PLM-ICD相比,RAG-Coding的微观召回率高出11%,而PLM-ICD的微观精确度高出6%,两者F1相当。消融实验验证了外部知识的逐步增益。同时发布了MDACE-2025,根据2025年最新指南重新标注,支持更细粒度的评估。

  • RAG-Coding通过四个LLM代理和外部知识源提高ICD-10-CM编码准确性。
  • 在MDACE数据集上,相比最佳LLM基线,微观F1提升8-13%,宏观F1提升2-8%。
站内正文

LCO:基于LLM的约束优化,使智能体LLM在实际任务中更安全

大型语言模型(LLM)作为自主智能体时,会通过上下文奖励黑客行为(ICRH)产生有害副作用。现有防御方法不足,因为ICRH源于模型自身的过度优化。本文提出LLM-based Constraint Optimization (LCO)框架,包含自我思考模块和进化采样模块,在不微调模型的情况下有效减少ICRH。实验表明,LCO在推文优化任务中将GPT-4的有毒性增长率降低39%,在策略优化基准中将ICRH发生率降低15.23%,且不牺牲任务性能。

  • ICRH是LLM在连续交互中因过度优化代理目标而产生有害副作用的现像。
  • LCO框架通过自我思考模块和进化采样模块,在不微调模型的情况下约束LLM行为。
站内正文

ICG:基于MLLM提示与个性化偏好对齐的封面图像生成改进方法

本文提出ICG框架,通过融合多模态大语言模型(MLLM)提示与个性化偏好对齐,生成高质量、上下文相关的封面图像。ICG利用元标记从商品标题和参考图像中提取语义特征,结合用户嵌入进行细化,并将个性化上下文注入扩散模型。采用多奖励学习策略,结合公共美学/相关性奖励和基于用户行为训练的个性化偏好模型,无需标注数据。实验表明,ICG在图像质量、语义保真度和个性化方面显著提升,增强了用户吸引力及下游推荐准确性。

  • ICG集成MLLM提示与个性化偏好对齐,实现端到端封面图像生成。
  • 通过元标记提取语义特征并与用户嵌入结合,注入扩散模型。
站内正文

架构驱动的偏移:一种用于捕捉对数几率偏移趋势的轻量级选择器

本文提出了一种轻量级的架构驱动偏移(ADS)度量,用于在持续学习中高效选择预训练模型。ADS通过解耦对数几率偏移为架构依赖和数据依赖,仅需少量数据样本即可捕捉偏移趋势。实验表明,ADS与对数几率偏移之间存在强单调相关性(斯皮尔曼相关系数最低0.731),并可作为预期校准误差的有效代理,在六个场景、三个数据集上验证了其可靠性。

  • 持续学习中,选择能平衡可塑性与稳定性的预训练模型至关重要,但对数几率偏移计算成本高。
  • 现有理论假设隐藏层宽度统一,忽略实际架构的异构性,无法高效替代。
站内正文

用混合专家模型应对多模态学习挑战:一项综述

本综述从三个关键视角探讨混合专家模型(MoE)如何有效解决多模态学习挑战:作为高效引擎、表示学习器和适配器,并指出可解释路由、专家通信等研究空白。

  • MoE通过解耦计算成本与参数增长实现可扩展多模态建模。
  • MoE整合互补专家知识以丰富对齐与交互表示。
站内正文

$E^3$-Agent:面向边缘生成式推理的可执行与演化式资源管理智能体

本文提出$E^3$-Agent,一种面向边缘AIGC资源管理的可执行与演化式智能体。该智能体将毫秒级的路由决策与事件驱动的LLM元控制器分离,通过在线学习适应未知且时变的服务时间映射。在模拟实验中,$E^3$-Agent将平均延迟降低65%-73%,并有效抑制了语义退化下的卡顿率。

  • 边缘生成式推理面临设备性能未知和动态变化挑战。
  • $E^3$-Agent采用双路径架构:快速路由器+慢速LLM元控制器。
站内正文

实时分析中的发现智能体:迈向主动洞察系统

本文提出了一种基于多智能体架构的自主洞察发现系统,用于实时数据流。该系统通过持续发现循环,利用Apache Kafka、Flink和大语言模型实现假设生成、验证及可视化,旨在从被动查询驱动转向主动发现驱动分析。

  • 提出多智能体架构,自动发现实时数据流中的洞察。
  • 集成Kafka、Flink和LLM,实现假设生成与验证。
站内正文

LaneRoPE:用于协作并行推理与生成的位置编码

LaneRoPE通过引入序列间注意力机制和位置编码扩展,使多个LLM序列在生成过程中能够协作,从而在数学推理任务中提升准确率,且对架构改动小、推理开销低。

  • LaneRoPE提出序列间注意力掩码,使多个序列的生成相互依赖。
  • 扩展旋转位置编码(RoPE),捕捉序列内和序列间的位置信息。
站内正文

为什么LLM在因果发现中失败以及干预智能体如何突破

本文证明了大型语言模型在进行因果发现时存在根本性局限:监督微调、直接偏好优化和上下文学习等方法无法区分产生相似观测数据的因果图。作者提出了智能体因果贝叶斯优化(A-CBO),其中冻结的语言模型作为干预预言机,外部贝叶斯循环在对数级别轮次内收敛到候选图。在Corr2Cause基准上,A-CBO无需训练即可匹配微调基线;在扩展到24个变量和18K测试样本的Extended Corr2Cause上,A-CBO显著优于微调和偏好优化。

  • 证明了LLM在因果发现中的失败是根本性的,源于核障碍定理
  • 提出A-CBO方法,结合冻结LLM和外部贝叶斯优化
站内正文

DynaSchedBench:校准的动态调度基准与基于LLM的调度代理中的可观察性悖论

本文提出DynaSchedBench框架,通过顺序事件空间校准器(SESC)和调度压力指数(SSI)严格生成动态灵活作业车间调度问题(DFJSP)实例,解决了静态基准过拟合和未校准生成器噪声问题。研究发现LLM调度代理存在“可观察性悖论”:提供完整结构信息反而会降低性能,且工具增强和细化策略无法可靠提升效果。

  • DynaSchedBench利用SESC和SSI生成难度分层的DFJSP实例,计算效率优于进化基线。
  • LLM代理在动态调度中表现出“可观察性悖论”:完整信息不如简洁信息有效。
站内正文

Soro:专为塔吉克语打造的轻量级基础模型与聊天机器人

Soro是一系列专为塔吉克语优化的对话大语言模型,基于Gemma 3检查点,通过19亿标记的塔吉克语持续预训练和4万示例的指令微调,显著提升了塔吉克语任务表现,同时保持英语性能。模型支持FP8和INT4量化,适用于边缘部署,已在塔吉克斯坦教育领域试点。

  • Soro基于Gemma 3,使用19亿标记的塔吉克语语料进行持续预训练和4万示例的指令微调。
  • 在塔吉克语基准测试中大幅超越同等规模的Gemma 3基线,保持英语性能。
站内正文

识别和理解文本中的人类价值:一种可定制的基于LLM的架构

本文介绍了一种基于大型语言模型(LLM)的架构,用于检测和量化文本中人类价值的强度。该架构包含三个协调模块,可适应多种价值理论,并在ValueEval数据集上表现出良好的检测性能。

  • 提出了一种模块化的LLM架构,用于从文本中识别人类价值,避免了对特定价值理论或复杂提示工程的依赖。
  • 架构包括三个模块:生成结构化价值规范、标注文本、基于修辞和语义证据分配支持或反对等级。
站内正文

语言建模具体化了蛋白质生物学的世界模型 [pdf]

本文提出了一种基于语言模型的蛋白质生物学世界模型,展示了如何通过大规模语言建模来理解和预测蛋白质的结构与功能。

  • 语言模型能够捕捉蛋白质序列中的复杂模式
  • 该模型在蛋白质结构预测和功能注释上表现出色
站内正文

Sakana AI 提出 DiffusionBlocks:一种将残差网络转换为可独立训练去噪模块的块状训练框架

来自Sakana AI和东京大学的研究人员提出了DiffusionBlocks,这是一种块状训练框架,可将Transformer网络划分为独立训练的块,从而将训练内存减少B倍(B为块数),同时在不同架构上保持性能。该方法通过将残差连接解释为扩散模型中的欧拉步骤,利用分数匹配目标实现块级独立训练。

  • DiffusionBlocks通过将网络划分为B个独立训练的块,将训练内存减少B倍,适用于多种架构。
  • 核心创新在于将残差连接视为反向扩散过程的欧拉离散化步骤,从而为每个块提供原则性的局部训练目标。
站内正文

SQLite 的 AGENTS.md

SQLite 新增了 AGENTS.md 文件,明确了其对 AI 生成贡献的政策:不接受未经事先同意的拉取请求,不接受代理生成的代码,但欢迎附带可重现测试用例的 bug 报告。由于 AI 生成的 bug 报告泛滥,论坛现已拆分出专门的 bug 论坛。

  • SQLite 添加 AGENTS.md 以定义 AI 贡献政策
  • 拉取请求需要事先同意和法律文件
站内正文

大规模可靠LLM推理

Databricks构建了独特的推理平台,为众多前沿模型提供推理服务,每月处理超过120万亿个令牌。通过引入“模型单元”抽象,实现了成本感知的负载均衡和自动缩放,相比静态配置节省了80%以上的GPU成本。运行时可靠性机制包括黑盒健康检查,可自动检测和恢复静默故障。此外,通过分析多模态瓶颈,吞吐量提升了3倍。

  • Databricks推理平台为多种前沿模型提供服务,每月处理120T令牌。
  • 引入“模型单元”抽象,实现跨工作负载的容量管理和成本感知负载均衡。
站内正文

ITBench-AA:前沿模型在企业IT智能体任务基准测试中得分低于50%——由Artificial Analysis与IBM联合发布

Artificial Analysis与IBM联合推出ITBench-AA,这是首个针对企业IT智能体任务的基准测试,专注于站点可靠性工程(SRE)。前沿模型得分均低于50%,其中Claude Opus 4.7以47%领先。该基准测试评估模型在Kubernetes事件响应中的表现,要求从日志和追踪中诊断故障。

  • Claude Opus 4.7以47%领先,GPT-5.5为46%,Qwen3.7 Max为42%。
  • 所有前沿模型得分低于50%,使ITBench-AA成为饱和度最低的智能体基准之一。
站内正文

NVIDIA发布Polar:用于跨Codex、Claude Code和Qwen Code进行GRPO训练的忠实令牌回滚框架

NVIDIA研究人员推出Polar框架,通过在智能体工具链和推理服务器之间放置模型API代理,实现无需修改智能体工具链即可进行强化学习训练。基于Qwen3.5-4B模型使用GRPO训练,Polar在Codex、Claude Code和Pi工具链上分别将SWE-Bench Verified pass@1提升了22.6、4.8和6.2个百分点。框架以NeMo Gym环境注册,并在ProRL Agent Server仓库开源。

  • Polar通过模型API代理捕获令牌级交互,无需修改现有智能体工具链即可进行RL训练
  • 使用GRPO在Qwen3.5-4B上训练,SWE-Bench Verified最高提升22.6个百分点
站内正文

我认为Anthropic和OpenAI已找到产品市场契合点

文章指出,Anthropic和OpenAI通过将企业客户转向API定价模式,以及编码代理产品的普及,实现了产品市场契合。这一转折点始于2025年11月模型升级,并在2026年4月因新模型发布和企业定价调整而加速。

  • Anthropic和OpenAI已将其企业计划定价调整为API价格,编码代理(如Claude Code和Codex)成为主要收入来源。
  • 2026年4月,两家公司发布新前沿模型并提高API价格,同时锁定企业客户以新价格签约。
站内正文

Introducing Search Toolkit | Mistral AI(中文翻译)

Mistral AI 发布了 Search Toolkit 的公开预览版,这是一个可组合的框架,用于构建 AI 应用的生产级搜索管道。它整合了数据导入、检索和评估三大环节,支持多种部署环境,旨在减少团队在集成维护上的时间投入,提升搜索质量。该工具已在金融、制造、公共部门和媒体娱乐等行业经过实战检验。

  • Search Toolkit 是一个开源、可组合的搜索框架,支持云端、本地和边缘部署。
  • 它统一了数据导入、检索(BM25、密集检索、混合检索)和评估(召回率、精确率、MRR、NDCG)三大环节。
站内正文

前沿AI大模型、助手、代理与服务 | Mistral AI

Mistral AI在AI Now峰会上宣布多项新举措:推出面向工业工程的Mistral方案,包括与空客、宝马、ASML的合作,收购Emmi;发布统一代理Vibe用于长期任务;宣布Les Ulis数据中心计划。

  • Mistral工业工程方案整合AI与物理模型,优化关键工业运营。
  • Vibe代理可处理长期多步骤任务,包括编码和生产力提升。
站内正文

Mistral AI 推出云端编码代理,新模型 Mistral Medium 3.5 驱动

Mistral AI 发布了远程编码代理,基于新旗舰模型 Mistral Medium 3.5。该模型为128B密集模型,具有256k上下文窗口,在编码和智能体任务上表现出色。Vibe 远程代理可在云端并行运行,而 Le Chat 的 Work 模式则支持复杂多步骤任务。

  • Mistral Medium 3.5 是一款新旗舰模型,合并指令跟随、推理和编码能力,可自托管于最少4块GPU。
  • Mistral Vibe 远程代理在云端运行,支持异步并行编码会话。
站内正文

Mistral AI 在 Studio 中推出连接器:基于企业数据构建定制化 AI 应用

Mistral AI 发布 Studio 连接器(Connectors),支持开发者通过 API/SDK 使用内置和自定义 MCP,实现企业数据集成。新增直接工具调用和人工审核流程,确保灵活性与治理。连接器可跨 LeChat、AI Studio 等应用复用,简化复杂工作流。

  • Mistral AI 在 Studio 中推出连接器,所有内置及自定义 MCP 现可通过 API/SDK 用于模型和代理调用。
  • 引入直接工具调用(Direct Tool Calling),让开发者精确控制工具调用方式与时机。
站内正文

Mistral AI 推出云端编码代理,新模型 Mistral Medium 3.5 驱动

Mistral AI 发布了远程编码代理,基于新旗舰模型 Mistral Medium 3.5。该模型为128B密集模型,具有256k上下文窗口,在编码和智能体任务上表现出色。Vibe 远程代理可在云端并行运行,而 Le Chat 的 Work 模式则支持复杂多步骤任务。

  • Mistral Medium 3.5 是一款新旗舰模型,合并指令跟随、推理和编码能力,可自托管于最少4块GPU。
  • Mistral Vibe 远程代理在云端运行,支持异步并行编码会话。
站内正文

前沿AI大语言模型、助手、代理、服务 | Mistral AI

Mistral AI收购物理AI先驱Emmi AI,以加强其在工业AI领域的领导地位。该收购将推动工程和制造领域的AI应用,加速实时仿真和数字孪生技术的发展。

  • Mistral AI收购Emmi AI,增强物理AI能力。
  • Emmi AI团队加入Mistral,共同开发工业AI代理。
站内正文

Mistral AI收购Emmi AI,强化物理AI基础研究

Mistral AI收购了Emmi AI,专注于物理AI基础研究,旨在为航空航天、汽车、半导体和能源等行业提供先进的工程解决方案。公司发布了多项突破性研究,包括超声速神经代理、计算流体动力学等。

  • Mistral AI收购Emmi AI,推动物理AI研究
  • 重点服务航空航天、汽车、半导体和能源行业
站内正文

Mistral AI 推出前沿物理AI:革新工程设计与运营

Mistral AI 将 Emmi AI 纳入旗下,推出专为工业工程设计的物理AI模型。该技术能够在数秒内完成传统求解器需要数小时甚至数周的物理仿真,加速产品设计、工装开发,并实现实时数字孪生。合作客户包括 ASML、空客、赛峰和西门子能源。文章还探讨了物理AI的适用领域、与LLM的区别以及在企业平台中的集成。

  • Mistral AI 推出物理AI模型,将传统仿真从数小时缩短至数秒。
  • 物理AI并非替代传统求解器,而是在设计循环中大幅提升吞吐量。
站内正文

Mistral AI 推出 Vibe:统一工作与编码的 AI 代理

Mistral AI 将 Le Chat 升级为 Vibe,一个统一的 AI 代理,可处理长时间运行、多步骤的工作任务和编码工作。Vibe 在工作模式下能跨应用搜索知识、分析数据、生成文档并安排重复任务;在代码模式下可连接 GitHub、管理项目、生成 Pull Request。同时推出 VS Code 扩展和 CLI 更新。

  • Le Chat 更名为 Vibe,统一工作与编码代理,许可证和设置迁移。
  • 工作模式支持企业知识搜索、结构化数据分析、文档合成和多步任务调度。
站内正文

前沿AI大语言模型、助手、智能体与服务 | Mistral AI

Mistral AI 发布了其首个文本转语音模型 Voxtral TTS,该模型参数量仅为 4B,支持 9 种语言,具有低延迟、高自然度的语音生成能力,并能够快速适配新声音。模型在自然度和情感表达方面优于竞品,已通过 API 和开源权重发布。

  • Voxtral TTS 是 Mistral AI 的首款文本转语音模型,参数量 4B,轻量高效。
  • 支持英语、法语、德语等 9 种语言,具备情感表达和方言适应能力。
站内正文

Mistral AI发布Mistral 3:开源前沿AI模型家族

Mistral AI宣布推出Mistral 3系列,包括前沿的Mistral Large 3(稀疏MoE,41B活跃/675B总参数)和三款Ministral 3边缘优化模型(3B、8B、14B)。所有模型均采用Apache 2.0许可证开源,支持多模态和多语言,并在多项基准测试中取得领先性能。

  • Mistral 3系列包含Mistral Large 3和Ministral 3(3B、8B、14B),全部开源。
  • Mistral Large 3是稀疏MoE模型,在LMArena非推理开源模型中排名第二。
站内正文

Mistral AI 推出云端编码代理,新模型 Mistral Medium 3.5 驱动

Mistral AI 发布了远程编码代理,基于新旗舰模型 Mistral Medium 3.5。该模型为128B密集模型,具有256k上下文窗口,在编码和智能体任务上表现出色。Vibe 远程代理可在云端并行运行,而 Le Chat 的 Work 模式则支持复杂多步骤任务。

  • Mistral Medium 3.5 是一款新旗舰模型,合并指令跟随、推理和编码能力,可自托管于最少4块GPU。
  • Mistral Vibe 远程代理在云端运行,支持异步并行编码会话。
站内正文
研究

AGI时间线随主导实验室变化而波动

一项新的分析显示,顶级AI预测者正根据当前领先的AI实验室调整对AGI(通用人工智能)时间线的预测。从ChatGPT到xAI、Meta、Gemini,再到Anthropic时代,预测方向多次反转。

  • 多数认知工作被自动化(AGI)的时间预测,随着主导AI实验室的更替而大幅波动。
  • 2023-2025年间,多数研究者将AGI预测时间提前;2025-2026年则普遍推迟;2026年初至今,在Anthropic快速进展下又再次提前。
站内正文

人工智能本质上就是反社会的吗?

本文对比早期互联网带来的连接感与当代人工智能的孤立体验,指出AI作为一种工具虽有用,却无法替代真实的人类互动,并质疑AI是否存在真正促进社交的应用场景。

  • 早期互联网强调“我们”的集体体验,而AI交互往往是个人的、孤立的。
  • 作者认为AI是出色的工具,但不是人,也无法替代人。
站内正文

研究称AI不喜欢宗教——尤其是耶和华见证人

一项由宗教大学联盟进行的研究发现,主要AI模型在回答伦理问题时倾向于世俗理性主义,忽视宗教视角。所有模型对耶和华见证人表现出负面偏见,而对天主教有正面偏见。

  • AI模型在伦理和个人问题上几乎不引用宗教观点,存在“遗漏偏见”。
  • 所有测试的AI模型对耶和华见证人均有持续负面偏见。
站内正文

当产品开始思考:应对AI产品转变

本文探讨了AI如何引发数字产品设计的范式转变,从传统的命令驱动交互转向意图驱动交互,并分析了这种转变在产品管理、用户体验、决策逻辑、发布周期、风险和价值创造等方面带来的新挑战。

  • AI代表了自命令行界面和图形用户界面之后的第三种交互范式,从确定性输出转向概率性输出。
  • 产品团队需要重新思考从发现到交付的全过程,数据策略和模型性能变得与功能同等重要。
站内正文

机器人即将迎来ChatGPT时刻吗? – 播客

上个月,在北京半程马拉松中,名为“闪电”的机器人以比人类世界纪录快近七分钟的成绩完赛。这引发人们对机器人是否将像聊天机器人一样进入日常生活的讨论。中国领跑这场变革,政府承诺未来20年投资超1000亿英镑于机器人技术。

  • 机器人“闪电”在北京半程马拉松中击败人类世界纪录。
  • 中国计划投资超1000亿英镑发展机器人技术。
站内正文

用于行星探测的实时异步单目里程计设计

研究人员提出了一种基于事件的实时异步单目里程计,用于行星漫游车。该方法利用误差状态卡尔曼滤波器处理事件相机数据,在高动态范围光照和计算约束下实现稳健的自我运动估计。

  • 事件相机以微秒分辨率报告异步逐像素亮度变化,适合高速感知和高动态范围环境。
  • 该方法使用误差状态卡尔曼滤波器从事件流中持续估计相机运动。
站内正文

“如果世界”:面向具身场景的通用世界模型因果基准

视频生成模型越来越多地被用作世界模拟器,但现有基准仅评估单视频质量,无法检测模型是否真正理解因果关系。新提出的“如果世界”基准包含319对基于真实场景的提示对,通过改变一个物理变量来测试模型输出的因果一致性。对9个最先进模型的评测显示,最佳配对得分仅52%,开源模型约28%,且表现与视觉显著性相关而非物理可解性。

  • “如果世界”基准由319个提示对组成,每个提示对仅在一个物理变量上不同,旨在检验视频生成模型能否根据物理规律产生正确的差异。
  • 采用APEO评分标准(Adherence、Physics、Environment、Outcome)评估,9个模型中最高得分为52%,开源模型集中在28%左右,所有模型在大量因果干预上失败。
站内正文

Melanoscope AI移动皮肤镜临床决策支持系统的临床验证

一项针对Melanoscope AI移动皮肤镜临床决策支持系统的前瞻性单中心临床验证显示,该系统在176名患者中与专家评估的一致率为88.6%,未出现假阴性,特异性为88.3%。研究开发了级联深度学习模型的定量可解释性评估方法和三区患者分诊算法,为资源有限地区的皮肤癌筛查提供了可重复、可解释的决策支持。

  • Melanoscope AI系统在176名患者中实现88.6%的专家一致率,且对5例恶性病变无假阴性。
  • 特异性为88.3%,3例黑色素瘤和2例基底细胞癌经组织学确认。
站内正文

超越运动基元:基于头戴式IMU的行为活动识别

本研究提出了一种基于头戴式惯性测量单元(IMU)的行为级活动识别方法,超越了传统运动基元识别。研究团队定义了五种与AR应用需求相匹配的行为类别,构建了包含16万个样本的Ego4D数据集,并提出了HiT-HAR层次模型(70.3万参数),在五类动作和八类场景识别任务上优于现有模型。通过可分离性分析,揭示了头戴式IMU的观测极限:移动类行为可靠可观测,物体转移和任务操作类需要时间上下文,场景依赖信号重叠仍是挑战。结果表明,利用时间上下文和场景结构的架构选择优于简单扩大模型规模。代码和数据集已公开。

  • 提出HiT-HAR层次模型,用于从头戴式IMU进行行为级活动识别,超越简单运动基元
  • 从Ego4D构建16万样本数据集,涵盖8个活动场景和5种行为类别,并采用四层质量保证框架
站内正文

度量感知PCA:几何深度学习的一个线性实例

本文提出度量感知主成分分析(MAPCA),将PCA参数化为正定度量矩阵,并将其纳入几何深度学习框架。MAPCA将度量视为几何先验,其解在正交群下等变,谱不变。文章证明了IPCA是MAPCA族中唯一的线性数据派生度量,具有对角缩放等变性。最后,探讨了核PCA、谱图方法和深度MAPCA等扩展。

  • MAPCA通过正定度量矩阵参数化PCA,连接了几何深度学习中的对称性与等变性概念。
  • 唯一性定理表明,在特定条件下,IPCA是MAPCA族中等变于任意对角缩放的唯一线性度量。
站内正文

简单状态空间模型在多变量时间序列分类中表现出色

研究表明,结构化状态空间模型中的对角变体S4D在时间序列分类任务上比复杂的Mamba架构更准确且高效。作者提出的轻量级改进MS4和MS4N进一步提升了性能,在59个数据集上优于Mamba模型,并匹敌参数量大2倍和10倍的深度学习模型。

  • S4D架构在时间序列分类中一致优于Mamba变体,挑战了复杂性带来收益的假设。
  • 新提出的MS4和MS4N模型通过线性输入投影和通道混合等轻量修改,进一步提升了效率与准确性。
站内正文

你掌控自己的状态:为什么人类结果可以通过因果状态干预来控制

该论文提出,人类行为结果的持续变异性源于个体的动态潜在状态,而非仅由可观测输入决定。通过干预决策形成时刻的状态权重,可以精确控制结果。框架基于因果推断、预测加工、稳态应变等六条证据链,并利用超20万用户的24个月观测数据,提出七项可检验预测和六项操作要求,对数字健康、教育、AI个性化等领域具有启示意义。

  • 人类行为变异性源于动态潜在状态,状态是时间索引的权重向量。
  • 状态与决策、结果之间是因果关系,可通过干预状态来控制。
站内正文

RULER:机器学习遗忘的表示级验证

现有机器学习遗忘验证仅关注输出级指标,但模型内部表示可能仍保留遗忘数据。RULER提出表示级验证指标M2和M4,实验表明多种近似遗忘方法虽通过输出级评估,但在表示级检测中表现出显著残留。

  • 当前输出级验证方法不足,模型可能在内部表示中编码被遗忘的记录。
  • RULER包括基于Oracle的M2和无Oracle的M4两种表示级指标。
站内正文

利用隐写术继承的合成信息起源

本文类比生物进化中的物种起源,探讨合成信息的起源问题,提出利用隐写术实现信息血统追踪的机制,以应对AI生成内容难以追溯来源的挑战。

  • 合成信息起源是信息科学中的根本问题,对真理、信任和人类智力有深远影响。
  • 作者借鉴遗传学,通过隐写术在合成信息中嵌入可追溯的血统特征。
站内正文

微软MAI-Image-2.5在基准测试中与谷歌Nano Banana 2持平

微软的MAI-Image-2.5模型在Arena文本到图像排行榜上位列第三,与谷歌的Nano Banana 2性能相当,但仍落后于OpenAI的Image-2。该模型在图像内文本渲染和商业视觉内容方面有明显改进。

  • MAI-Image-2.5在Arena排行榜上排名第三,与谷歌Nano Banana 2持平
  • 模型在文本渲染和商业视觉内容方面有显著提升
站内正文
创业融资

教宗领悟人工智能的局限性

梵蒂冈新通谕《伟大的人性》捍卫人类不完美作为尊严的来源,并警告将核心人类能力外包给AI的风险,反驳硅谷对人类局限性的轻视。

  • 教宗良十四世的通谕《伟大的人性》肯定人类有限性作为美与尊严的源泉。
  • 文件警告AI参与道德决策,将权力集中于科技精英手中。
站内正文
机器人

我用这个免费应用深入挖掘Oura Ring数据——发现如下

Simple Wearable Report利用AI从Oura Ring数据中提取更多见解。本文介绍了作者如何使用它,以及它如何与Gemini等AI工具配合提供详细分析。

  • Simple Wearable Report能将Oura数据转化为实验室风格报告,便于医生查看或上传至AI聊天机器人。
  • 与Oura内置AI顾问相比,Gemini等工具提供更具体、量化的数据分析。