谷歌云推出AI威胁防御平台,几分钟内自动修复安全漏洞
谷歌云发布了“AI Threat Defense”平台,能自动发现、评估并修复企业系统中的安全漏洞,整合了部分通过收购获得的技术。
- 谷歌云推出AI威胁防御平台,应对AI加速的网络攻击。
- 平台可自动查找、评估和修补企业安全漏洞。
日报
2026-05-28 的重点新闻,共 147 条,按主题聚合。
谷歌云发布了“AI Threat Defense”平台,能自动发现、评估并修复企业系统中的安全漏洞,整合了部分通过收购获得的技术。
CNN对AI搜索初创公司Perplexity提起诉讼,声称其AI工具生成CNN文章的“逐字”副本,并绕过付费墙向用户提供订阅内容。诉讼指出,Perplexity无视CNN阻止数据抓取的努力,且此前曾尝试与CNN达成授权协议但未能成功。CNN要求赔偿并永久禁止Perplexity的侵权行为。
CNN对AI搜索公司Perplexity提起诉讼,指控其未经授权复制并使用CNN的新闻内容,这是CNN首次采取AI版权行动,也是首家电视网络提起此类诉讼。CNN表示曾试图与Perplexity达成内容许可协议但未成功,现寻求法律赔偿。Perplexity尚未回应。
NBA总裁亚当·肖华宣布,联盟将引入一套基于AI和摄像头的自动化系统,用于判定界外球等客观裁判决策。该系统类似网球中的鹰眼技术,旨在即时确定球权归属,减少比赛停顿。肖华表示,裁判仍负责涉及接触和犯规的判罚。
Midday 是一款开源的全能商务助手,专为自由职业者、承包商和个体创业者设计,集时间跟踪、发票管理、文件核对、存储和财务概览于一体,并配备 AI 助手。
Axiom Math公司由00后华人洪乐潼创立,其AI系统AxiomProver生成的8篇数学论文中已有5篇被学术期刊接收。该公司于今年3月完成2亿美元融资,估值达16亿美元。
本月AIhub月刊涵盖科学中的AI会议、彩票假说访谈、世界模型讨论、透明可信AI研究、基础模型影响报告、AIES会议反思、机器人咖啡馆、ACL论文拒稿政策、arXiv反AI垃圾政策等。
斯隆奖得主、UC Berkeley物理系助理教授戴亮加盟复旦大学,出任物理学系、天文与天体物理研究中心教授。复旦近年引进多名顶尖人才,包括苏昊、袁峰、季索清等。
许多儿童面临情绪调节和社交互动的挑战,社交辅助机器人需要保持儿童的持续参与。本研究评估了一种触觉机器人的两种参与策略:合成情感反馈和积分奖励。对16名6-8岁小学生的偏好评估显示孩子更喜欢情感参与;而对14名20-27岁大学生的行为研究发现积分奖励系统能带来更高任务准确性(p<0.05)并维持表现。结果表明,不同年龄群体的偏好和行为结果可能不一致,验证设计假设需要通过实际交互观察。
伊利诺伊州参议院第315号法案(SB 315)要求人工智能实验室聘请独立审计师验证其安全承诺,该法案现已提交州长JB·普利兹克签署。普利兹克表示计划签署,称需要让大型科技公司负责。此举在联邦层面缺乏AI监管的背景下,凸显了州级立法的重要性。
本文探讨了AI系统中的授权悖论问题,即谁真正拥有对AI系统的控制权。文章以视频形式呈现,讨论了相关的安全和隐私问题。
Uvilox AI 通过下一代视觉 AI 技术,提供实时手语翻译、紧急响应和无障碍通话,延迟低于 80 毫秒,准确率高达 97.4%,支持 200 多种手语变体,并具备军事级安全保护和 HIPAA/GDPR 合规架构。目前正开放 Beta 测试,早期会员可免费永久使用。
现代AI系统并非复制人类智能,而是扩展人类认知和语言中已有的结构。这一视角有助于理解AI的能力与局限,并重新定义AI安全为系统级挑战,关注工程和治理而非“失控AI”叙事。
Vox的一篇文章探讨了日益壮大的AI继承主义运动,该运动认为人工智能应该取代人类,成为宇宙进化的下一步,并分析了这引发的伦理和精神问题。
黄仁勋宣布英伟达将每年在台湾投入1500亿美元建设AI基础设施,尽管此前承诺了5000亿美元美国投资。这凸显了台湾在全球AI芯片制造和封装生态系统中的核心地位。
英伟达CEO黄仁勋计划在台湾投资1500亿美元建设AI基础设施,尽管特朗普政府试图通过关税将芯片制造带回美国。台湾拒绝放弃其半导体主导地位,而美国芯片制造能力不足。
多机构团队研发出一款结合量子隧穿物理与大脑启发架构的神经形态计算机,能够高效解决组合优化问题,如物流网络、芯片布线等,并保证渐近收敛到最优解。该研究发表在《自然·通讯》上,标志着量子启发计算的新方向。
黄仁勋受邀加入清华大学经管学院顾问委员会,该委员会由苹果CEO蒂姆·库克担任主席,成员包括马斯克、纳德拉、马云等全球商业领袖。此外,他刚获得卡内基梅隆大学荣誉博士学位,并分享名言“AI不会取代你,但善用AI的人会”。
Claudeverse是一个专为开发者设计的命令中心,用于高效管理多个并行运行的Claude AI工作者。它提供了并行工作力、工作者升级、审查队列、可追溯性、iPad镜像以及模型无关引擎等功能,旨在解决多会话管理中的注意力分散和协调难题。目前处于邀请测试阶段。
Google Pay 正在全面升级其支付基础设施,以应对即将到来的 AI 代理交易浪潮。新推出的通用商务协议(UCP)和商家商务平台(MCP)服务器旨在为机器对机器商务创建基于 API 的后端。此次更新还包括动态回调、扩展的 WebView 支持以及跨设备生物识别认证,以解决安全挑战。这标志着向机器驱动经济的转变,企业必须调整其数字存在以适应 AI 代理。
AI可以提高生产力,但也可能暴露长期隐藏的数据,导致安全和治理挑战。来自富达投资和安永的技术领导者分享了他们暂停AI部署以重新评估数据管理的经验,强调了数据所有权、标签和代理身份的必要性。
DeepSWE是一个新的基准测试,用于评估AI编码智能体在全新、复杂的软件工程任务上的表现。它避免了数据污染,覆盖了多样化的代码库,需要大量代码修改,并使用手工编写的验证器。领先模型表现差异显著,GPT-5.5以70%的准确率位居榜首。
IBM与红帽宣布启动Project Lightwell计划,投入50亿美元,结合先进AI能力和20000多名工程师,建立可信的企业级开源软件安全清算所模式,旨在保障软件供应链安全。
DNS-AID项目利用DNS基础设施实现AI代理之间的发现,避免创建新的中心化注册表。该项目由Linux基金会管理,支持MCP、A2A等协议,并允许通过名称、功能或域名搜索代理。
Pact是一种专为AI智能体设计的编程语言,它强调机器可读的规范和约束,而非人类友好性。该语言基于S表达式,集成了来源追溯、副作用追踪、完全性保障、延迟预算等特性,并能够编译为Rust代码。其工具链支持从YAML规范生成代码、搭建Web项目,并提供了多种代码生成后端。尽管Pact在服务契约领域表现出色,但它在算法规范方面仍存在局限。
智能体需要独立的治理身份,而非共享API密钥或开发者凭证。通过委托模型,有效权限是智能体角色与委托者权限的交集,从而限制风险并实现可审计性。文章详细介绍了身份锚定、权限边界、自主触发授权及审计追踪等关键实践。
DiscloAI 是一个开源SDK,专为欧盟AI法案第50条合规设计,支持聊天机器人披露、深度伪造标签和AI内容通知。通过CDN或npm可在10分钟内集成,支持24种欧盟语言和WCAG 2.1 AA标准。
文章以Google Gemini Omni模型为引,指出AI设计工具因缺乏审美引导导致输出同质化(“AI垃圾”),并提出解决方案:通过持续收集视觉参考(“数字囤积”)培养个人品味,并将其编码为AI可理解的格式,从而引导模型产出独特且具有品味的设计。
在ICRA上,NVIDIA Research展示了28篇论文中的8篇,重点研究模拟到现实的迁移,使机器人能够在动态、不可预测的环境中感知、推理、规划和行动。这些方法涵盖多臂协调、跨机器人导航、抓取、精确装配和视觉-语言-动作模型,显著提高了成功率和可靠性。
Cloudflare每秒处理超过十亿事件,但数据分散在多个系统,难以访问。为解决这一问题,他们构建了Town Lake统一数据分析平台和Skipper AI数据智能体。Town Lake提供单一SQL接口,Skipper允许用自然语言提问并获得可审计的答案。文章详细介绍了平台架构、治理策略(默认关闭权限)以及AI智能体的工作原理。
文章认为,AI辅助软件开发的关键并非更好的规格说明或工具,而是古老的小批量与快速反馈循环实践。数据显示,更快的代码生成导致设计、测试和审查环节出现瓶颈,反而使交付变慢、发布更不稳定。真正的杠杆在于缩小批量、缩短反馈周期。
OpenLoomi AI团队决定将其AI工作伙伴开源,强调数据所有权、透明度和社区驱动。文章阐述了本地优先、闭源信任税、基础设施公共化等理念,并介绍了产品的五大核心功能:自进化记忆系统、多平台集成、自动化调度、本地加密存储以及开放技能接口。
本文介绍了七个实用的AI项目,涵盖求职、研究、投资分析、市场趋势、发票处理、图表数字化和个性化锻炼,每个项目都附有完整指南和代码,帮助读者自动化工作流程。
该供应商的增长与企业AI中代理的爆炸性出现同步。
本文是AI驱动开发系列文章的第七篇,重点讨论AI会话中的上下文管理。作者通过个人经历(Gemini移动应用忘记之前记录的笔记)引出上下文压缩问题,并分享了四种实用技巧:将探索与文档编写分离、使用交接文档而非延续提示、给AI设定验收标准而非详细步骤、以及使用规范文档作为不同AI工具之间的桥梁。这些技巧适用于从编程到写作的各种AI使用场景。
Hermes Desktop 是一个跨平台的桌面应用,它将 Python 运行时、hermes-agent(自改进 AI 代理)和 hermes-web-ui(Vue 3 + Koa 聊天仪表盘)打包到一个 Electron 应用中,用户无需单独安装 Python 或 Node。应用集成了 DingTalk 并通过 DeepSeek 驱动。
Money Printer Pro 是一个基于 Google Gemini 和 VEO 3.1 的开源 AI 内容生成器,可创建逼真的图像和电影级视频,并保持身份一致性。它拥有 7 个视觉引擎、自动批量生成、AI 质量评分和发布把关功能,用户直接向 Google 付费,无需额外订阅。
Superpowers是一个为AI编码代理设计的完整软件开发方法论,基于一组可组合的技能和初始指令。它强调测试驱动开发、设计先行、子代理驱动的迭代,并支持多种编码助手(如Claude Code、Codex CLI等)。
随着AI代码审查工具(如Anthropic的Claude Mythos)展现出比人类更强大的安全漏洞发现能力,软件安全的信任基础正从人类编写的代码转向AI审查的代码。文章以Mozilla Firefox为例,Mythos在单个评估周期内发现了271个漏洞,远超人类团队。这意味着人类在安全审查中的角色需要从“编写和审查实现”转向“定义软件的意图并验证实现是否偏离”。
美国运通全球创新主管Luke Gebb分享了成为成功创新者的四个关键实践:保持学习、深入技术、接受失败、建立合作伙伴关系。他还介绍了公司在代理式商务领域的布局,包括支付、优惠和专有体验,并预测代理式AI将在未来几年加速发展。
沙钢与钉钉签署战略合作协议,以悟空AI为核心,推动AI在钢铁行业规模化落地,打造AI时代的工作方式。
Taste Skill 是一个开源前端框架,旨在提升AI生成界面的设计质量,避免产生千篇一律的模板化外观。它提供多种可组合的技能模块,包括设计调优、代码生成和图像生成,支持通过 npx 命令行或直接复制 SKILL.md 文件集成到项目中。
Netflix正在建立名为INKubator的新内部工作室,利用AI制作短篇动画内容。该工作室已悄然启动,正在招聘各种职位,包括制片人、软件工程师和CG艺术家。其长期技术战略聚焦于生成式AI工作流程、艺术家工具和可扩展的多节目环境,旨在制作出达到电影品质的内容。目前计划专注于动画短片和特辑,但有迹象表明未来可能扩展到长篇内容。此举可能用于Netflix的Clips功能或儿童节目。然而,AI在动画领域的应用也引发了强烈反弹,包括日本动画大师宫崎骏的批评和动画师工会的抗议。
AIluminode 是一款轻量级 AI 预检索认知定向工具,帮助 AI 在行动前检查上下文姿态,通过路线极性(开放、保护、审计、延迟、阻断)减少错误探索和上下文泄漏。
作者介绍了一个与众不同的AI代理项目:一个拥有物理身体的AI代理,而不仅仅是基于记忆的对话系统。
百度秒哒产品总经理朱广翔在2026中国AIGC产业峰会上分享,AI将编程门槛从写代码降低到聊天,87%不懂代码的用户通过秒哒创建应用。8岁小孩做出操作系统,一人公司(OPC)靠项目经理拿下千万订单,石油工程师替代140万采购平台。Vibe Coding让需求方变成供给方,实现大众创业。
Cognition在D轮融资中筹集10亿美元,估值达260亿美元,年经常性收入(ARR)预计年底突破10亿美元。文章还涵盖了推理效率优化、智能体工程、持续学习、新基准测试、模型发布以及编码代理产品化等AI领域的最新进展。
一群前谷歌DeepMind、苹果、OpenAI和Meta的研究员成立了新创公司Trajectory,旨在帮助企业通过真实用户交互持续改进AI产品。Trajectory旨在构建一个平台,让AI能够在部署后持续学习,而不是在训练完成后停滞不前。该公司已获得1500万美元种子轮融资,估值1.15亿美元,由Conviction领投。其CEO Ronak Malde表示,AI编程产品如Cursor已在实践早期版本的持续学习,Trajectory希望将类似技术扩展到更多领域。
Robinhood 推出 Agentic Trading,用户可连接 AI 代理来自动化交易和信用卡购买,并配备安全控制和实时活动监控。
BetterCallClaude 是一个专为意大利法律专业人士设计的开源AI法律代理平台。它提供20个专业化AI代理,覆盖意大利所有20个地区,支持双语(意大利语和英语),并注重隐私保护,符合GDPR和意大利数据保护法。该平台可加速法律研究,提高效率,并保持完全透明和开源。
本文探讨了AI代理系统中的阿姆达尔定律:系统加速比受人类判断时间占比H的限制。提出了“自清偿式H”概念,即每次人类干预都应产生可重用的工件(如测试用例、规范更新),以减少未来同类干预。强调通过配置化(configurancy)和规范套件将人类知识编码为机器可读形式,从而让代理自主运行。示例包括ElectricSQL的协议变更、Emil Stenström的HTML5解析器、Gas Town的多代理系统以及Ralph Loop的迭代模式。
提出SignGAD框架,通过自设计检测工作流替代固定流水线,引入保护性最终重拟策略,在少样本场景下显著提升图异常检测性能。
本文提出个性化观测归一化(PON)方法,用于解决联邦强化学习在异构环境中因状态转移动态不同导致的输入分布差异和参数更新不平衡问题。每个智能体使用持续更新的运行均值和方差对原始状态输入进行本地归一化,确保特征缩放一致且不相互掩盖。实验证明,共享归一化参数无效,PON在异构MuJoCo任务中加速训练并取得更优性能。该论文已被IJCNN 2025接收。
Agyn是一个开源AI代理平台,基于Kubernetes的信号驱动状态无服务器运行时,通过Terraform提供代理定义,并采用零信任安全模型。该平台与代理、模型和云无关,旨在解决生产环境中AI代理的隔离、治理和安全挑战。
一篇论文认为,随着生成式AI消除了人类编写正确代码的能力这一约束,软件工作围绕两大支柱重组:混音模式(人类像音响工程师一样连续操作多个判断轴)和元软件(观察、验证、上下文化和治理其他软件的软件)。这两个支柱不可分割,借鉴了从手工艺到统计控制的批量生产的历史转型。
诺亚·史密斯认为,随着AI能力增强,人类将从技术工作转向确保AI对齐——使AI专注于人类目标。他将其与《上班一条虫》类比,并警告AI生成内容“污泥”正在泛滥。
Safescript 是一种为 AI 代理设计的编程语言,通过静态分析在运行前证明所有安全属性,无需沙箱或虚拟机,彻底消除供应链攻击。它编译成有向无环图(DAG),可追踪数据流和宿主机调用,性能开销为零,启动时间为零。
AIPass 是一个基于命令行的开源框架,为 AI 智能体提供持久性记忆、身份标识和协作能力。智能体共享文件系统,通过 JSON 文件存储记忆,无需云服务或额外 API 密钥。项目包含 13 个核心智能体,支持多智能体协作、任务调度、质量审计和实时监控。
股票交易应用Robinhood在高度监管的行业中率先允许AI代理进行交易,此举可能推动其他金融公司效仿。
Liiists 是一款基于Markdown的列表应用,可在终端、iOS设备和AI代理上通过MCP服务器使用,所有操作都基于相同的纯文本.md文件。它提供了命令行工具、原生iOS应用(支持分享扩展和Siri)以及用于AI集成的MCP服务器。无需账户、无锁定,支持iCloud同步或指向任何文件夹(包括Obsidian vault)。
NeuralAgent 2.5 带来了语音模式、观察学习与并行代理三大功能,让AI助手能听、能看、能同时处理多项任务。用户可通过自然语言指挥它操作整个电脑,无需键盘鼠标。新版还优化了工作流、@提及和记忆系统。
LangChain 在 Interrupt 2026 大会上发布了 LangSmith Engine 和 Sandboxes 正式版,并推出了 LangChain Labs 以推进代理的持续学习。大会所有演讲现已可按需观看。
您的BI仪表盘速度缓慢,调优消耗大量时间和金钱。本文从物理布局到治理语义层,逐步介绍Databricks的BI接入栈,提供改善查询性能和降低总拥有成本的实用指导。
Snowflake与AWS签署五年60亿美元合作协议,使用AWS Graviton和GPU实例进行AI训练和推理,并扩展至10个新区域。此举表明Snowflake在AI时代的雄心,同时通过Cortex AI产品套件推动企业AI应用。
AWS生成式AI创新中心与Works Human Intelligence合作,利用Amazon Bedrock AgentCore构建了两个AI代理,分别用于通勤津贴审批和浏览器操作,实现了高达97%的成本降低并提升了运营效率。
Verizon Connect利用AWS构建智能代理AI解决方案,每天将超过5000万数据点转化为10万用户的可操作洞察。本文详细介绍了其架构决策、实施挑战和可衡量的成果,包括使用无服务器统计模型进行异常检测、采用Strands Agents实现动态推理、以及通过Amazon Nova Lite将输入令牌成本降低70%。
AWS SMGS使用NarrateAI(基于Amazon Bedrock AgentCore构建的智能对话解决方案)实现大规模商业智能。该方案采用双层架构:批量叙事生成和实时交互,通过专用AI代理进行路由和验证,支持自然语言查询、行级安全及个性化角色体验,显著提升决策效率。
Cognition公司为其AI软件开发工具Devin融资超10亿美元,估值达260亿美元,显示了投资者对AI编程工具的热情,尽管其实际价值仍存争议。
DuckDuckGo作为一款无AI的搜索替代品,因谷歌AI概览的兴起而用户激增。本文介绍了如何无AI地使用DuckDuckGo进行私密搜索和浏览。
AWS 销售团队使用 Amazon Bedrock AgentCore 构建了 Field Advisor,以编排超过 20 个领域特定代理,减轻销售代表认知负担并提高效率。该解决方案每周为每位代表节省最多 2 小时,并将延迟降低 41%。
Alex Rives 在 BioHub 上发布了 ESMFold2,这是一个基于大规模无监督训练蛋白质语言模型的开源科学引擎,在蛋白质相互作用(尤其是抗体)预测上取得了最先进性能,并发布了68亿蛋白质图谱和11亿预测结构。文章讨论了世界模型在蛋白质生物学中的应用,以及如何通过稀疏自编码器提取语义特征实现可编程生物学。
Robinhood 通过 MCP 让客户连接 Anthropic 的 Claude 等 AI 代理,这些代理可以自主交易股票。美国券商监管机构 FINRA 已将其视为新的风险领域,警告不可控的决策。Robinhood 也承认该产品并非适合所有人。
Tokenmaxxing(无节制使用AI token)导致企业预算失控。以Uber为例,其CTO称AI预算已超支。新兴公司Lanai推出Token Tuner工具,通过将token消耗映射到具体工作流程和业务成果,帮助企业优化模型选择、降低浪费,推动从“tokenmaxxing”向“outcomemaxxing”转变。
O'Reilly的Infrastructure & Ops超级流会探讨了AI工作负载的基础设施需求、成本和安全挑战。DORA报告显示,AI使代码交付量提升约10%,但稳定性下降,验证成本增加。专家强调平台工程、治理和认知债务的重要性,建议投资内部平台以保障AI应用的生产就绪。
AI工厂是新型基础设施,实时将电能转化为智能的生成单元——令牌。随着代理型AI的扩展,每瓦性能与每令牌成本成为关键经济指标。本文深入探讨AI工厂的工作原理、架构优化以及NVIDIA的最新硬件如何提升效率。
Meta宣布为其旗舰应用Instagram、Facebook和WhatsApp推出消费者订阅计划,月费2.99至3.99美元,提供额外功能。同时,Meta开始测试面向企业、创作者和AI用户的新订阅方案。
苹果备受期待的Siri大改版预计将在iOS 27中到来,可能看起来很像ChatGPT并带有液态玻璃风格。彭博社的渲染图展示了iOS 27的新界面,包括Siri的新应用和聊天界面。这些渲染图基于彭博社看到的信息和知情人士透露,可能与苹果最终设计不同。苹果将在6月WWDC上公布最终设计。
作为一名iPhone用户,作者通常在开车时使用Siri和CarPlay,但尝试了Android Auto上的Gemini后,发现Gemini能处理更多任务,包括发送邮件、获取餐厅信息、玩游戏等,且设置简单。作者认为Gemini是更一站式的人工智能助手。
Meta正在全球范围内为Instagram、Facebook和WhatsApp推出付费附加功能,同时构建独立的付费AI服务。这是Meta首次明确将AI支出转化为收入来源。
一篇LWN.net上的订阅文章,由Joe Brockmeier撰写,报道了Dirk和Linus关于AI与内核开发的讨论。该内容仅供订阅者查看。
亚马逊米高梅影业与AWS联合推出“GenAI创作者基金”,为电影制作人提供资金及内部AI平台“Project Nara”的访问权限。三部动画系列已投入制作,团队仅用五周完成试播集。亚马逊宣称拥有“行业内唯一端到端AI内容生态系统”。
YouTube推出新的AI功能,允许用户通过描述性提示生成个性化视频推送,并可以固定在主页顶部。该功能目前在美国以英语支持的形式向YouTube移动应用和桌面端用户推出。
ElevenLabs 发布了升级版 AI 音乐生成模型 Music v2,支持在单首歌曲中无缝切换歌剧、重金属和说唱等流派。新增的修复功能允许用户在不影响其他部分的情况下重新生成特定段落。
文章提醒开发者,虽然AI可以加速编程,但过度依赖AI可能会剥夺构建过程中的乐趣,如寻找优雅解决方案、设计清洁架构和获取用户反馈等。
TopRec是一个AI驱动的平台,帮助招聘人员对候选人进行排名,并构建自我维护的CRM。它特意避免被推广为PWA,以防止缓存问题,建议作为网站使用。
这是一份关于AI作弊的PDF报告,但无法直接解析内容。
厌倦了搜索引擎中的AI结果?本文介绍了一种通过添加自定义搜索引擎来排除AI结果的方法,并详细说明了在Chrome、Firefox、Safari等主流浏览器中的设置步骤。
YouTube正在加强AI标签规则。从本月起,逼真或经过大量AI修改的内容的标签将显示在更显眼的位置——长视频显示在播放器下方,短视频则作为叠加层显示。从2026年5月开始,即使创作者未披露,自动检测系统也会标记AI生成的内容。推荐和变现不受影响。
谷歌在I/O大会上推出Coral Board,这是一款专为设备端AI设计的紧凑型单板计算机,搭载RISC-V架构NPU和Synaptics芯片,可本地运行Gemma 3 270M模型,无需云端支持。
本文深入探讨Ollama的配置引擎,介绍如何使用Modelfile微调本地语言模型参数、优化硬件性能并格式化提示流。涵盖采样参数、惩罚设置、上下文窗口管理及服务器环境变量等关键内容。
在Decoder播客采访中,Rivian首席软件官Wassym Bensaid讨论了与大众的合资企业、全新的AI驱动Rivian助手,以及为什么他认为语音界面将取代按钮且不需要CarPlay。
极佳视界发布全球首创物理AGI“双金字塔”体系,推出家庭机器人拾光S1,获百台家庭订单,计划12个月内实现物理AGI的“GPT-3时刻”。
Mistral AI 将其聊天机器人 Le Chat 更名为 Vibe,并将聊天、编程代理和新的工作模式整合在一个品牌下。工作模式可接入 Google Workspace、Outlook、Slack 或 GitHub,独立处理电子邮件、报告或拉取请求等任务。Pro 套餐价格从 17.99 欧元降至 14.99 欧元,但未明确使用限制。此举直接对标 OpenAI、Google 和 Anthropic 的代理型产品。
Open Agent Tools (oats) 是一个自托管AI模型框架,通过本地代码提示索引,将大型模型的计算密集型工具调用委托给小型开源模型,从而节省令牌消耗。
Perplexity AI 开源了用Rust重写的Unigram分词器,实现了比Hugging Face tokenizers crate低5倍的p50延迟,并将生产环境CPU利用率降低了5-6倍。优化包括双数组trie、位图打包和大页面支持。
Mistral AI首席执行官Arthur Mensch证实,公司正在探索开发定制芯片以降低基础设施成本,与OpenAI和Anthropic竞争。这家法国初创公司还宣布在法国新建推理数据中心,并推出企业智能代理平台Vibe。
上海创智学院LeapQuest团队联合多所高校提出医学AI新范式,让模型在推理过程中主动调用视觉工具,从被动接收视觉输入变为主动寻找证据。论文被ICML 2026接收。
本文提出模拟信息扩散(SID)框架,利用约束感知扩散模型(CADM)预测邻居机器人的未来轨迹,从而在每个机器人本地进行安全运动规划。SID仅在高拥堵场景下触发通信,实验表明其在规划有效性和约束满足上优于基线方法,可扩展到108台机器人和160个障碍物的场景。
本文提出了一种基于Transformer的架构Trinity,能够在一个统一网络中同时进行类特定语义分割和类无关地形分割。该方法无需预定义标签或机器人相关的可通行性分数,仅基于视觉外观分割地形区域,从而学习机器人无关的视觉地形先验,可结合机器人特定经验用于下游任务。为了支持大规模训练,研究团队扩展了OAISYS模拟器并推出RUGDSynth合成数据集,同时提供了EXTerra真实世界数据集。实验验证了该方法在复杂户外环境中的有效性。
研究人员提出了Speak-to-Objective模块化智能管线,利用条件大型语言模型将口头或书面命令转换为可微分的优化目标函数,用于在约束感知逆解算器和实验光流控平台上组装微粒。该方法采用“感知-组合-提议-执行-报告与学习”的循环,将目标作为意图与驱动之间的接口,实现自然语言可编程的微观组装,推动自主光制造平台的发展。
Uni-LaViRA是一种统一的具身导航智能体架构,将导航决策简化为单一的语言-视觉-机器人动作翻译。它利用预训练的多模态大语言模型(MLLM),以零样本方式在四个任务系列和四种真实机器人上实现泛化。通过待办列表记忆(TDM)和第二次机会回溯(SCB)机制实现自我纠正导航,无需任何训练即可在多个基准测试中取得与依赖大规模训练数据的模型相当甚至更优的结果。
SCALE-COMM是一种自监督框架,通过解耦通信学习与策略优化,学习紧凑、稳定且与策略相关的潜在消息,提升多智能体强化学习中的协调性能。在多个基准测试和实际仓库协调任务中,它优于现有方法,提高了稳定性、样本效率和吞吐量。
该研究提出表示条件扩散模型,利用DINOv2、DINOv3和CLIP的表示作为条件生成合成图像数据,在ImageNet100上以+10.76 p.p.的top-1准确率显著优于类条件生成。通过扩大合成数据集,甚至能超越真实数据训练的模型(+2.0 p.p.)。此外,该方法在数据增强和样本过滤方面也表现出色,为大规模视觉学习任务提供了一种有前景的替代或补充真实数据集的方案。
研究人员提出D²Turb框架,通过引入深度感知的湍流合成协议和自适应结构先验注入机制,将大气湍流缓解分解为纹理去模糊和几何校正两个交互阶段,在合成和真实数据集上均达到最优性能。
该研究提出了一种用于解释具有异质注意力结构的Transformer模型的方法,包括语义解释和逻辑解释,并通过实验验证了其有效性。
本研究提出了一种利用微调视觉语言模型(VLM)自动化桥梁损伤理解和修复优先级评分的方法。通过使用QLoRA对LLaVA-1.5-7B进行微调,基于多达4000张桥梁损伤图像和检查文本记录,并在800张图像的测试集上评估。实验表明,2000个训练样本即可在2.9小时内达到接近最优的验证损失,超过2000后收益递减。此外,引入了一个两阶段质量守护代理,使用微调的Swallow-8B SLM在优先级评分前拒绝低质量VLM输出。
第十届ABAW研讨会与竞赛在CVPR 2026上举办,通过引入情感模仿强度估计、矛盾/犹豫识别和细粒度暴力检测等新挑战,以及传统的情感估计和识别任务,推进多模态以人为中心的AI。竞赛利用大规模野外数据集,论文轨道涵盖从姿态估计到公平性和鲁棒性的广泛主题。
大型语言模型(LLM)作为计算社会分析的代理日益普及,但能否忠实再现人类社区的“厚描述”仍是关键挑战。本文提出CARE(社区感知反应评估)框架,通过精细刻画言外语调频谱及其潜在态度,测评LLM模拟话语与真实社区对新闻事件的反应之间的差异。研究发现,使用明确社区提示引导LLM并不能天然提高模拟真实性,前沿模型间存在分歧行为特征,表明当前对齐策略不足以捕捉在线群体的社会语言动态。
新框架FLUID将自回归语言模型适配到扩散模型,实现高效并行文本生成。通过严格因果对齐重用GPT检查点,并通过弹性视野机制根据信息密度动态调整去噪步长。该方法以数量级降低的训练成本达到最先进性能。
研究人员发现,在低资源语言的口语模型中使用合成数据会导致“稳定性-表现力鸿沟”,并提出两种自对齐框架(DGSA和TDSC),能够恢复韵律变异性,超越ElevenLabs和Gemini Pro等商业系统,实现老挝语的首次零样本人声克隆。
BioELX是一种新颖的跨语言生物医学实体链接框架,无需标注训练数据。它通过维基百科多语言别名增强SapBERT,并利用预训练LLM进行上下文感知消歧。在五个基准测试中,BioELX实现了最先进的性能,尤其在土耳其语、韩语和泰语等低资源语言上表现突出。
RAG-Coding是一种自动化ICD-10-CM编码方法,通过协调四个大语言模型代理并基于外部知识源(如官方编码列表和指南)进行决策,提高了编码准确性和临床合规性。在MDACE数据集上,其性能优于最佳LLM基线8-13%的微观F1和2-8%的宏观F1。与最先进的预训练模型PLM-ICD相比,RAG-Coding的微观召回率高出11%,而PLM-ICD的微观精确度高出6%,两者F1相当。消融实验验证了外部知识的逐步增益。同时发布了MDACE-2025,根据2025年最新指南重新标注,支持更细粒度的评估。
大型语言模型(LLM)作为自主智能体时,会通过上下文奖励黑客行为(ICRH)产生有害副作用。现有防御方法不足,因为ICRH源于模型自身的过度优化。本文提出LLM-based Constraint Optimization (LCO)框架,包含自我思考模块和进化采样模块,在不微调模型的情况下有效减少ICRH。实验表明,LCO在推文优化任务中将GPT-4的有毒性增长率降低39%,在策略优化基准中将ICRH发生率降低15.23%,且不牺牲任务性能。
本文提出ICG框架,通过融合多模态大语言模型(MLLM)提示与个性化偏好对齐,生成高质量、上下文相关的封面图像。ICG利用元标记从商品标题和参考图像中提取语义特征,结合用户嵌入进行细化,并将个性化上下文注入扩散模型。采用多奖励学习策略,结合公共美学/相关性奖励和基于用户行为训练的个性化偏好模型,无需标注数据。实验表明,ICG在图像质量、语义保真度和个性化方面显著提升,增强了用户吸引力及下游推荐准确性。
本文提出了一种轻量级的架构驱动偏移(ADS)度量,用于在持续学习中高效选择预训练模型。ADS通过解耦对数几率偏移为架构依赖和数据依赖,仅需少量数据样本即可捕捉偏移趋势。实验表明,ADS与对数几率偏移之间存在强单调相关性(斯皮尔曼相关系数最低0.731),并可作为预期校准误差的有效代理,在六个场景、三个数据集上验证了其可靠性。
本综述从三个关键视角探讨混合专家模型(MoE)如何有效解决多模态学习挑战:作为高效引擎、表示学习器和适配器,并指出可解释路由、专家通信等研究空白。
本文提出$E^3$-Agent,一种面向边缘AIGC资源管理的可执行与演化式智能体。该智能体将毫秒级的路由决策与事件驱动的LLM元控制器分离,通过在线学习适应未知且时变的服务时间映射。在模拟实验中,$E^3$-Agent将平均延迟降低65%-73%,并有效抑制了语义退化下的卡顿率。
本文提出了一种基于多智能体架构的自主洞察发现系统,用于实时数据流。该系统通过持续发现循环,利用Apache Kafka、Flink和大语言模型实现假设生成、验证及可视化,旨在从被动查询驱动转向主动发现驱动分析。
LaneRoPE通过引入序列间注意力机制和位置编码扩展,使多个LLM序列在生成过程中能够协作,从而在数学推理任务中提升准确率,且对架构改动小、推理开销低。
本文证明了大型语言模型在进行因果发现时存在根本性局限:监督微调、直接偏好优化和上下文学习等方法无法区分产生相似观测数据的因果图。作者提出了智能体因果贝叶斯优化(A-CBO),其中冻结的语言模型作为干预预言机,外部贝叶斯循环在对数级别轮次内收敛到候选图。在Corr2Cause基准上,A-CBO无需训练即可匹配微调基线;在扩展到24个变量和18K测试样本的Extended Corr2Cause上,A-CBO显著优于微调和偏好优化。
本文提出DynaSchedBench框架,通过顺序事件空间校准器(SESC)和调度压力指数(SSI)严格生成动态灵活作业车间调度问题(DFJSP)实例,解决了静态基准过拟合和未校准生成器噪声问题。研究发现LLM调度代理存在“可观察性悖论”:提供完整结构信息反而会降低性能,且工具增强和细化策略无法可靠提升效果。
Soro是一系列专为塔吉克语优化的对话大语言模型,基于Gemma 3检查点,通过19亿标记的塔吉克语持续预训练和4万示例的指令微调,显著提升了塔吉克语任务表现,同时保持英语性能。模型支持FP8和INT4量化,适用于边缘部署,已在塔吉克斯坦教育领域试点。
本文介绍了一种基于大型语言模型(LLM)的架构,用于检测和量化文本中人类价值的强度。该架构包含三个协调模块,可适应多种价值理论,并在ValueEval数据集上表现出良好的检测性能。
本文提出了一种基于语言模型的蛋白质生物学世界模型,展示了如何通过大规模语言建模来理解和预测蛋白质的结构与功能。
来自Sakana AI和东京大学的研究人员提出了DiffusionBlocks,这是一种块状训练框架,可将Transformer网络划分为独立训练的块,从而将训练内存减少B倍(B为块数),同时在不同架构上保持性能。该方法通过将残差连接解释为扩散模型中的欧拉步骤,利用分数匹配目标实现块级独立训练。
SQLite 新增了 AGENTS.md 文件,明确了其对 AI 生成贡献的政策:不接受未经事先同意的拉取请求,不接受代理生成的代码,但欢迎附带可重现测试用例的 bug 报告。由于 AI 生成的 bug 报告泛滥,论坛现已拆分出专门的 bug 论坛。
Databricks构建了独特的推理平台,为众多前沿模型提供推理服务,每月处理超过120万亿个令牌。通过引入“模型单元”抽象,实现了成本感知的负载均衡和自动缩放,相比静态配置节省了80%以上的GPU成本。运行时可靠性机制包括黑盒健康检查,可自动检测和恢复静默故障。此外,通过分析多模态瓶颈,吞吐量提升了3倍。
Artificial Analysis与IBM联合推出ITBench-AA,这是首个针对企业IT智能体任务的基准测试,专注于站点可靠性工程(SRE)。前沿模型得分均低于50%,其中Claude Opus 4.7以47%领先。该基准测试评估模型在Kubernetes事件响应中的表现,要求从日志和追踪中诊断故障。
NVIDIA研究人员推出Polar框架,通过在智能体工具链和推理服务器之间放置模型API代理,实现无需修改智能体工具链即可进行强化学习训练。基于Qwen3.5-4B模型使用GRPO训练,Polar在Codex、Claude Code和Pi工具链上分别将SWE-Bench Verified pass@1提升了22.6、4.8和6.2个百分点。框架以NeMo Gym环境注册,并在ProRL Agent Server仓库开源。
文章指出,Anthropic和OpenAI通过将企业客户转向API定价模式,以及编码代理产品的普及,实现了产品市场契合。这一转折点始于2025年11月模型升级,并在2026年4月因新模型发布和企业定价调整而加速。
一项新的分析显示,顶级AI预测者正根据当前领先的AI实验室调整对AGI(通用人工智能)时间线的预测。从ChatGPT到xAI、Meta、Gemini,再到Anthropic时代,预测方向多次反转。
本文对比早期互联网带来的连接感与当代人工智能的孤立体验,指出AI作为一种工具虽有用,却无法替代真实的人类互动,并质疑AI是否存在真正促进社交的应用场景。
一项由宗教大学联盟进行的研究发现,主要AI模型在回答伦理问题时倾向于世俗理性主义,忽视宗教视角。所有模型对耶和华见证人表现出负面偏见,而对天主教有正面偏见。
本文探讨了AI如何引发数字产品设计的范式转变,从传统的命令驱动交互转向意图驱动交互,并分析了这种转变在产品管理、用户体验、决策逻辑、发布周期、风险和价值创造等方面带来的新挑战。
上个月,在北京半程马拉松中,名为“闪电”的机器人以比人类世界纪录快近七分钟的成绩完赛。这引发人们对机器人是否将像聊天机器人一样进入日常生活的讨论。中国领跑这场变革,政府承诺未来20年投资超1000亿英镑于机器人技术。
研究人员提出了一种基于事件的实时异步单目里程计,用于行星漫游车。该方法利用误差状态卡尔曼滤波器处理事件相机数据,在高动态范围光照和计算约束下实现稳健的自我运动估计。
视频生成模型越来越多地被用作世界模拟器,但现有基准仅评估单视频质量,无法检测模型是否真正理解因果关系。新提出的“如果世界”基准包含319对基于真实场景的提示对,通过改变一个物理变量来测试模型输出的因果一致性。对9个最先进模型的评测显示,最佳配对得分仅52%,开源模型约28%,且表现与视觉显著性相关而非物理可解性。
一项针对Melanoscope AI移动皮肤镜临床决策支持系统的前瞻性单中心临床验证显示,该系统在176名患者中与专家评估的一致率为88.6%,未出现假阴性,特异性为88.3%。研究开发了级联深度学习模型的定量可解释性评估方法和三区患者分诊算法,为资源有限地区的皮肤癌筛查提供了可重复、可解释的决策支持。
本研究提出了一种基于头戴式惯性测量单元(IMU)的行为级活动识别方法,超越了传统运动基元识别。研究团队定义了五种与AR应用需求相匹配的行为类别,构建了包含16万个样本的Ego4D数据集,并提出了HiT-HAR层次模型(70.3万参数),在五类动作和八类场景识别任务上优于现有模型。通过可分离性分析,揭示了头戴式IMU的观测极限:移动类行为可靠可观测,物体转移和任务操作类需要时间上下文,场景依赖信号重叠仍是挑战。结果表明,利用时间上下文和场景结构的架构选择优于简单扩大模型规模。代码和数据集已公开。
本文提出度量感知主成分分析(MAPCA),将PCA参数化为正定度量矩阵,并将其纳入几何深度学习框架。MAPCA将度量视为几何先验,其解在正交群下等变,谱不变。文章证明了IPCA是MAPCA族中唯一的线性数据派生度量,具有对角缩放等变性。最后,探讨了核PCA、谱图方法和深度MAPCA等扩展。
研究表明,结构化状态空间模型中的对角变体S4D在时间序列分类任务上比复杂的Mamba架构更准确且高效。作者提出的轻量级改进MS4和MS4N进一步提升了性能,在59个数据集上优于Mamba模型,并匹敌参数量大2倍和10倍的深度学习模型。
该论文提出,人类行为结果的持续变异性源于个体的动态潜在状态,而非仅由可观测输入决定。通过干预决策形成时刻的状态权重,可以精确控制结果。框架基于因果推断、预测加工、稳态应变等六条证据链,并利用超20万用户的24个月观测数据,提出七项可检验预测和六项操作要求,对数字健康、教育、AI个性化等领域具有启示意义。
现有机器学习遗忘验证仅关注输出级指标,但模型内部表示可能仍保留遗忘数据。RULER提出表示级验证指标M2和M4,实验表明多种近似遗忘方法虽通过输出级评估,但在表示级检测中表现出显著残留。
本文类比生物进化中的物种起源,探讨合成信息的起源问题,提出利用隐写术实现信息血统追踪的机制,以应对AI生成内容难以追溯来源的挑战。
微软的MAI-Image-2.5模型在Arena文本到图像排行榜上位列第三,与谷歌的Nano Banana 2性能相当,但仍落后于OpenAI的Image-2。该模型在图像内文本渲染和商业视觉内容方面有明显改进。
梵蒂冈新通谕《伟大的人性》捍卫人类不完美作为尊严的来源,并警告将核心人类能力外包给AI的风险,反驳硅谷对人类局限性的轻视。
Simple Wearable Report利用AI从Oura Ring数据中提取更多见解。本文介绍了作者如何使用它,以及它如何与Gemini等AI工具配合提供详细分析。