AI News HubLIVE

今日必读

Agent

阻止AI代理通过自身内存被武器化(OWASP)

OWASP发布了Agent Memory Guard,这是一个开源运行时防御层,可防止AI代理内存中毒攻击。它介于代理和内存存储之间,通过一系列检测器和YAML策略监控读写操作。基准测试显示召回率92.5%,精确率100%,零误报,中位延迟59微秒。

  • Agent Memory Guard是OWASP针对代理内存中毒(ASI06)的参考实现。
  • 它包含五种检测类别:SHA-256完整性、提示注入、敏感数据泄露、受保护键修改和大小异常。
站内正文

从头构建基本AI代理:工具

本文介绍如何通过添加工具来增强基本AI代理,使其能够与计算机环境交互。涵盖工具定义、代理使用方式以及七个必备工具(bash、文件读写、文件搜索、grep、网页获取等)的Python实现和工具模式定义。

  • 工具是暴露给LLM的函数,使代理能自主执行操作。
  • 现代LLM支持原生工具调用,以JSON格式生成工具请求。
站内正文

使用 Amazon Bedrock AgentCore Payments 的内置防护栏实现安全的代理支付

本文探讨了设计代理支付系统时面临的主要安全风险,包括失控支出、用户授权缺失、凭证泄露等,并介绍了 Amazon Bedrock AgentCore Payments 如何通过基础设施层的防护栏(如支付限额、策略控制、凭证安全存储和即时令牌)来应对这些挑战。

  • AgentCore Payments 让AI代理能够代表终端用户支付付费资源,当前与Coinbase和Stripe(Privy)合作提供预览版。
  • 系统面临四大风险:失控支出、用户授权不足、开发者密钥和钱包令牌泄露、支付工具信息暴露。
站内正文

图灵奖得主Richard Sutton:纯生成式AI无法进行真正的科学发现

图灵奖得主Richard Sutton指出,普通生成式AI缺乏评估自身输出的能力,因此无法实现真正的科学发现。他认为,只有像AlphaGo那样内置评估循环的系统才具备真正的创造力。Sutton呼吁开发能够持续学习、自我评估和选择最优解的AI。

  • 生成式AI只能模仿或随机生成,无法判断新想法的好坏。
  • 真正的科学发现需要经历变化、评估和选择性保留三个阶段。
站内正文

遇见 Memory OS:基于 Hermes Agent 的六层开源记忆栈

Memory OS 是一个新的 MIT 许可库,为 Hermes Agent 增加了六层记忆,包括向量数据库、结构化事实和自动整理的百科。它完全本地运行,需要 Docker、Qdrant、Redis,并注重 token 效率。

  • Memory OS 在 Hermes Agent 内置记忆之上增加了六层:工作区、会话、结构化事实、Fabric、向量数据库和 LLM 百科。
  • 检索采用基于门控、去重的四源召回,捕获在调用后自动进行。
站内正文

斯坦福大学CS336课程AI助手使用指南

本文为CS336课程的AI编码助手(如ChatGPT、Claude Code等)提供了明确的使用指南。AI助手应充当教学助理,通过解释、指导和反馈帮助学生,而不是直接完成作业。文中详细列出了AI助手应做和不应做的事情,并给出了教学方法和示例交互。

  • AI助手应充当教学助理,而非解决方案生成器。
  • 禁止编写代码、直接给出解决方案或完成作业中的TODO部分。
站内正文
工具

亚马逊因员工作弊关闭内部AI使用排行榜

亚马逊关闭了一个根据员工使用AI工具频率进行排名的内部排行榜。公司官方称已达成目标,但员工怀疑真实原因是作弊和资源浪费。有员工承认故意刷分,甚至被管理层要求增加AI使用量。

  • 亚马逊关闭内部AI使用排行榜,官方称已达成目标,但员工怀疑因作弊和浪费
  • 有员工因被批评AI使用不足而作弊刷分
站内正文
政策

黑客要求Meta AI授予他们Instagram账户访问权限,竟然成功了

黑客利用Meta的AI支持聊天机器人,通过简单询问即可更改高知名度Instagram账户的关联邮箱,导致包括奥巴马白宫账户在内的多个账户被劫持。该漏洞凸显了将技术支持外包给AI的巨大风险。Meta已在近期修补该漏洞,但受害者表示无法升级至人工支持。

  • 黑客通过Meta AI聊天机器人,请求更改目标账户的邮箱地址,成功接管Instagram账户。
  • 受影响的账户包括奥巴马白宫账户、太空军首席军士长账户和丝芙兰账户。
站内正文
创业融资

Claude制造商Anthropic向SEC秘密提交IPO申请

Anthropic已向美国证券交易委员会秘密提交IPO注册草案。这家开发Claude聊天机器人的公司在最新一轮融资后估值接近1万亿美元。竞争对手OpenAI也在筹备IPO。AI领域的投资者争夺战正在升温。

  • Anthropic秘密提交S-1注册草案,启动IPO流程
  • 公司估值在最新65亿美元融资后接近1万亿美元
站内正文
机器人

美国人形机器人在乌克兰战争中进行测试

美国人形机器人正在乌克兰战争中接受测试,同时这些机器人也被瞄准用于工业工作环境。

  • 美国人形机器人在乌克兰战争中进行实战测试
  • 机器人还计划应用于工业领域
站内正文
其余更新(13 条)
创业融资

Anthropic正式提交上市申请

Anthropic于周一提交了保密的IPO注册声明,估值9650亿美元,超越竞争对手OpenAI。上市进程紧随SpaceX计划于6月12日的IPO之后。

  • Anthropic向SEC秘密提交IPO草案,估值9650亿美元,成为全球最高估值初创公司。
  • 这一估值超过了主要竞争对手OpenAI的8520亿美元。
站内正文

Anthropic秘密提交美国上市申请

人工智能公司Anthropic已秘密向美国股市提交首次公开募股(IPO)申请。该公司开发了受软件工程师和企业客户欢迎的Claude聊天机器人,今年崛起迅速。此次IPO的估值和其他条款尚未公开。此前,Anthropic在周四宣布完成650亿美元融资,估值达9650亿美元,而2月份时其估值为3800亿美元。

  • Anthropic秘密提交美股IPO申请
  • 公司未披露估值和发行条款
站内正文
工具

DuckDuckGo 推出“无AI”搜索扩展,流量激增下强化反AI立场

随着流量持续增长,替代搜索引擎 DuckDuckGo 推出新的浏览器扩展,让用户轻松将其无AI搜索体验设为默认。该扩展适用于 Chrome 和 Firefox,承诺搜索结果中不包含AI辅助答案、聊天提示和AI生成图像。DuckDuckGo 浏览器用户即使清除历史记录,AI设置也不会丢失。

  • DuckDuckGo 发布浏览器扩展,可将 noai.duckduckgo.com 设为默认搜索引擎。
  • 扩展强调无AI搜索体验,不含AI辅助答案或聊天提示。
站内正文
Agent

我们给AI智能体装上眼睛,它却根本没使用它们

一项实验发现,即使为AI智能体赋予视觉能力,它可能也不会使用。使用Claude Haiku 4.5和Goose框架,智能体在表格提取任务中成功不是靠视觉,而是借助保留布局的文本工具。通过开放标准AVP记录,揭示了坚持和合适工具比昂贵模型更重要。

  • AI智能体装备视觉能力却未使用,成功源于布局感知的文本工具。
  • 便宜模型(Claude Haiku 4.5)在正确工具和框架下完成高难度PDF提取任务。
站内正文

AgentOps:使用 Amazon Bedrock AgentCore 大规模运营 AI 智能体

构建 AI 智能体解决方案时,面临智能体决策不可预测、成本失控及调试非确定性故障等运营挑战。AgentOps 是部署、管理和持续改进生产环境中 AI 智能体的运营规程。本文介绍了如何使用 Amazon Bedrock AgentCore 实现 AgentOps,涵盖四大支柱:治理与安全、构建与运营、评估、可观测性,并提供了参考架构和实践指南。

  • AgentOps 是专门为 AI 智能体设计的运营规程,应对其自主决策带来的挑战。
  • 四大支柱包括治理与安全、构建与运营、评估、可观测性。
站内正文

AI主权与参与架构

本文探讨了国家追求技术主权的趋势,以巴西追求医疗主权为例,类比到AI领域。作者认为,去耦的说法过于狭隘,实际上各国寻求的是在保持连接的同时建立自身能力,类似于联邦制而非分离。开源AI模型、协议和工具是实现主权的重要途径,但基础设施层(数据中心、芯片、电网)才是关键,因为这些难以复制。文章提出了联邦化AI的概念,以及为AI时代重建基础设施的愿景。

  • 巴西追求医疗主权,希望自主生产疫苗和药物,减少对外依赖。
  • 类似地,各国追求AI主权,旨在不依赖少数美国或中国公司。
站内正文

Rippling如何在6个月内借助Deep Agents和LangSmith实现全产品AI化

Rippling利用LangChain的Deep Agents和LangSmith,在6个月内为其跨HR、IT、财务、薪资和全球运营的平台构建了生产级AI系统,采用多智能体架构和上下文工程解决大规模本体推理难题。

  • Rippling的AI层使用监督智能体协调5-7个专业子智能体,涵盖读取、RAG和操作三类智能体。
  • 上下文工程通过动态技能注入、代码执行和变量引脚(REPL)减少上下文膨胀100-500倍。
站内正文

Amazon Quick 通过 MCP 集成时间序列数据库实现市场情报分析

本文介绍了如何使用 KDB-X MCP 服务器与 Amazon Quick 集成,使交易员和分析师能够通过自然语言提问,从时间序列数据集中获取可操作的见解。该集成模式可应用于金融分析、物联网监控和 DevOps 仪表板等多个领域。

  • Amazon Quick 集成 MCP 协议,无需复杂数据库查询即可访问时间序列数据。
  • 使用 KDB-X MCP 服务器在 EC2 上部署,并通过 Amazon Bedrock AgentCore Gateway 进行安全连接。
站内正文

我们如何使用Gemini打造Google I/O 2026

了解Google员工如何利用AI来制作Google I/O 2026,从水母暖场节目到“TPU训练日”影片,看看Gemini如何帮助实现今年的I/O盛会。

  • Google I/O 2026的创作过程中广泛使用了AI工具,包括Gemini、Nano Banana等。
  • 制作团队将AI与人类艺术结合,创造了短片“TPU训练日”、视觉品牌形象、沉浸式体验等。
站内正文

这个编程智能体不想要你的反馈——它直接交付,无需迭代

SkipLabs推出Skipper,一个闭环AI编程智能体,能从自然语言描述或OpenAPI规范中直接生成完整的后端服务,无需开发者在迭代循环中参与。它采用来自Skip语言的响应式运行时来处理状态管理和并发,这是AI代码最常出问题的地方。Skipper将AI模型视为商品,默认使用Claude Opus,支持多种模型。未来计划包括增量TypeScript实现和增量更新模式。

  • Skipper是一个闭环智能体,从描述直接生成可运行的后端服务,无需人工审查和迭代。
  • 它使用Skip语言的响应式运行时自动管理状态、缓存失效和并发,避免AI代码在这些方面的常见错误。
站内正文

Anthropic向SEC秘密提交S-1草案

Anthropic已向美国证券交易委员会秘密提交S-1注册声明草案,为潜在的首次公开募股做准备,具体取决于市场条件和SEC审查。股票数量和发行价格尚未确定。

  • Anthropic于2026年6月1日秘密向SEC提交了S-1草案。
  • IPO是可选的,需待SEC审查和市场条件。
站内正文

智能体执行税:大模型在浏览器自动化中的真正瓶颈

在720次浏览器代理任务基准测试中发现,模型在结构化输出可靠性上的差异导致高达22.9%的执行税(浪费的推理调用占比)。Kimi K2.5实现零执行税,而Gemini 2.5 Flash在近五分之一的调用中出现JSON格式错误。这种执行开销不仅增加了成本,还放大了延迟和任务失败风险。

  • 智能体执行税衡量因无效结构化输出而产生的冗余推理调用比例,Gemini高达22.9%,而Kimi为零。
  • 结构化输出可靠性是核心瓶颈:Gemini每5次调用就有1次解析失败,导致87%的任务至少经历一次重试。
站内正文
模型

利用 Amazon FSx for Lustre 上的 GPUDirect 和 TurboQuant 加速 LLM 模型加载并扩大上下文窗口

本文探讨了如何通过结合 Amazon FSx for Lustre、NVIDIA GPUDirect Storage (GDS) 和预分片并行加载,将大型语言模型 (LLM) 的冷启动首次令牌时间从分钟级缩短到秒级,并介绍了 TurboQuant KV 缓存对扩大上下文窗口的影响。

  • CPU 模型加载是冷启动瓶颈,对 405B 参数模型需 10–20 分钟。
  • FSx for Lustre + GPUDirect Storage 通过 EFA 直接向 GPU HBM 传输数据,绕过 CPU。