使用 AWS 上的 LangSmith 评估深度智能体
本文结合 LangChain 评估深度智能体的经验和 Anthropic 的 AI 智能体评估指南,提供了实用指南。您将学习如何应用五种评估模式、使用 pytest 和 LangSmith 构建离线评估,以及配置生产环境的在线监控。文中以文本到 SQL 的深度智能体为例,使用 Amazon Bedrock 覆盖从开发到生产的完整生命周期。
- 深度智能体的评估面临非确定性、错误传播和创造性解决方案等挑战。
- 介绍了代码基础、模型基础和人工三种评估器,并推荐组合使用。
AI识别出失职联邦法官
联邦法官埃莉诺·罗斯被曝在 chambers 内与高级执法官员发生婚外情,司法部门试图匿名处理,但 AI 通过公开文件细节迅速识破其身份。此事凸显法院对 AI 能力的无知,以及法律专业人士需提升技术素养,重新思考保密策略。
- AI 仅用10分钟便从匿名报告中识别出涉事法官埃莉诺·罗斯
- 报告中的细节如两年期书记员任期、地区检察官称谓等被 AI 利用
企业领导者如何在整个组织中扩展AI代理
企业领导者在扩展AI代理时面临快速交付与治理、信任、成本控制之间的紧张关系。文章分享了五项关键实践:统一治理、管理复杂工作流、创建实验空间、展示早期成果、培训员工。
- 将统一治理嵌入AI代理生命周期
- 使用多代理框架管理复杂工作流
人工智能抵抗清单
一份记录全球各地反对大型AI帝国的抵抗运动的清单,涵盖抗议、法律行动、替代工具和社区组织等多种形式,旨在激发希望和行动。
- AI帝国以“造福全人类”为名,实则集中资源、破坏生态、强化控制。
- 全球涌现多种抵抗形式:从法律诉讼、数据污染工具到社区动员。
AWS为何彻底重构OpenSearch架构以应对代理工作负载
AWS完全重构了OpenSearch Serverless,分离存储和计算,支持零成本空闲缩放,成本降低60%,自动缩放速度提升20倍,并针对AI代理的突发工作负载优化。新架构包括专有存储层、GPU加速,并整合Vercel和Kiro IDE。未来将推出代理内存、日志分析(6月)和搜索推理模型。
- AWS对OpenSearch Serverless进行了近97%的重构,分离存储和计算,实现空闲时缩放至零。
- 新架构针对AI代理的突发工作负载,自动缩放速度提升20倍,成本降低60%。
AWS 重构 OpenSearch Serverless,推出 Agent Skills
AWS 对 OpenSearch Serverless 进行了重大重构,并引入了新的 Agent Skills。此举旨在将 OpenSearch 打造为企业的基础设施,提供更快、可扩展的搜索能力。
- AWS 重构 OpenSearch Serverless 服务
- 引入 Agent Skills 新功能
使用Amazon Bedrock AgentCore的数据集管理构建与您的智能体一同成长的测试套件
将快速变化的在线信号与稳定的离线基线相结合,智能体评估最为有效。Amazon Bedrock AgentCore的数据集管理提供了版本化的测试固定组件,实现一致测量和真实情况验证。
- AgentCore中的版本化数据集提供稳定且不可变的测试场景,确保跨运行的智能体评估一致性。
- 预定义场景捕获精确的预期输入、工具序列和断言,用于可验证的真实情况。
SIA:开源自我改进AI框架
SIA是一个开源的自改进AI框架,通过协调元代理、任务特定代理和反馈代理,自动提升AI系统在基准任务上的性能。在多个基准测试中取得显著成果,如LawBench准确率提升56.6%,GPU内核运行时间减少91.9%,单细胞RNA去噪提升502%,并在MLE-Bench Hard排名第一。支持本地运行和自定义任务,采用MIT许可。
- SIA通过元代理、任务代理和反馈代理的迭代循环实现自我改进,无需人工干预。
- 在LawBench、GPU内核优化、单细胞RNA去噪等基准测试中取得大幅性能提升。
美光市值突破1万亿美元,AI内存需求推动创纪录估值
美光科技市值于5月26-27日突破1万亿美元,与SK海力士同周达到这一里程碑,这是纯内存芯片制造商首次同时进入万亿俱乐部。高带宽内存(HBM)需求来自代理型AI工作负载,超大规模云服务商正在签署长期供应协议以锁定产能。瑞银将美光目标价上调三倍至1625美元,认为长期HBM供应合同将受益于代理型AI工作负载扩张。美光股价年内已翻三倍以上。
- 美光与SK海力士成为首批市值破万亿的纯内存芯片商
- 代理型AI工作负载推动HBM需求激增
AI智能体框架对比分析
截至2026年5月,七大AI智能体框架(DSPy、Claude Agent SDK、OpenAI Agents SDK、CrewAI、AutoGen、LangGraph、Google ADK)在设计理念、架构、生产就绪度等方面各有千秋。LangGraph在生产部署中领先,Claude Agent SDK在单一提供商能力上最强,OpenAI Agents SDK提供最清晰的多智能体交接,CrewAI在开发效率上占优。市场预计从2025年的78.4亿美元增长至2030年的526.2亿美元。
- LangGraph拥有最成熟的持久执行模型,部署于约400家企业。
- Claude Agent SDK提供了最强大的单提供商操作能力,但局限于Anthropic模型。
Anthropic发布Opus 4.8,诚实成为杀手锏
Anthropic最新版Claude模型Opus 4.8主打诚实特性,更少做出无根据声明,更善于承认不确定性。同时引入动态工作流功能,可协调数百个子代理完成大规模任务。定价不变,快速模式降价三倍。
- Claude Opus 4.8在诚实度上显著提升,错误率降低约4倍
- 动态工作流可自动规划并运行数百个并行子代理,验证结果后反馈
使用 Amazon Quick 和 Snowflake Cortex AI 自动化 AML 警报分类
本文演示了如何通过集成 Amazon Quick 和 Snowflake Cortex,自动化金融服务中最劳动密集的工作流程之一:反洗钱(AML)警报分类。您将使用 Amazon Quick Flows 和 Snowflake Cortex,通过 Amazon Quick 模型上下文协议(MCP)集成构建分类工作流。在测试环境中,自动化工作流将警报调查时间从 30-90 分钟缩短至 5 分钟以内。实际结果可能因警报复杂性和数据量而异。
- Amazon Quick Flows 和 Snowflake Cortex 通过 MCP 集成,实现 AML 警报分类的自动化。
- 自动化工作流将调查时间从 30-90 分钟减少到 5 分钟以下。
Data Formulator 0.7:面向企业数据的AI驱动分析工具
Data Formulator 0.7 是一款开源AI系统,旨在解决企业数据分析中数据连接碎片化、分析工作流迭代困难等问题。它提供数据连接器、上下文感知代理和交互式工作区,帮助用户无需编程即可探索、分析和可视化数据。
- 开源AI系统,专为企业数据分析设计
- 数据连接器支持多种数据源,减少集成工作