AWS Machine Learning Blog AI 新闻来源

公开文章 131采集文章 143可信度 88刷新频率 30 分钟

健康状态健康来源类型官方原文权限 官方原文最近入库 2026-06-26ID aws-ml-blog运行状态 已启用

Official cloud provider blog; confirm reuse terms before enabling full body display.

最新公开文章

构建交互式PDF文本提取：从Amazon S3实时获取文档内容

2026-06-26 22:47 UTC+8

本文介绍如何构建一个基于MCP协议的服务器，从Amazon S3中实时提取PDF文本，实现按需文档访问。文章比较了该方案与Amazon Textract的适用场景，并提供了详细的实施步骤、成本估算和安全考量。

使用MCP协议构建服务器，实现从S3实时提取PDF文本。
适用于文本型PDF，无需OCR，适合开发和概念验证环境。

Cara携手AWS为保险经纪公司打造领域专属AI解决方案

2026-06-26 22:42 UTC+8

Cara是一款基于AWS构建的AI原生解决方案，专注于自动化保险经纪公司的后台流程。通过Amazon EKS和Amazon Bedrock的支持，Cara实现了领域专属的AI工作流，为经纪公司带来每个用户每周约10小时的时间节省，并支持数千并发用户。

Cara利用AI自动化保险经纪中重复性任务，解决行业人才短缺问题。
基于AWS构建，使用Amazon EKS管理容器编排，Amazon Bedrock提供大语言模型推理能力。

面向金融合规的生产级AI代理：来自Stripe的经验教训

2026-06-26 22:38 UTC+8

Stripe每年处理1.4万亿美元支付量，通过基于Amazon Bedrock的ReAct代理框架，将合规审查处理时间减少26%，同时保持人工监督。本文介绍其技术架构、基础设施决策以及部署AI代理的经验教训，包括任务分解、编排模式和通过提示缓存优化成本。

Stripe使用ReAct代理框架将合规审查分解为子任务，通过有向无环图编排，确保质量和可审计性。
AI代理为人类审查员提供预调查信息，最终决定权仍由人类掌握，实现了96%以上的有用性评级。

改造而非重建：用智能体覆盖层改造遗留企业服务

2026-06-26 01:55 UTC+8

本文提出一种实用解决方案——智能体覆盖层（Agentic Overlays），这是一种薄包装层，可将传统REST服务转化为能够参与智能体间通信（A2A）的智能体，同时将REST API暴露为与模型上下文协议（MCP）兼容的工具。企业无需重写业务逻辑、复制代码或维护并行基础设施，即可为现有REST服务添加A2A能力，并减少基础设施中的智能体泛滥。文章提供了参考架构和示例代码。

智能体覆盖层是薄包装层，将REST服务转变为A2A智能体，并暴露MCP工具。
无需重写业务逻辑或维护并行基础设施，降低成本和复杂性。

使用 NVIDIA Blackwell 优化 Amazon SageMaker AI 上的模型训练

2026-06-26 00:41 UTC+8

本文介绍了如何在 Amazon SageMaker AI 上配置训练作业，以充分利用 NVIDIA Blackwell 架构的优势。您将学习如何选择批大小和序列长度以利用 Blackwell 的扩展内存，为模型大小（1B 到 64B 参数）选择合适的精度格式，并策略性地应用激活检查点。最终，您将获得一个实用的框架来调整训练配置并在 P6-B200 实例上启动分布式训练作业。

Blackwell 的扩展内存支持更大的批大小、更长的序列长度和简化的模型分片。
激活检查点对于大模型（~14B+ 参数）是稳定训练的先决条件。

通过 Amazon SageMaker AI 部署 SeedVR2 实现超分辨率

2026-06-26 00:40 UTC+8

本文展示了如何使用 SeedVR2 和 Amazon SageMaker AI 实现视频放大。我们介绍了解决方案架构、部署步骤，并进行了性能对比，突出了质量提升和处理效率。完成后，您将掌握实现该超分辨率解决方案的实用知识。

SeedVR2 是字节跳动开源视频修复模型，结合扩散模型和 GAN 实现高效视频放大。
解决方案采用三层 AWS 架构，包括安全、存储和 SageMaker 处理管道。

使用由Amazon Bedrock支持的AI代理构建自助式AWS健康分析，以发现可操作的健康洞察

2026-06-26 00:38 UTC+8

本文介绍如何构建Chaplin（客户健康与计划生命周期智能连接器），这是一个开源解决方案，利用通过模型上下文协议（MCP）暴露的AI代理，提供自助式健康事件分析。Chaplin允许团队用自然语言提问，并从MCP兼容的AI助手获得精确、上下文化的答案，无需依赖AWS支持进行常规分析。

Chaplin是一个开源解决方案，使用AI代理通过MCP提供自助式AWS健康事件分析。
它解决了运营团队依赖TAM解释健康事件的瓶颈问题。

在AWS上使用现代数据网格策略构建自主AI应用

2026-06-26 00:35 UTC+8

本文展示了如何在AWS上构建一个受治理的无服务器数据网格，为生产级自主AI提供安全、可扩展的数据基础。架构通过S3 Tables（Iceberg）、S3 Vectors和AgentCore Gateway实现三层治理，解决自主AI多步骤数据访问中的授权问题。

自主AI需要从工具发现到查询执行的每一步都进行细粒度访问控制，传统RAG的单点治理模式无法满足。
使用Amazon S3 Tables（内置Iceberg支持）和AWS Lake Formation实现行/列/单元格级安全，交易性能提升10倍。

使用 Amazon Nova 2 Sonic 构建医疗预约语音助手

2026-06-25 02:20 UTC+8

本文介绍如何利用 Amazon Nova 2 Sonic 和 Amazon Bedrock AgentCore 构建一个语音助手，用于处理医疗预约提醒对话。该助手能够通过语音验证患者身份、管理预约（确认、取消或改期）、收集就诊前健康信息，并在必要时转接人工客服。它可大规模处理常规电话，有助于降低失约率。示例聚焦于智能代理层面的语音对话与工具编排，并提供基于浏览器的测试界面。

使用 Amazon Nova 2 Sonic 的原生语音到语音模型，保留语气等上下文信息。
通过 Amazon Bedrock AgentCore 实现无服务器运行时，集成七项医疗专用工具。

利用 Snowflake 和 Amazon QuickSight 实现 AI 驱动型商业智能

2026-06-25 02:19 UTC+8

本文介绍了如何构建 Snowflake 语义视图与 Amazon QuickSight 之间的端到端集成，使用电影评论数据作为示例，展示如何通过自然语言查询和分析数据，确保业务逻辑的一致性和减少 AI 幻觉。

语义视图将业务定义直接附加到数据层，确保 AI 和 BI 系统统一解释信息
通过 Cortex Analyst 进行自然语言查询，降低 AI 幻觉风险

Loka 如何利用 Amazon Nova 2 Sonic 构建自然、低延迟的语音代理

2026-06-25 00:56 UTC+8

Loka 使用 Amazon Nova 2 Sonic 构建了对话式 AI 代理，通过原生语音到语音模型解决了传统语音助手延迟高、不自然的问题，实现了低成本、高准确率的客户互动。

传统语音代理因三步处理流程（语音转文本、LLM 处理、文本转语音）导致 3-5 秒延迟，破坏对话自然性，增加成本。
Amazon Nova 2 Sonic 采用端到端语音处理，Big Bench Audio 得分 87.0，首次响应时间 1.39 秒，每小时成本约 0.27 美元。

使用 Amazon Bedrock AgentCore 构建蛋白质研究助手

2026-06-24 00:39 UTC+8

本文展示了如何构建一个对话式蛋白质研究助手，它结合了自然语言查询解析、蛋白质嵌入向量相似度搜索和AI生成的科学摘要，帮助研究人员高效地在大数据集中搜索结构相似的肽段。

使用 Strands Agents SDK 协调三个专用工具：解析器、搜索器和摘要器，部署到 Amazon Bedrock AgentCore。
利用 ESM-C 300M 蛋白质语言模型生成嵌入向量，通过 Amazon Aurora PostgreSQL 的 pgvector 进行向量相似度搜索。

共享基础设施，隔离租户：使用 Amazon Bedrock AgentCore 实现池模型多租户

2026-06-23 23:43 UTC+8

本文介绍了如何使用 Amazon Bedrock AgentCore 构建生产级多租户 AI 系统的模式，通过医疗 AI 助手示例展示了租户隔离、服务层级差异化、成本追踪和可观测性等关键能力。

利用 Amazon Bedrock AgentCore 原生能力实现完整的租户隔离。
通过层级策略（如基础版和高级版）实现服务差异化。

为AI代理构建按智能付费：Ampersend如何使用Amazon Bedrock AgentCore Payments

2026-06-23 01:53 UTC+8

Ampersend在Amazon Bedrock AgentCore Payments之上构建了一个按智能付费的路由层，使AI代理能够使用x402协议自主支付模型服务费用。该集成处理钱包托管、支出治理和两跳结算，将开发时间从数月缩短至两周以内。

Ampersend与Amazon Bedrock AgentCore Payments集成，为AI代理提供自主按智能付费功能。
解决方案采用两跳支付模式：代理向Ampersend支付，Ampersend再向模型提供商支付。

本文探讨了如何利用多模态嵌入、大语言模型标注和向量搜索，将航拍图像库转化为可自然语言搜索的知识库。通过使用Amazon Bedrock和Amazon OpenSearch Serverless构建的五阶段管道，评估了不同嵌入模型、融合策略、标注方法和搜索技术。实验表明，Amazon Nova Multimodal Embeddings在基准查询中获得了最高的F1分数。该工作已发展为Vexcel Intelligence产品。

航拍图像搜索面临多视角、无标注数据集、语义模糊等挑战。
采用五阶段架构：定义区域、摄取图像、嵌入与索引、搜索、评估。

在Amazon SageMaker AI处理作业上运行ComfyUI工作流

2026-06-23 00:28 UTC+8

本文介绍了如何在Amazon SageMaker AI处理作业上部署ComfyUI工作流，以批量生成高质量图像。涵盖使用AWS CDK设置基础设施、配置GPU加速处理以及自动化大规模图像生成的步骤。该解决方案可适应自定义工作流，帮助扩展创意管线。

教程演示了使用ComfyUI和SageMaker AI批量生成数百张图像。
通过AWS CDK部署，包括数据栈、安全栈和ComfyUI栈。

Amazon Bedrock AgentCore 推出网页搜索功能

2026-06-19 22:15 UTC+8

亚马逊 Bedrock AgentCore 网页搜索功能现已全面可用。该功能通过完全托管的 MCP 兼容接口，让 AI 代理能够获取实时网页信息。它基于亚马逊自建的包含数百亿文档的网页索引，保证查询在 AWS 内部处理，无需管理第三方 API 或凭证。

网页搜索功能解决了 AI 代理知识陈旧的问题，可获取实时数据。
使用亚马逊自建的网页索引，覆盖数百亿文档，分钟级更新。

利用 Adobe Marketing Agent for Amazon Quick 加速营销活动工作流程

2026-06-19 22:05 UTC+8

本文介绍了如何通过模型上下文协议（MCP）将 Adobe Marketing Agent 与 Amazon Quick 集成，使营销人员能够通过自然语言对话获取受众排名、忠诚度细分、旅程使用情况和冲突分析等关键洞察。文章详细说明了先决条件、配置步骤、身份验证、创建聊天代理以及验证工作流程。

通过 MCP 将 Adobe Marketing Agent 与 Amazon Quick 集成，实现自然语言查询营销洞察。
配置品牌连接器、管理工具权限并发布连接。

使用 SageMaker 详细指标和 CloudWatch Insights 仪表板监控和调试生成式 AI 推理

2026-06-19 07:31 UTC+8

Amazon SageMaker AI 现在提供超过 100 种详细的推理指标，涵盖 GPU 健康、令牌级延迟、KV 缓存压力、可用区流量分布等。这些指标通过内置的 SageMaker Insights 仪表板在 CloudWatch 中展示，支持 PromQL 查询。本文介绍如何启用详细可观测性、导航仪表板以及将指标连接到外部工具。

SageMaker 推理端点现在默认发出超过 100 种详细的 OpenTelemetry 指标到 CloudWatch。
新的 SageMaker Insights 仪表板提供性能、容量和可靠性三个视图，帮助快速定位延迟和资源问题。

Amazon Bedrock AgentCore Harness 现已正式上市：数分钟内从创意到生产级智能体

2026-06-19 01:32 UTC+8

Amazon Bedrock AgentCore Harness 现已正式发布，允许开发者通过两次 API 调用即可创建并运行一个功能完整的智能体。该工具提供隔离的运行环境、内置记忆、工具集成、技能库以及实时追踪能力，无需编写编排代码或构建容器。

CreateHarness 和 InvokeHarness 两个 API 调用即可快速创建和运行智能体
智能体拥有隔离的文件系统和 shell，可安全执行代码和命令

Amazon SageMaker AI 异步推理现在支持内联请求负载

2026-06-18 04:56 UTC+8

Amazon SageMaker AI 异步推理新增内联负载支持，客户可直接在 InvokeEndpointAsync API 的请求体中发送推理负载，无需先上传到 S3。对于不超过128KB的负载，此举消除了网络往返，简化了客户端代码，并减少了操作复杂度。

新增 Body 参数，允许直接发送最大128KB的内联负载，与 InputLocation 互斥。
简化客户端代码，无需 S3 客户端、IAM 权限和输入桶管理。

使用 Amazon Quick 中的自主代理每天节省数小时

2026-06-18 04:35 UTC+8

Amazon Quick 推出了自主代理，可连续为您工作，还有活动摘要帮助您优先处理最重要的工作，并能够通过单个问题跨所有数据源寻找洞察，帮助用户每天节省时间。

Quick 中的新自主代理可连续在后台处理任务。
活动摘要整合并优先处理跨应用的通信。

为您的数据和AI代理提供规模化上下文智能

2026-06-18 01:17 UTC+8

在AWS纽约峰会上，AWS宣布了一系列创新，包括AWS Context（即将推出）、AWS Glue数据目录业务上下文与语义搜索（预览版）以及Amazon S3注释（正式可用），旨在为AI代理提供可信任的上下文，使其能够安全地访问分散在数据湖、数据仓库、数据库和流中的数据以及机构知识。这些服务通过知识图谱、身份感知访问和开放式标准，帮助组织构建一个共享、可治理的上下文层，从而提升AI代理的决策能力。

AWS Context通过知识图谱自动映射数据关系，提供代理搜索，使AI代理能在运行时访问治理后的数据关系和业务规则。
AWS Glue数据目录新增业务上下文和语义搜索，支持用业务描述和术语丰富技术元数据，并通过技能资产为代理提供额外指导。

Amazon Bedrock AgentCore 新功能：构建具备更广泛知识和持续学习能力的智能体

2026-06-17 23:29 UTC+8

Amazon Bedrock AgentCore 推出了新功能，可将智能体连接到组织、网络和付费知识库，并提供持续优化的功能和增强的策略控制。

智能体通过托管知识库、网络搜索和付费内容（通过AgentCore支付）获得原生访问权限。
优化功能包括失败/意图/轨迹洞察、建议和A/B测试，实现持续改进。

使用Amazon Bedrock Guardrails InvokeGuardrailChecks API保护您的Agentic AI应用

2026-06-17 06:46 UTC+8

Amazon Bedrock Guardrails推出了新的InvokeGuardrailChecks API，允许在Agentic AI应用的任意环节应用独立的安全检查，无需创建Guardrail资源。该API以仅检测模式运行，返回数值分数，使您能够自定义阈值和操作。本文介绍了API的工作原理及如何构建安全的多轮Agentic AI应用。

InvokeGuardrailChecks API无需预先创建Guardrail资源，可在Agent循环中灵活调用安全检查。
API支持内容过滤、提示攻击检测和敏感信息过滤，返回严重性或置信度分数。

Amazon SageMaker AI 推出容器缓存，加速模型扩展

2026-06-17 04:16 UTC+8

Amazon SageMaker AI 宣布容器镜像缓存功能，可将扩展事件中的端到端延迟最多降低 2 倍，尤其适用于生成式 AI 模型。

容器缓存自动为支持的实例类型启用，无需修改。
在新实例启动时消除容器镜像拉取步骤，端到端启动延迟降低最多 51%。

在 Amazon SageMaker AI 上使用 P-EAGLE 实现推测解码并行化

2026-06-17 01:47 UTC+8

本篇文章指导您如何在 Amazon SageMaker AI 中直接使用 P-EAGLE，展示如何从 SageMaker JumpStart 目录中选择兼容模型、配置并行草稿规格，并部署高度优化的实时 SageMaker AI 端点以加速生成式 AI 应用。

P-EAGLE 通过一次前向传播并行预测所有草稿令牌，消除了传统推测解码的串行瓶颈。
相比 EAGLE-3，在真实基准测试中吞吐量提升高达 1.69 倍。

在 Amazon Bedrock 上推出 Gemma 4 模型

2026-06-16 04:24 UTC+8

Google DeepMind 构建的 Gemma 4 系列开放权重模型现已在 Amazon Bedrock 上可用。该系列包括三种指令微调变体：Gemma 4 31B、Gemma 4 26B-A4B 和 Gemma 4 E2B，涵盖密集和混合专家（MoE）架构。它们提供内置推理、原生函数调用以及文本和图像的多模态输入。Amazon Bedrock 通过完全托管的服务提供这些模型，确保数据保护、监管合规和运营控制。

Gemma 4 系列包含三种变体：31B 密集、26B-A4B MoE 和 E2B PLE。
支持内置推理模式、函数调用和文本/图像多模态输入。

使用Strands Evals进行AI智能体故障检测与根因分析

2026-06-16 02:07 UTC+8

本文介绍了Strands Evals SDK中的检测器，它可以自动识别AI智能体执行轨迹中的故障并进行根因分析，将诊断时间从数小时缩短至数分钟。文章详细讲解了如何调用检测函数、解读结构化输出（包括分类故障、置信度、因果链和修复建议），以及如何将检测集成到评估管线中实现自动化诊断。

检测器分为两阶段：故障检测（识别轨迹中的9大类故障）和根因分析（区分根本原因与下游症状，并给出修复建议）。
通过detect_failures和analyze_root_cause函数可分别获取故障和根因，diagnose_session提供一站式诊断。

使用Deep Agents和Bedrock AgentCore构建上下文丰富的研究型Agent

2026-06-15 21:56 UTC+8

本文介绍如何利用LangChain Deep Agents和Amazon Bedrock AgentCore构建一个能够并行浏览网页、执行数据分析并长期记忆研究结果的竞争情报研究Agent。通过将深度工作委托给隔离的子Agent，有效解决AI研究工作流中上下文窗口受限的问题。

Deep Agents负责编排多个专用子Agent，每个子Agent在独立的Bedrock AgentCore MicroVM中运行。
研究型子Agent并行浏览竞争对手网站，分析性子Agent生成对比图表和报告。

AWS Machine Learning Blog