2026-05-21 07:59 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

宣布 Amazon SageMaker AI 端点支持 OpenAI 兼容 API

Amazon SageMaker AI 现在为实时推理端点提供 OpenAI 兼容的 API 支持。使用 OpenAI SDK、LangChain 或 Strands Agents 的用户只需更改端点 URL 即可调用 SageMaker AI 上的模型，无需自定义客户端、SigV4 包装器或代码重写。该功能支持聊天补全请求和流式响应，并通过 bearer token 进行身份验证。

来源AWS Machine Learning Blog作者: Marc Karp

Amazon SageMaker AI 今日宣布推出 OpenAI 兼容的 API 支持，适用于实时推理端点。这一新功能允许使用 OpenAI SDK、LangChain 或 Strands Agents 的用户通过仅更改端点 URL 来调用 SageMaker AI 上的模型，无需自定义客户端、SigV4 包装器或代码重写。

SageMaker AI 端点在 /openai/v1 路径下接受聊天补全请求，并原样返回容器响应，包括流式响应。所有使用标准 SageMaker AI API 和 SDK 的端点及推理组件默认启用 OpenAI 端点。SageMaker AI 根据 URL 中的端点名称进行路由，因此任何 OpenAI 兼容的客户端均可直接使用。用户现在可以为端点创建限时 bearer token，并与 OpenAI 客户端配合使用。

身份验证通过 bearer token 实现。SageMaker Python SDK 包含一个令牌生成器，可从现有 AWS 凭证创建最长 12 小时有效的令牌，无需额外的密钥或 API 密钥。令牌包含角色或用户凭证，需要 sagemaker:CallWithBearerToken 和 sagemaker:InvokeEndpoint 操作权限。生成令牌时，SDK 在客户端本地构造对 SageMaker AI 服务的请求，使用 AWS 凭证进行 SigV4 签名，并将签名后的 URL 编码为令牌字符串，无需网络调用。服务端解码令牌、验证签名、检查过期时间，并确认原始 IAM 身份具有所需权限。

该功能支持多种用例。在自有基础设施上运行代理工作流时，用户可使用 Strands Agents 或 LangChain 构建多步 AI 代理，并在自己的 SageMaker AI 端点上运行，代理通过同一 OpenAI 兼容接口调用模型，但推理在用户账户的专用 GPU 实例上执行。对于多模型托管，用户可将多个模型（如 Llama、微调后的 Mistral 和分类模型）部署在同一端点上，每个模型分配独立资源，均可通过同一 OpenAI SDK 调用，无需单独 API 客户端或应用层路由逻辑。微调后的模型也可部署并通过现有 OpenAI 兼容接口调用，仅需更改端点 URL。

本文还提供了详细的部署步骤，包括单模型端点的创建与调用示例，以及如何使用 httpx 实现自动刷新令牌模式。IAM 权限应遵循最小权限原则，限制 InvokeEndpoint 资源为特定端点 ARN，而 CallWithBearerToken 必须使用通配符。最佳实践包括在每次使用时生成新令牌，设置最短有效期限，并避免将令牌存储在磁盘、环境变量或日志中。