2026-05-21 07:59 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

宣佈 Amazon SageMaker AI 端點支持 OpenAI 兼容 API

Amazon SageMaker AI 現在為實時推理端點提供 OpenAI 兼容的 API 支持。使用 OpenAI SDK、LangChain 或 Strands Agents 的用户只需更改端點 URL 即可調用 SageMaker AI 上的模型，無需自定義客户端、SigV4 包裝器或代碼重寫。該功能支持聊天補全請求和流式響應，並通過 bearer token 進行身份驗證。

來源AWS Machine Learning Blog作者: Marc Karp

Amazon SageMaker AI 今日宣佈推出 OpenAI 兼容的 API 支持，適用於實時推理端點。這一新功能允許使用 OpenAI SDK、LangChain 或 Strands Agents 的用户通過僅更改端點 URL 來調用 SageMaker AI 上的模型，無需自定義客户端、SigV4 包裝器或代碼重寫。

SageMaker AI 端點在 /openai/v1 路徑下接受聊天補全請求，並原樣返回容器響應，包括流式響應。所有使用標準 SageMaker AI API 和 SDK 的端點及推理組件默認啓用 OpenAI 端點。SageMaker AI 根據 URL 中的端點名稱進行路由，因此任何 OpenAI 兼容的客户端均可直接使用。用户現在可以為端點創建限時 bearer token，並與 OpenAI 客户端配合使用。

身份驗證通過 bearer token 實現。SageMaker Python SDK 包含一個令牌生成器，可從現有 AWS 憑證創建最長 12 小時有效的令牌，無需額外的密鑰或 API 密鑰。令牌包含角色或用户憑證，需要 sagemaker:CallWithBearerToken 和 sagemaker:InvokeEndpoint 操作權限。生成令牌時，SDK 在客户端本地構造對 SageMaker AI 服務的請求，使用 AWS 憑證進行 SigV4 簽名，並將簽名後的 URL 編碼為令牌字符串，無需網絡調用。服務端解碼令牌、驗證簽名、檢查過期時間，並確認原始 IAM 身份具有所需權限。

該功能支持多種用例。在自有基礎設施上運行代理工作流時，用户可使用 Strands Agents 或 LangChain 構建多步 AI 代理，並在自己的 SageMaker AI 端點上運行，代理通過同一 OpenAI 兼容接口調用模型，但推理在用户賬户的專用 GPU 實例上執行。對於多模型託管，用户可將多個模型（如 Llama、微調後的 Mistral 和分類模型）部署在同一端點上，每個模型分配獨立資源，均可通過同一 OpenAI SDK 調用，無需單獨 API 客户端或應用層路由邏輯。微調後的模型也可部署並通過現有 OpenAI 兼容接口調用，僅需更改端點 URL。

本文還提供了詳細的部署步驟，包括單模型端點的創建與調用示例，以及如何使用 httpx 實現自動刷新令牌模式。IAM 權限應遵循最小權限原則，限制 InvokeEndpoint 資源為特定端點 ARN，而 CallWithBearerToken 必須使用通配符。最佳實踐包括在每次使用時生成新令牌，設置最短有效期限，並避免將令牌存儲在磁盤、環境變量或日誌中。