2026-05-21 07:59 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

宣佈 Amazon SageMaker AI 端點支援 OpenAI 相容 API

Amazon SageMaker AI 現在為即時推理端點提供 OpenAI 相容的 API 支援。使用 OpenAI SDK、LangChain 或 Strands Agents 的使用者只需更改端點 URL 即可呼叫 SageMaker AI 上的模型，無需自定義客戶端、SigV4 包裝器或程式碼重寫。該功能支援聊天補全請求和流式響應，並透過 bearer token 進行身份驗證。

來源AWS Machine Learning Blog作者: Marc Karp

Amazon SageMaker AI 今日宣佈推出 OpenAI 相容的 API 支援，適用於即時推理端點。這一新功能允許使用 OpenAI SDK、LangChain 或 Strands Agents 的使用者透過僅更改端點 URL 來呼叫 SageMaker AI 上的模型，無需自定義客戶端、SigV4 包裝器或程式碼重寫。

SageMaker AI 端點在 /openai/v1 路徑下接受聊天補全請求，並原樣返回容器響應，包括流式響應。所有使用標準 SageMaker AI API 和 SDK 的端點及推理元件預設啟用 OpenAI 端點。SageMaker AI 根據 URL 中的端點名稱進行路由，因此任何 OpenAI 相容的客戶端均可直接使用。使用者現在可以為端點建立限時 bearer token，並與 OpenAI 客戶端配合使用。

身份驗證透過 bearer token 實現。SageMaker Python SDK 包含一個令牌生成器，可從現有 AWS 憑證建立最長 12 小時有效的令牌，無需額外的金鑰或 API 金鑰。令牌包含角色或使用者憑證，需要 sagemaker:CallWithBearerToken 和 sagemaker:InvokeEndpoint 操作許可權。生成令牌時，SDK 在客戶端本地構造對 SageMaker AI 服務的請求，使用 AWS 憑證進行 SigV4 簽名，並將簽名後的 URL 編碼為令牌字串，無需網路呼叫。服務端解碼令牌、驗證簽名、檢查過期時間，並確認原始 IAM 身份具有所需許可權。

該功能支援多種用例。在自有基礎設施上執行代理工作流時，使用者可使用 Strands Agents 或 LangChain 構建多步 AI 代理，並在自己的 SageMaker AI 端點上執行，代理透過同一 OpenAI 相容介面呼叫模型，但推理在使用者賬戶的專用 GPU 例項上執行。對於多模型託管，使用者可將多個模型（如 Llama、微調後的 Mistral 和分類模型）部署在同一端點上，每個模型分配獨立資源，均可透過同一 OpenAI SDK 呼叫，無需單獨 API 客戶端或應用層路由邏輯。微調後的模型也可部署並透過現有 OpenAI 相容介面呼叫，僅需更改端點 URL。

本文還提供了詳細的部署步驟，包括單模型端點的建立與呼叫示例，以及如何使用 httpx 實現自動重新整理令牌模式。IAM 許可權應遵循最小許可權原則，限制 InvokeEndpoint 資源為特定端點 ARN，而 CallWithBearerToken 必須使用萬用字元。最佳實踐包括在每次使用時生成新令牌，設定最短有效期限，並避免將令牌儲存在磁碟、環境變數或日誌中。