2026-07-02 02:14 UTC+8站内改写2 分钟阅读更新: 2026-07-02 02:27 UTC+8

在 AWS GovCloud（美国）上通过 Amazon Bedrock 运行 NVIDIA Nemotron 和 OpenAI GPT OSS 模型

AWS GovCloud（美国）区域新增对 OpenAI 开源 GPT OSS 模型（120B 和 20B）及 NVIDIA Nemotron 系列模型（Nano 9B v2、Nano 12B v2、Nano 30B、Super 120B）的支持，通过 Amazon Bedrock 提供统一的 API 访问，推理过程完全在美国境内由美国公民运营的基础设施上进行，满足 FedRAMP、DoD SRG 等合规要求。

来源AWS Machine Learning Blog作者: Zohreh Norouzi

美国政府机构在 AWS GovCloud（美国）上运行工作负载时，需要与商业领域同步的 AI 能力，同时不能牺牲安全和合规控制。随着开放权重基础模型从实验阶段走向任务系统，每个模型决策都需满足两大要求：模型必须提供任务所需的能力，推理环境必须满足机构的安全、合规和数据驻留义务。对于美国国防和情报界及其承包商而言，这些要求不可妥协。访问先进的开放权重模型对于情报分析、任务规划、采购和合同文件审查、安全日志分析及合规自动化等任务至关重要，且不得将敏感数据移出管辖边界。

我们很高兴在 AWS GovCloud（美国）中引入基于美国的先进开放权重模型。此次发布后，Amazon Bedrock 支持 OpenAI 的开放权重 GPT OSS 模型（120B 和 20B）以及 NVIDIA Nemotron 模型（Nano 9B v2、Nano 12B v2、Nano 30B、Super 120B）。利用这些新模型，您可以使用多样化、高性能的基础模型构建和扩展生成式 AI 应用程序，通过统一的 API 在 OpenAI 和 NVIDIA 的最新模型以及其他领先 AI 模型之间灵活选择，而无需更改应用代码。

AWS GovCloud（美国）提供一组隔离的 AWS 区域，专为托管敏感数据和监管工作负载而设计。这些区域位于美国境内，仅由美国公民管理，帮助客户满足 FedRAMP High（临时运营授权）和 DoD 云计算安全要求指南（SRG）影响等级 2、4 和 5 等合规框架，还包括国际武器贸易条例（ITAR）和刑事司法信息服务（CJIS）。

Amazon Bedrock 是一项完全托管的服务，用于访问来自独立模型提供商的 FM，推理完全在 AWS 运营的基础设施上运行。使用 Amazon Bedrock，推理在 AWS GovCloud（美国）隔离边界内部进行，由美国公民在美国领土上运营。

OpenAI 的开放权重 GPT OSS 模型和 NVIDIA Nemotron 开放权重模型现已在 AWS GovCloud（美国）的 Amazon Bedrock 上可用。此次发布将两个开放权重模型系列引入 AWS GovCloud（美国）区域：OpenAI gpt-oss-120b 和 gpt-oss-20b，以及 NVIDIA Nemotron 3 系列，包括 Nemotron 3 Super 120B 和 Nemotron 3 Nano 模型。利用这些模型，您可以构建代理式应用和任务工作流，如自动化安全控制评估、多文档情报综合、合同与采购分析以及策略合规检查，所有这些都在 AWS GovCloud（美国）合规边界内运行。

模型介绍

NVIDIA Nemotron：NVIDIA Nemotron 系列提供小型语言模型（SLM）和大型语言模型（LLM）能力，专为代理式 AI 系统的计算效率和准确性而构建。Nemotron 3 Super 是 1200 亿参数的开放混合专家（MoE）模型，每个 token 仅激活 120 亿参数，吞吐量比上一代高 5 倍，支持百万 token 上下文窗口。Nemotron 3 Nano 是 300 亿参数模型，每个 token 激活约 30 亿参数，吞吐量提升 4 倍，推理 token 生成减少 60%。

OpenAI GPT OSS：OpenAI 的 GPT OSS 模型是开放权重的文本到文本模型，专为推理、代理和开发任务设计，支持可调节的推理努力和外部工具集成。gpt-oss-120b（1200 亿参数）适用于生产和高推理用例，gpt-oss-20b（200 亿参数）适用于低延迟和本地场景。两者均提供 128K token 上下文窗口和最多 16K 输出 token。开放权重使组织能够独立评估模型架构、审查模型卡并运行基准测试，支持政府团队的风险评估和零信任原则。

无服务器推理与数据驻留

NVIDIA Nemotron 和 GPT OSS 模型由 Amazon Bedrock 的下一代推理引擎提供服务，采用零操作员访问设计，确保客户数据（推理提示和完成）不可见。Amazon Bedrock 提供两个端点：bedrock-mantle（兼容 OpenAI API）和 bedrock-runtime（支持 Guardrails 等功能）。区域内推理在 us-gov-west-1 可用，地理跨区域推理在 us-gov-west-1 和 us-gov-east-1 之间路由，所有流量始终停留在 AWS GovCloud（美国）边界内。

服务层级

支持标准（按 token 付费）、优先级（低延迟）和 Flex（低成本非时间敏感）三个层级，预留吞吐量暂不可用。默认使用标准按需推理。

入门指南

通过控制台游乐场或 bedrock-mantle 端点开始使用。推荐使用 bedrock-mantle 端点，支持 OpenAI Python 和 TypeScript SDK。需要 AWS GovCloud（美国）账户并配置相应的 IAM 权限。示例代码展示了如何通过 Secrets Manager 获取 API 密钥并调用模型。有关详细步骤和完整代码，请参阅原始博客。