在 AWS GovCloud(美国)上通过 Amazon Bedrock 运行 NVIDIA Nemotron 和 OpenAI GPT OSS 模型
AWS GovCloud(美国)区域新增对 OpenAI 开源 GPT OSS 模型(120B 和 20B)及 NVIDIA Nemotron 系列模型(Nano 9B v2、Nano 12B v2、Nano 30B、Super 120B)的支持,通过 Amazon Bedrock 提供统一的 API 访问,推理过程完全在美国境内由美国公民运营的基础设施上进行,满足 FedRAMP、DoD SRG 等合规要求。
美国政府机构在 AWS GovCloud(美国)上运行工作负载时,需要与商业领域同步的 AI 能力,同时不能牺牲安全和合规控制。随着开放权重基础模型从实验阶段走向任务系统,每个模型决策都需满足两大要求:模型必须提供任务所需的能力,推理环境必须满足机构的安全、合规和数据驻留义务。对于美国国防和情报界及其承包商而言,这些要求不可妥协。访问先进的开放权重模型对于情报分析、任务规划、采购和合同文件审查、安全日志分析及合规自动化等任务至关重要,且不得将敏感数据移出管辖边界。
我们很高兴在 AWS GovCloud(美国)中引入基于美国的先进开放权重模型。此次发布后,Amazon Bedrock 支持 OpenAI 的开放权重 GPT OSS 模型(120B 和 20B)以及 NVIDIA Nemotron 模型(Nano 9B v2、Nano 12B v2、Nano 30B、Super 120B)。利用这些新模型,您可以使用多样化、高性能的基础模型构建和扩展生成式 AI 应用程序,通过统一的 API 在 OpenAI 和 NVIDIA 的最新模型以及其他领先 AI 模型之间灵活选择,而无需更改应用代码。
AWS GovCloud(美国)提供一组隔离的 AWS 区域,专为托管敏感数据和监管工作负载而设计。这些区域位于美国境内,仅由美国公民管理,帮助客户满足 FedRAMP High(临时运营授权)和 DoD 云计算安全要求指南(SRG)影响等级 2、4 和 5 等合规框架,还包括国际武器贸易条例(ITAR)和刑事司法信息服务(CJIS)。
Amazon Bedrock 是一项完全托管的服务,用于访问来自独立模型提供商的 FM,推理完全在 AWS 运营的基础设施上运行。使用 Amazon Bedrock,推理在 AWS GovCloud(美国)隔离边界内部进行,由美国公民在美国领土上运营。
OpenAI 的开放权重 GPT OSS 模型和 NVIDIA Nemotron 开放权重模型现已在 AWS GovCloud(美国)的 Amazon Bedrock 上可用。此次发布将两个开放权重模型系列引入 AWS GovCloud(美国)区域:OpenAI gpt-oss-120b 和 gpt-oss-20b,以及 NVIDIA Nemotron 3 系列,包括 Nemotron 3 Super 120B 和 Nemotron 3 Nano 模型。利用这些模型,您可以构建代理式应用和任务工作流,如自动化安全控制评估、多文档情报综合、合同与采购分析以及策略合规检查,所有这些都在 AWS GovCloud(美国)合规边界内运行。
模型介绍
NVIDIA Nemotron:NVIDIA Nemotron 系列提供小型语言模型(SLM)和大型语言模型(LLM)能力,专为代理式 AI 系统的计算效率和准确性而构建。Nemotron 3 Super 是 1200 亿参数的开放混合专家(MoE)模型,每个 token 仅激活 120 亿参数,吞吐量比上一代高 5 倍,支持百万 token 上下文窗口。Nemotron 3 Nano 是 300 亿参数模型,每个 token 激活约 30 亿参数,吞吐量提升 4 倍,推理 token 生成减少 60%。
OpenAI GPT OSS:OpenAI 的 GPT OSS 模型是开放权重的文本到文本模型,专为推理、代理和开发任务设计,支持可调节的推理努力和外部工具集成。gpt-oss-120b(1200 亿参数)适用于生产和高推理用例,gpt-oss-20b(200 亿参数)适用于低延迟和本地场景。两者均提供 128K token 上下文窗口和最多 16K 输出 token。开放权重使组织能够独立评估模型架构、审查模型卡并运行基准测试,支持政府团队的风险评估和零信任原则。
无服务器推理与数据驻留
NVIDIA Nemotron 和 GPT OSS 模型由 Amazon Bedrock 的下一代推理引擎提供服务,采用零操作员访问设计,确保客户数据(推理提示和完成)不可见。Amazon Bedrock 提供两个端点:bedrock-mantle(兼容 OpenAI API)和 bedrock-runtime(支持 Guardrails 等功能)。区域内推理在 us-gov-west-1 可用,地理跨区域推理在 us-gov-west-1 和 us-gov-east-1 之间路由,所有流量始终停留在 AWS GovCloud(美国)边界内。
服务层级
支持标准(按 token 付费)、优先级(低延迟)和 Flex(低成本非时间敏感)三个层级,预留吞吐量暂不可用。默认使用标准按需推理。
入门指南
通过控制台游乐场或 bedrock-mantle 端点开始使用。推荐使用 bedrock-mantle 端点,支持 OpenAI Python 和 TypeScript SDK。需要 AWS GovCloud(美国)账户并配置相应的 IAM 权限。示例代码展示了如何通过 Secrets Manager 获取 API 密钥并调用模型。有关详细步骤和完整代码,请参阅原始博客。