AI News HubLIVE
サイト内リライト4 分で読了

AWS GovCloud (US) で Amazon Bedrock 上で NVIDIA Nemotron と OpenAI GPT OSS モデルを実行する

AWS GovCloud (US) リージョンでは、Amazon Bedrock を通じて OpenAI のオープンウェイト GPT OSS モデル(120B、20B)および NVIDIA Nemotron モデル(Nano 9B v2、Nano 12B v2、Nano 30B、Super 120B)をサポートするようになりました。推論はすべて米国内で米国市民が運営するインフラ上で実行され、FedRAMP、DoD SRG などのコンプライアンス要件を満たします。

ソースAWS Machine Learning Blog著者: Zohreh Norouzi

AWS GovCloud (US) でワークロードを実行する政府機関には、商業セクターと歩調を合わせた AI 機能が必要ですが、セキュリティとコンプライアンスを犠牲にすることはできません。オープンウェイトの基盤モデルが実験からミッションシステムに移行するにつれて、すべてのモデル決定には2つの要件が求められます。第一に、モデルはミッションが要求する能力を提供すること。第二に、推論環境は機関のセキュリティ、コンプライアンス、データ保存義務を満たすことです。米国政府機関、国防・情報コミュニティ、およびそれらにサービスを提供する請負業者にとって、これらの要件は譲歩できません。高度なオープンウェイトモデルへのアクセスは、インテリジェンス分析、ミッション計画、調達・契約書類のレビュー、セキュリティログ分析、コンプライアンス自動化などの業務に不可欠であり、機密データを管轄境界外に移動させることなく実現する必要があります。

今回、AWS GovCloud (US) に米国拠点の最先端オープンウェイトモデルを導入できることを嬉しく思います。このリリースにより、Amazon Bedrock は OpenAI のオープンウェイト GPT OSS モデル(120B および 20B)と NVIDIA Nemotron モデル(Nano 9B v2、Nano 12B v2、Nano 30B、Super 120B)をサポートします。これらの新しいモデルを使用すると、多様で高性能な基盤モデルを使用して生成 AI アプリケーションを構築および拡張でき、統一された API を通じて OpenAI や NVIDIA の最新モデルと他の主要 AI モデルを柔軟に選択でき、アプリケーションコードを変更する必要はありません。

AWS GovCloud (US) は、機密データと規制対象ワークロードをホストするように設計された、分離された AWS リージョンのセットを提供します。リージョンは米国国内に物理的に配置され、米国市民のみが管理します。FedRAMP High(暫定運用許可)、DoD クラウドコンピューティングセキュリティ要件ガイド(SRG)影響レベル2、4、5、国際武器取引規則(ITAR)、刑事司法情報サービス(CJIS)などのコンプライアンスフレームワークを満たすのに役立ちます。

Amazon Bedrock は、独立したモデルプロバイダーから基盤モデルにアクセスするためのフルマネージドサービスであり、推論はすべて AWS が運営するインフラ上で実行されます。Amazon Bedrock を使用すると、推論は AWS GovCloud (US) の分離境界内で、米国市民が米国領土で運営するインフラ上で実行されます。

OpenAI のオープンウェイト GPT OSS モデルと NVIDIA Nemotron オープンウェイトモデルは、AWS GovCloud (US) の Amazon Bedrock で利用可能になりました。このリリースにより、2つのオープンウェイトモデルファミリーが AWS GovCloud (US) リージョンに導入されます:OpenAI gpt-oss-120b および gpt-oss-20b、NVIDIA Nemotron 3 シリーズ(Nemotron 3 Super 120B および Nemotron 3 Nano モデル)。これらのモデルを使用すると、自動セキュリティ制御評価、マルチドキュメントインテリジェンス統合、契約および調達分析、ポリシーコンプライアンスチェックなどのエージェンティックアプリケーションとミッションワークフローを構築でき、すべて AWS GovCloud (US) のコンプライアンス境界内で実行されます。

モデルについて

NVIDIA Nemotron: NVIDIA Nemotron ファミリーは、エージェンティック AI システムの計算効率と精度のために構築された、小規模言語モデル(SLM)および大規模言語モデル(LLM)機能を提供します。Nemotron 3 Super は1200億パラメータのオープンハイブリッド混合エキスパート(MoE)モデルで、トークンあたり120億パラメータのみをアクティブ化し、前世代比で最大5倍のスループットを実現、100万トークンのコンテキストウィンドウをサポートします。Nemotron 3 Nano は300億パラメータのモデルで、トークンあたり約30億パラメータをアクティブ化し、スループットが4倍向上、推論トークン生成を最大60%削減します。

OpenAI GPT OSS: OpenAI の GPT OSS モデルはオープンウェイトのテキスト間モデルで、推論、エージェンティック、開発者タスク向けに設計され、調整可能な推論努力と外部ツール統合をサポートします。gpt-oss-120b(1200億パラメータ)は本番環境および高推論ユースケース向け、gpt-oss-20b(200億パラメータ)は低レイテンシおよびローカル/特殊ユースケース向けです。両モデルとも128Kトークンのコンテキストウィンドウと最大16K出力トークンを提供します。オープンウェイトにより、組織はモデルアーキテクチャを独立して評価し、公開モデルカードをレビューし、代表的なワークロードで独自のベンチマークを実行できます。政府チームにとって、この透明性は組織的リスク評価をサポートし、顧客のセキュリティチームがデプロイ前にモデルの動作を評価することを可能にし、多くの米国政府機関が採用しているゼロトラスト原則に沿っています。

コンプライアンス境界内でのサーバーレス推論

NVIDIA Nemotron および GPT OSS モデルは、Amazon Bedrock の次世代推論エンジンによって提供されます。このエンジンはゼロオペレーターアクセス設計に基づいており、推論プロンプトや完了などの顧客データにオペレーターはアクセスできません。Amazon Bedrock は2つのエンドポイントを提供します:bedrock-mantle(OpenAI 互換 API)と bedrock-runtime(Guardrails などの機能をサポート)。リージョン内推論は us-gov-west-1 で利用可能で、地理的クロスリージョン推論は専用の ID を使用して us-gov-west-1 と us-gov-east-1 間でリクエストをルーティングし、トラフィックは AWS GovCloud (US) 境界内に留まります。

サービス層

Standard(従量課金)、Priority(低レイテンシ)、Flex(低コスト、非時間重視)の3つの層をサポートし、Reserved は現在利用できません。デフォルトは Standard 層です。

はじめに

コンソールのプレイグラウンドまたは bedrock-mantle エンドポイントを使用して開始します。bedrock-mantle エンドポイントは OpenAI Python および TypeScript SDK をサポートしており、推奨されます。AWS GovCloud (US) アカウントと適切な IAM 権限が必要です。シークレットマネージャーを使用して API キーを取得し、モデルを呼び出すコード例が提供されています。詳細な手順と完全なコードについては、元のブログを参照してください。

AWS GovCloud (US) で Amazon Bedrock 上で NVIDIA Nemotron と OpenAI GPT OSS モデルを実行する | AI News Hub