2026-06-15站内改写4 分钟阅读更新: 2026-06-15

在 Amazon Bedrock 上推出 Gemma 4 模型

Google DeepMind 构建的 Gemma 4 系列开放权重模型现已在 Amazon Bedrock 上可用。该系列包括三种指令微调变体：Gemma 4 31B、Gemma 4 26B-A4B 和 Gemma 4 E2B，涵盖密集和混合专家（MoE）架构。它们提供内置推理、原生函数调用以及文本和图像的多模态输入。Amazon Bedrock 通过完全托管的服务提供这些模型，确保数据保护、监管合规和运营控制。

来源AWS Machine Learning Blog作者: Aris Tsakpinis

今天，我们宣布 Gemma 4 系列模型在 Amazon Bedrock 上可用。由 Google DeepMind 构建并以 Apache 2.0 许可证发布，Gemma 4 是一系列开放权重模型，专注于跨广泛部署场景的每参数智能。该系列包括三种指令微调变体：Gemma 4 31B、Gemma 4 26B-A4B 和 Gemma 4 E2B，涵盖密集和混合专家（MoE）架构，其中每个请求仅激活模型参数的一部分。这些变体提供内置推理、原生函数调用以及文本和图像的多模态输入。

独立基准测试反映了 Gemma 4 对每参数智能的关注：Artificial Analysis 报告 Gemma 4 31B 的智能指数为 39，远高于 4B-40B 开放权重类别中的中位数 15。

采用开放权重基础模型（FM）用于生产的组织面临一个持续的权衡：访问领先模型，但同时不损害数据保护、监管合规或运营控制。Amazon Bedrock 消除了这种权衡。它通过完全托管的服务为您提供领先的开放权重 FM，推理完全在 AWS 运营的基础设施上运行，并具有您期望从 Amazon Bedrock 获得的安全性和隐私控制。

在本文中，我们将介绍如何在 Amazon Bedrock 上开始使用 Gemma 4 模型。我们涵盖这些模型支持的能力、可用的服务层级、按需推理如何缩放以处理您的工作负载，以及可用于访问它们的不同 API。使用这些模型，您可以在 Amazon Bedrock 上构建多模态代理、轻量级应用程序、文档理解管道和软件工程工作流。您的提示和完成不会被用于训练任何模型，您的内容也不会与第三方共享。

Gemma 4 的关键能力

Amazon Bedrock 上的 Gemma 4 系列涵盖从 2.3B 有效参数的紧凑模型到 30.7B 参数的密集模型，为您提供选择变体以匹配不同成本和延迟配置文件的能力。所有变体都支持内置推理模式、用于代理工作流的原生函数调用、结合文本和图像的多模态输入，以及开箱即用支持超过 35 种语言，预训练涵盖 140+ 种语言。由于模型是开放权重的，您可以独立评估模型架构和训练方法，在自己的工作负载上进行基准测试，并在需要定制时对专有数据进行微调。您可以通过完全托管的 AWS 服务访问模型，而无需自己配置基础设施、托管模型权重或操作推理堆栈。

有关支持模型的最新列表，请参阅 Amazon Bedrock 模型目录。

Amazon Bedrock 上的 Gemma 4 系列概览

该系列包括三种针对不同成本和延迟配置文件优化的指令微调变体。下表总结了 Amazon Bedrock 上每个模型的关键规格：

（表格内容略）

选择变体

选择最适合您工作负载性能和要求的变体。下表根据您的用例提供了选择模型的指导：

（表格内容略）

在整个系列中，Gemma 4 模型共享一个通用接口：系统提示、结构化工具调用、图像输入以及可按请求切换的思考模式。您可以针对 API 表面开发一次应用程序，并根据适合工作负载的成本和延迟配置文件在变体之间切换。

架构亮点

所有 Gemma 4 变体使用混合注意力设计，交错局部和全局注意力，支持长达 256K 令牌的上下文（31B 和 26B-A4B），同时保持较小的内存占用。26B-A4B 变体是混合专家模型：总参数 25.2B，但每个令牌仅激活 3.8B，提供大约 4B 类别的成本和延迟，同时具有更大模型的知识容量。E2B 变体使用每层嵌入（PLE）来保持其有效参数计数较小（总 5.1B 中为 2.3B），从而降低内存和计算成本。有关架构详细信息，请参阅 Gemma 4 模型卡。

注意：将 bedrock-mantle 端点用于 Gemma 4 模型。

推理模式

Gemma 4 包括内置推理模式。当启用时，模型在产生最终答案之前会发出其内部思维过程。在 bedrock-mantle 端点上，您通过 Responses API 的 reasoning 参数启用推理，并且思维过程作为单独的推理项与最终答案一起返回（参见演练中的启用推理模式）。

在多轮对话中，仅发送前几轮的最终答案，而不是它们的推理项。将先前的推理重放给模型可能会降低其响应质量。您仍然可以将推理保留在您自己的日志或审计跟踪中。在下一轮发送的历史记录中将其剥离。

在 Amazon Bedrock 上访问 Gemma 4 模型

您通过 bedrock-mantle 端点访问 Amazon Bedrock 上的 Gemma 4 模型，该端点是专为 Amazon Bedrock 的下一代推理引擎构建的 OpenAI 兼容 API。其端点 URL 为 https://bedrock-mantle.{region}.api.aws/openai/v1，并公开了 Chat Completions 和 Responses API。

区分端点和引擎是有帮助的：引擎是底层的服务基础设施——设计为模型部署账户隔离和零操作员访问——端点是您调用的 HTTPS API 表面。bedrock-mantle 端点是该下一代推理引擎的公共 API，并公开其全部功能集。有关底层推理引擎的深入了解，请参阅探索 Amazon Bedrock 下一代推理引擎的零操作员访问设计。

bedrock-mantle 端点使用与 OpenAI Python 和 TypeScript SDK 相同的接口，因此已经使用这些 SDK 的团队可以通过仅更新基本 URL 和模型 ID 来切换到 Amazon Bedrock 上的 Gemma 4 模型。它还支持 Amazon Bedrock API 密钥、项目和客户端工具调用。

在 Amazon Bedrock 上开始使用 Gemma 4 系列模型

完成以下步骤以开始在 Amazon Bedrock 上使用 Gemma 4。

前提条件

要使用 Gemma 4 模型，您需要具有在 bedrock-mantle 端点上运行推理权限的 AWS 账户。授予这些权限的最简单方法是将 AWS 托管策略 AmazonBedrockMantleInferenceAccess 附加到您的 AWS Identity and Access Management (IAM) 主体。它授予了对 Mantle 的读取和推理创建访问权限——本文示例所需的权限。这些包括 bedrock-mantle:CreateInference（授权 Chat Completions 和 Responses 推理调用）和 bedrock-mantle:CallWithBearerToken（授权使用 Amazon Bedrock API 密钥调用端点）。有关创建和管理 API 密钥的详细信息，请参阅 Amazon Bedrock API 密钥。

如果您还需要管理项目、微调、自定义模型等，请改为附加 AmazonBedrockMantleFullAccess，它授予完整的 bedrock-mantle 操作集。

控制台游乐场

Amazon Bedrock 控制台包括一个聊天/文本游乐场，您可以在其中快速测试模型而无需编写任何代码。按照以下步骤加载 Gemma 4 模型并准备交互：

导航到 Amazon Bedrock 控制台。

从左侧菜单中选择测试游乐场。

选择聊天/文本游乐场。

选择游乐场左上角的选择模型。

从类别列表中选择 Google。

选择 Gemma 4 模型。

选择应用以加载模型。

验证模型已成功加载：模型名称出现在游乐场标题中，聊天界面已准备好输入。

为了演示 Gemma 4 31B 的推理和代码生成能力，在游乐场中尝试以下提示：“设计一个公开 REST API 以管理任务队列的 Python 微服务。包括错误处理、输入验证并编写单元测试。解释您的设计决策。”

从 OpenAI SDK 调用 bedrock-mantle 端点

以下示例使用 OpenAI Python SDK 作为客户端库来调用 bedrock-mantle 端点。使用 OpenAI SDK 时，您需要一个 Amazon Bedrock API 密钥。对于生产工作负载，请使用短期 API 密钥。它们会自动过期（最长 12 小时）并继承生成它们的 IAM 角色的权限。如果您已经在使用原生 AWS 凭证但没有 API 密钥，aws-bedrock-token-generator 包会从这些凭证生成短期承载令牌。

（代码示例略）

如果您正在迁移一个已使用 OpenAI SDK 格式并带有不同模型的现有应用程序，通常只需更新基本 URL 和模型 ID。有关控制生成和使用 API 密钥的权限，请参阅控制生成和使用 Amazon Bedrock API 密钥的权限。

注意：本文中的代码示例仅用于演示目的从环境变量读取 API 密钥。在生产中，请从托管秘密服务（如 AWS Secrets Manager 或 AWS Systems Manager Parameter Store）存储和检索凭证，而不是环境变量。

多模态输入（图像）

由于所有 Gemma 4 变体都支持图像输入，相同的 Chat Completions API 适用于视觉任务。bedrock-mantle 端点接受图像作为内联 base64 编码数据 URL 或 Amazon Simple Storage Service (Amazon S3) URL（s3://）；不支持任意的公共 https:// 图像 URL。以下示例读取本地图像文件，将其编码为 base64 数据 URL，并将其与文本提示一起包含在消息内容中：

（代码示例略）

或者，您可以通过传递 s3:// URL 来代替数据 URL（例如，{"url": "s3://my-bucket/chart.png"}）引用存储在 Amazon S3 中的图像。这避免了在请求中嵌入大型图像。