在 Amazon Bedrock 上推出 Gemma 4 模型
Google DeepMind 构建的 Gemma 4 系列开放权重模型现已在 Amazon Bedrock 上可用。该系列包括三种指令微调变体:Gemma 4 31B、Gemma 4 26B-A4B 和 Gemma 4 E2B,涵盖密集和混合专家(MoE)架构。它们提供内置推理、原生函数调用以及文本和图像的多模态输入。Amazon Bedrock 通过完全托管的服务提供这些模型,确保数据保护、监管合规和运营控制。
今天,我们宣布 Gemma 4 系列模型在 Amazon Bedrock 上可用。由 Google DeepMind 构建并以 Apache 2.0 许可证发布,Gemma 4 是一系列开放权重模型,专注于跨广泛部署场景的每参数智能。该系列包括三种指令微调变体:Gemma 4 31B、Gemma 4 26B-A4B 和 Gemma 4 E2B,涵盖密集和混合专家(MoE)架构,其中每个请求仅激活模型参数的一部分。这些变体提供内置推理、原生函数调用以及文本和图像的多模态输入。
独立基准测试反映了 Gemma 4 对每参数智能的关注:Artificial Analysis 报告 Gemma 4 31B 的智能指数为 39,远高于 4B-40B 开放权重类别中的中位数 15。
采用开放权重基础模型(FM)用于生产的组织面临一个持续的权衡:访问领先模型,但同时不损害数据保护、监管合规或运营控制。Amazon Bedrock 消除了这种权衡。它通过完全托管的服务为您提供领先的开放权重 FM,推理完全在 AWS 运营的基础设施上运行,并具有您期望从 Amazon Bedrock 获得的安全性和隐私控制。
在本文中,我们将介绍如何在 Amazon Bedrock 上开始使用 Gemma 4 模型。我们涵盖这些模型支持的能力、可用的服务层级、按需推理如何缩放以处理您的工作负载,以及可用于访问它们的不同 API。使用这些模型,您可以在 Amazon Bedrock 上构建多模态代理、轻量级应用程序、文档理解管道和软件工程工作流。您的提示和完成不会被用于训练任何模型,您的内容也不会与第三方共享。
Gemma 4 的关键能力
Amazon Bedrock 上的 Gemma 4 系列涵盖从 2.3B 有效参数的紧凑模型到 30.7B 参数的密集模型,为您提供选择变体以匹配不同成本和延迟配置文件的能力。所有变体都支持内置推理模式、用于代理工作流的原生函数调用、结合文本和图像的多模态输入,以及开箱即用支持超过 35 种语言,预训练涵盖 140+ 种语言。由于模型是开放权重的,您可以独立评估模型架构和训练方法,在自己的工作负载上进行基准测试,并在需要定制时对专有数据进行微调。您可以通过完全托管的 AWS 服务访问模型,而无需自己配置基础设施、托管模型权重或操作推理堆栈。
有关支持模型的最新列表,请参阅 Amazon Bedrock 模型目录。
Amazon Bedrock 上的 Gemma 4 系列概览
该系列包括三种针对不同成本和延迟配置文件优化的指令微调变体。下表总结了 Amazon Bedrock 上每个模型的关键规格:
(表格内容略)
选择变体
选择最适合您工作负载性能和要求的变体。下表根据您的用例提供了选择模型的指导:
(表格内容略)
在整个系列中,Gemma 4 模型共享一个通用接口:系统提示、结构化工具调用、图像输入以及可按请求切换的思考模式。您可以针对 API 表面开发一次应用程序,并根据适合工作负载的成本和延迟配置文件在变体之间切换。
架构亮点
所有 Gemma 4 变体使用混合注意力设计,交错局部和全局注意力,支持长达 256K 令牌的上下文(31B 和 26B-A4B),同时保持较小的内存占用。26B-A4B 变体是混合专家模型:总参数 25.2B,但每个令牌仅激活 3.8B,提供大约 4B 类别的成本和延迟,同时具有更大模型的知识容量。E2B 变体使用每层嵌入(PLE)来保持其有效参数计数较小(总 5.1B 中为 2.3B),从而降低内存和计算成本。有关架构详细信息,请参阅 Gemma 4 模型卡。
注意:将 bedrock-mantle 端点用于 Gemma 4 模型。
推理模式
Gemma 4 包括内置推理模式。当启用时,模型在产生最终答案之前会发出其内部思维过程。在 bedrock-mantle 端点上,您通过 Responses API 的 reasoning 参数启用推理,并且思维过程作为单独的推理项与最终答案一起返回(参见演练中的启用推理模式)。
在多轮对话中,仅发送前几轮的最终答案,而不是它们的推理项。将先前的推理重放给模型可能会降低其响应质量。您仍然可以将推理保留在您自己的日志或审计跟踪中。在下一轮发送的历史记录中将其剥离。
在 Amazon Bedrock 上访问 Gemma 4 模型
您通过 bedrock-mantle 端点访问 Amazon Bedrock 上的 Gemma 4 模型,该端点是专为 Amazon Bedrock 的下一代推理引擎构建的 OpenAI 兼容 API。其端点 URL 为 https://bedrock-mantle.{region}.api.aws/openai/v1,并公开了 Chat Completions 和 Responses API。
区分端点和引擎是有帮助的:引擎是底层的服务基础设施——设计为模型部署账户隔离和零操作员访问——端点是您调用的 HTTPS API 表面。bedrock-mantle 端点是该下一代推理引擎的公共 API,并公开其全部功能集。有关底层推理引擎的深入了解,请参阅探索 Amazon Bedrock 下一代推理引擎的零操作员访问设计。
bedrock-mantle 端点使用与 OpenAI Python 和 TypeScript SDK 相同的接口,因此已经使用这些 SDK 的团队可以通过仅更新基本 URL 和模型 ID 来切换到 Amazon Bedrock 上的 Gemma 4 模型。它还支持 Amazon Bedrock API 密钥、项目和客户端工具调用。
在 Amazon Bedrock 上开始使用 Gemma 4 系列模型
完成以下步骤以开始在 Amazon Bedrock 上使用 Gemma 4。
前提条件
要使用 Gemma 4 模型,您需要具有在 bedrock-mantle 端点上运行推理权限的 AWS 账户。授予这些权限的最简单方法是将 AWS 托管策略 AmazonBedrockMantleInferenceAccess 附加到您的 AWS Identity and Access Management (IAM) 主体。它授予了对 Mantle 的读取和推理创建访问权限——本文示例所需的权限。这些包括 bedrock-mantle:CreateInference(授权 Chat Completions 和 Responses 推理调用)和 bedrock-mantle:CallWithBearerToken(授权使用 Amazon Bedrock API 密钥调用端点)。有关创建和管理 API 密钥的详细信息,请参阅 Amazon Bedrock API 密钥。
如果您还需要管理项目、微调、自定义模型等,请改为附加 AmazonBedrockMantleFullAccess,它授予完整的 bedrock-mantle 操作集。
控制台游乐场
Amazon Bedrock 控制台包括一个聊天/文本游乐场,您可以在其中快速测试模型而无需编写任何代码。按照以下步骤加载 Gemma 4 模型并准备交互:
导航到 Amazon Bedrock 控制台。
从左侧菜单中选择测试游乐场。
选择聊天/文本游乐场。
选择游乐场左上角的选择模型。
从类别列表中选择 Google。
选择 Gemma 4 模型。
选择应用以加载模型。
验证模型已成功加载:模型名称出现在游乐场标题中,聊天界面已准备好输入。
为了演示 Gemma 4 31B 的推理和代码生成能力,在游乐场中尝试以下提示:“设计一个公开 REST API 以管理任务队列的 Python 微服务。包括错误处理、输入验证并编写单元测试。解释您的设计决策。”
从 OpenAI SDK 调用 bedrock-mantle 端点
以下示例使用 OpenAI Python SDK 作为客户端库来调用 bedrock-mantle 端点。使用 OpenAI SDK 时,您需要一个 Amazon Bedrock API 密钥。对于生产工作负载,请使用短期 API 密钥。它们会自动过期(最长 12 小时)并继承生成它们的 IAM 角色的权限。如果您已经在使用原生 AWS 凭证但没有 API 密钥,aws-bedrock-token-generator 包会从这些凭证生成短期承载令牌。
(代码示例略)
如果您正在迁移一个已使用 OpenAI SDK 格式并带有不同模型的现有应用程序,通常只需更新基本 URL 和模型 ID。有关控制生成和使用 API 密钥的权限,请参阅控制生成和使用 Amazon Bedrock API 密钥的权限。
注意:本文中的代码示例仅用于演示目的从环境变量读取 API 密钥。在生产中,请从托管秘密服务(如 AWS Secrets Manager 或 AWS Systems Manager Parameter Store)存储和检索凭证,而不是环境变量。
多模态输入(图像)
由于所有 Gemma 4 变体都支持图像输入,相同的 Chat Completions API 适用于视觉任务。bedrock-mantle 端点接受图像作为内联 base64 编码数据 URL 或 Amazon Simple Storage Service (Amazon S3) URL(s3://);不支持任意的公共 https:// 图像 URL。以下示例读取本地图像文件,将其编码为 base64 数据 URL,并将其与文本提示一起包含在消息内容中:
(代码示例略)
或者,您可以通过传递 s3:// URL 来代替数据 URL(例如,{"url": "s3://my-bucket/chart.png"})引用存储在 Amazon S3 中的图像。这避免了在请求中嵌入大型图像。