Baseten 推出 Frontier Gateway:为 AI 实验室提供生产级推理 API 网关
Baseten 发布 Frontier Gateway,这是一个托管 API 网关,基于 Baseten Dedicated Inference,允许 AI 实验室以自有域名服务模型,无需自建或购买第三方网关,降低工程负担并提升性能。
Baseten 今日宣布推出 Baseten Frontier Gateway,这是一款生产级、多租户的 API 网关,专为 AI 实验室设计,使其能够以自有品牌域名托管和提供推理 API,无需自行构建或购买独立的网关解决方案。
当前,AI 前沿领域正经历深刻变革。大模型的能力不再均匀扩展,而是呈现不规则、不均衡的“能力剪影”——在不同任务上表现各异。这意味着前沿模型无法独自胜任所有任务,专业化成为必然。与此同时,训练高质量模型的门槛已大幅降低,曾经仅属于少数资金充裕实验室的工具、技术和人才现在更加普及,引发了新模型实验室的“寒武纪大爆发”。每周都有新的实验室涌现,覆盖图像生成、视频、语音、代码、推理、强化学习代理以及越来越多的垂直领域研究方向。
然而,这些模型实验室的核心优势在于研究而非基础设施。它们的竞争力体现在研究成果及其带来的产品上,而非认证、计费系统或 GPU 容量管理。但在 Frontier Gateway 出现之前,当实验室准备提供模型 API 时,选择十分有限:要么自建一个包含认证授权、API 密钥管理、速率限制、使用计量和计费集成的完整系统,这需要数月工程时间和持续维护,且面临安全风险(例如 LiteLLM 最近被攻破);要么购买第三方网关,但这些工具并非为推理设计,存在延迟高(通常位于集中位置,与推理解耦)、模型编排困难以及计费复杂等问题。两种路径都不快也不便宜,且都会分散工程注意力。
Baseten Frontier Gateway 正是为解决这些痛点而生。它是一个位于 Baseten Dedicated Inference 之上的托管路由层,与推理基础设施共置,因此不会带来额外延迟。其关键特性包括:认证与授权(每个请求在到达模型前验证)、联邦 API 密钥管理(生成访问令牌并管理生命周期)、每用户速率和使用限制(防止滥用),以及计费与计量(按 API 密钥跟踪令牌或字符消耗,通过带外数据发送至计费提供商)。此外,网关支持白标品牌,请求从实验室自有域名(例如 api.yourlabname.ai)路由到 Baseten 基础设施。
通过使用 Frontier Gateway,实验室还能继承 Baseten 推理平台的全部能力:99.99% 可用性、全球弹性 GPU 池、经多年优化的推理栈(显著降低延迟和提升吞吐量),以及开箱即用的 SOC 2 Type 2、SOC 3、HIPAA、CCPA、PCI DSS、GDPR 等合规认证。
该网关已在真实场景中得到验证。第一个使用 Frontier Gateway 的实验室 Poolside 在性能、执行速度和合作质量上都超出了预期。Baseten 工程团队通过利用 Triton MoE 后端进行 Laguna 推理,实现了突破性成果:Laguna XS.2 的 P50 TTFT 为 146ms,P90 TTFT 为 1.5s;Laguna M.1 的 P50 TTFT 为 605ms,P90 TTFT 为 3.9s。
Baseten Frontier Gateway 现已提供完整文档。感兴趣的实验室可从即日起提交申请,Baseten 团队将尽快联系。