Baseten Blog AI 新闻来源

公开文章 18采集文章 27可信度 82刷新频率 120 分钟

健康状态健康来源类型官方原文权限 官方原文最近入库 2026-06-25ID baseten-blog运行状态 已启用

Official AI inference and deployment platform blog; confirm reuse terms before full body display.

最新公开文章

AI训练与推理：有什么区别？

2026-06-26 06:12 UTC+8

AI训练让模型从数据中学习，而推理则是模型在生产中响应请求。本文详细解释了两者在硬件、成本、优化等方面的关键差异，并介绍了模型从预训练到服务的完整生命周期，以及衡量推理性能的四个关键指标。

训练是模型从大量数据中学习并调整权重的过程，通常需要大量计算资源。
推理是训练后的模型对新输入生成输出的过程，每次用户请求都会触发推理。

如何在任意环境中运行GLM-5.2

2026-06-26 06:12 UTC+8

GLM-5.2是今年的DeepSeek时刻，性能与闭源模型相当，但速度快4.5倍、成本低5倍。本文详细介绍如何在Claude Code、Codex和Deep Agents CLI中配置并使用GLM-5.2，整个过程不到5分钟。

GLM-5.2是高性能开源模型，可替代闭源模型如Opus 4.8
在Claude Code中通过修改环境变量即可使用GLM-5.2

NVIDIA BioNeMo Agent Toolkit 在 Baseten 上发布

2026-06-24 04:06 UTC+8

NVIDIA BioNeMo Agent Toolkit 旨在将通用 AI 智能体转变为能够执行真实生物学和药物发现任务的科学智能体。该工具包结合了 BioNeMo Skills、开放模型、NVIDIA NIM 微服务和智能体基础设施，支持蛋白质结构预测、蛋白质设计、虚拟筛选、基因组分析和靶点发现等流程。所有 BioNeMo NIM 微服务现已在 Baseten 模型库中可用，方便开发者部署和扩展科学 AI 应用。

NVIDIA BioNeMo Agent Toolkit 将通用 AI 智能体转化为科学智能体，用于生物学和药物发现。
工具包整合了 BioNeMo Skills、开放模型、NVIDIA NIM 微服务和智能体编排基础设施。

最佳开源大语言模型（LLM）对比

2026-06-18 16:13 UTC+8

本文比较了8款顶级开源LLM，涵盖DeepSeek V4 Pro、Gemma 4、GLM 5.1、GPT OSS 120B、Kimi K2.6、MiniMax M3、Nemotron 3 Ultra和Qwen 3.6。针对智能编码、长上下文推理、成本和速度等不同需求，提供了选型建议。

Kimi K2.6 是最全面的模型；Qwen 3.6 和 GLM 5.1 在智能编码方面领先；DeepSeek 和 Nemotron 在长上下文和企业工作负载中表现出色；GPT OSS 120B 在成本和速度上表现优异。
DeepSeek V4 Pro 拥有1M token上下文窗口，通过混合注意力机制将KV缓存内存降至标准模型的2%。

滚动部署：实现模型更新的零停机时间

2026-06-13 01:37 UTC+8

Baseten 推出滚动部署功能，允许团队逐步更新模型版本，无需停机或加倍 GPU 开销。该方法在每次替换一个副本，逐步转移流量，并提供暂停、恢复和回滚控制。用户报告部署频率提升 50–60%，无需在非高峰时段手动监控。

滚动部署逐步替换副本，避免蓝绿部署的双倍 GPU 成本和硬切换的全有或全无风险。
支持 max_surge（优先扩新副本）和 max_unavailable（优先缩旧副本）两种模式，适应延迟或成本敏感场景。

首个推理扩散LLM Mercury 2现已登陆Baseten

2026-06-12 22:13 UTC+8

Inception推出的Mercury 2是目前速度最快的推理LLM，采用扩散架构而非传统自回归方式，在标准NVIDIA GPU上可达到每秒1000 token以上的生成速度，速度是同级模型的5-10倍，成本降低一半以上，质量与Haiku和GPT-5 mini相当。Augment Code在生产环境中使用后，成本降低90%，延迟降低82%。Baseten为其提供企业级推理平台支持。

Mercury 2是首个推理扩散LLM，通过并行生成整个输出再逐步精炼的方式，突破了自回归模型的序列生成瓶颈。
在标准NVIDIA GPU上可达1000+ tokens/秒，无需专用芯片，速度是同类优化模型的5-10倍。

NVIDIA Nemotron 3 Ultra 发布：Nemotron 3.x 系列来了！

2026-06-04 21:50 UTC+8

Nemotron 3 Ultra 是一种混合 Mamba-Transformer 模型，专为长时间运行的代理设计，通过用 Mamba 层替换大部分注意力机制，实现高达 5 倍的推理速度提升和 30% 的成本降低。该模型完全开源，使代理能够高效完成冗长任务而不会变慢。

Nemotron 3 Ultra 采用以 Mamba 层为主的混合架构，在上下文增长时保持恒定推理速度。
与开放前沿模型相比，在长时间运行的代理工作流中可实现高达 5 倍的推理速度提升和 30% 的成本降低。

MAI-Thinking-1 即将登陆 Baseten

2026-06-03 03:45 UTC+8

Baseten 与微软 AI 宣布，MAI-Thinking-1 即将在 Baseten 平台上提供。该模型是微软 AI 的旗舰推理模型，结合了开源模型的灵活性与闭源模型的管理便利性，具有干净数据来源、商业级质量和定制化能力。

MAI-Thinking-1 是微软 AI 的新旗舰推理模型，填补了开源与闭源模型之间的空白。
模型采用无蒸馏的干净数据训练，数据来源可审计且商业安全。

Nvidia Cosmos 3：机器人终于要接管世界了吗？

2026-06-01 13:41 UTC+8

Nvidia发布的Cosmos 3是一个专为物理世界构建的基础模型，旨在帮助开发者训练机器人、自动驾驶系统和视觉AI代理。与传统的生成式视频模型不同，Cosmos 3着重于理解物体、动作和因果关系，支持六种交互模式，可作为机器人直接控制器或数据工厂，大幅降低机器人训练的数据成本。

Cosmos 3是面向物理世界的基础模型，而非简单的视频生成器。
支持六种模式：文本生成图像、文本生成视频、图像生成视频、前向动力学、逆向动力学和策略生成。

为持续学习时代提供推理动力

2026-05-28 09:32 UTC+8

Baseten与Trajectory合作构建了一个生产级推理流水线，实现模型的持续学习：模型通过生产数据不断更新，训练到部署的时间压缩至约一小时。该流水线融合了LoRA适配器合并、架构感知验证、A/B测试路由与来源追踪，使模型在使用中持续改进。

持续学习使模型能够从生产使用中持续改进，而非静态发布。
Baseten和Trajectory开发了涵盖合并、验证、A/B路由和来源追踪的流水线，部署时间从数小时缩短至约一小时。

开源AI模型入门指南

2026-05-27 21:31 UTC+8

本文介绍了开源AI模型的基本概念、工作原理及使用场景。开源模型通常指开放权重的模型，用户可以对其进行微调和部署，相比闭源模型具有成本低、可定制性强等优势。文章还讨论了开源与闭源模型的比较、适用时机以及未来发展趋势。

开源模型主要是开放权重的模型，允许用户微调和部署。
相比闭源模型，开源模型平均成本低87%，并提供更好的控制性和定制化能力。

使用 Flux.2 和 Qwen-Image 实现亚秒级图像生成

2026-05-19 08:06 UTC+8

Baseten 通过量化、优化注意力内核和运行时改进，在 NVIDIA Blackwell GPU 上实现了 Flux.2 [dev] 2.3 倍和 Qwen-Image 1.6 倍的加速，在 Hopper GPU 上也获得了显著提升。

Baseten 优化了 Flux.2 [dev] 和 Qwen-Image 的图像生成推理，在 B200 GPU 上延迟低于 1 秒。
优化包括 FP4/FP8 量化、高效注意力内核和内存优化，无需 CPU 卸载。

如何训练自定义EAGLE-3头部用于推测解码

2026-05-15 11:46 UTC+8

一份关于训练自定义EAGLE-3草图头部的全面指南，用于推测解码，在不牺牲输出质量的情况下，将LLM推理延迟降低1.5-2.5倍。涵盖数据集准备、超参数调优、训练流程、评估和部署。

EAGLE-3是一种推测解码方法，使用轻量级草图头部预测多个未来token，由目标模型在单次前向传递中验证。
训练需要使用目标模型重新生成输出以对齐token分布；数据集质量至关重要。

一切皆在调度框架：如何优化你的 AI 调度配置

2026-05-15 11:46 UTC+8

本文提出了优化 AI 调度框架的三个通用模式：保持 .md 文件精简且由人工编写、使用 R.P.I. 框架（研究-规划-执行）进行提示词结构化、以及利用子代理（并行扇出和流水线）维护干净的上下文窗口。强调调度框架而非模型本身才是工程判断发挥作用的关键，并建议用户选择并持续迭代一个调度框架，而不是频繁更换。

保持 .md 配置文件精简且由人工编写，避免 LLM 生成的系统提示导致性能下降和成本增加。
对 CLI、技能（Skills）和 MCP 工具采用渐进式信息加载，以减少上下文开销。

NVIDIA Nemotron 3 Nano Omni：在Baseten上构建多模态智能体

2026-05-15 11:45 UTC+8

NVIDIA Nemotron 3 Nano Omni 是一款开源的多模态基础模型，将音频、图像、视频和文本统一到单一上下文中。基于 Nemotron 3 Nano 骨干网络构建，为智能体工作流中的子智能体提供高效且准确的推理能力。Baseten 现已支持该模型，提供高性能推理、多云容量管理和企业级安全。

Nemotron 3 Nano Omni 是开源统一多模态模型，融合音频、图像、视频和文本。
采用潜在 MoE、3D 卷积和高效视频采样架构，提升效率。

Baseten 推出 Frontier Gateway：为 AI 实验室提供生产级推理 API 网关

2026-05-15 11:44 UTC+8

Baseten 发布 Frontier Gateway，这是一个托管 API 网关，基于 Baseten Dedicated Inference，允许 AI 实验室以自有域名服务模型，无需自建或购买第三方网关，降低工程负担并提升性能。

Frontier Gateway 是托管在 Baseten 推理平台上的多租户 API 网关，支持身份验证、速率限制、计费和品牌白标。
它解决了自建网关的工程复杂性和第三方网关的延迟问题，提供与推理基础设施共置的零开销路由。

DFlash：实现3倍LLM推理速度

2026-05-15 11:43 UTC+8

本文介绍了DFlash，一种新型推测解码技术，通过并行预测多个令牌突破EAGLE的2倍加速上限。Baseten的实现基于Qwen3-8B模型，在各种基准测试中实现约3倍加速，比vLLM快10-30%。文章详细解释了DFlash的工作原理、训练方法及与EAGLE和vLLM的性能对比。

DFlash采用块扩散方法，单次前向传播并行预测8-16个令牌，突破EAGLE的自回归瓶颈。
Baseten的DFlash实现基于Qwen3-8B，在GSM8k、MATH-500和Nemotron数据集上均实现约3倍加速。

低成本、高性能的TTS：Qwen3-TTS优化实践