AI News HubLIVE
公开文章 18采集文章 27可信度 82刷新频率 120 分钟
健康状态 健康来源类型 官方原文权限 官方原文最近入库 2026-06-25ID baseten-blog运行状态 已启用

Official AI inference and deployment platform blog; confirm reuse terms before full body display.

最新公开文章

AI训练与推理:有什么区别?

AI训练让模型从数据中学习,而推理则是模型在生产中响应请求。本文详细解释了两者在硬件、成本、优化等方面的关键差异,并介绍了模型从预训练到服务的完整生命周期,以及衡量推理性能的四个关键指标。

  • 训练是模型从大量数据中学习并调整权重的过程,通常需要大量计算资源。
  • 推理是训练后的模型对新输入生成输出的过程,每次用户请求都会触发推理。
站内正文

如何在任意环境中运行GLM-5.2

GLM-5.2是今年的DeepSeek时刻,性能与闭源模型相当,但速度快4.5倍、成本低5倍。本文详细介绍如何在Claude Code、Codex和Deep Agents CLI中配置并使用GLM-5.2,整个过程不到5分钟。

  • GLM-5.2是高性能开源模型,可替代闭源模型如Opus 4.8
  • 在Claude Code中通过修改环境变量即可使用GLM-5.2
站内正文

NVIDIA BioNeMo Agent Toolkit 在 Baseten 上发布

NVIDIA BioNeMo Agent Toolkit 旨在将通用 AI 智能体转变为能够执行真实生物学和药物发现任务的科学智能体。该工具包结合了 BioNeMo Skills、开放模型、NVIDIA NIM 微服务和智能体基础设施,支持蛋白质结构预测、蛋白质设计、虚拟筛选、基因组分析和靶点发现等流程。所有 BioNeMo NIM 微服务现已在 Baseten 模型库中可用,方便开发者部署和扩展科学 AI 应用。

  • NVIDIA BioNeMo Agent Toolkit 将通用 AI 智能体转化为科学智能体,用于生物学和药物发现。
  • 工具包整合了 BioNeMo Skills、开放模型、NVIDIA NIM 微服务和智能体编排基础设施。
站内正文

最佳开源大语言模型(LLM)对比

本文比较了8款顶级开源LLM,涵盖DeepSeek V4 Pro、Gemma 4、GLM 5.1、GPT OSS 120B、Kimi K2.6、MiniMax M3、Nemotron 3 Ultra和Qwen 3.6。针对智能编码、长上下文推理、成本和速度等不同需求,提供了选型建议。

  • Kimi K2.6 是最全面的模型;Qwen 3.6 和 GLM 5.1 在智能编码方面领先;DeepSeek 和 Nemotron 在长上下文和企业工作负载中表现出色;GPT OSS 120B 在成本和速度上表现优异。
  • DeepSeek V4 Pro 拥有1M token上下文窗口,通过混合注意力机制将KV缓存内存降至标准模型的2%。
站内正文

滚动部署:实现模型更新的零停机时间

Baseten 推出滚动部署功能,允许团队逐步更新模型版本,无需停机或加倍 GPU 开销。该方法在每次替换一个副本,逐步转移流量,并提供暂停、恢复和回滚控制。用户报告部署频率提升 50–60%,无需在非高峰时段手动监控。

  • 滚动部署逐步替换副本,避免蓝绿部署的双倍 GPU 成本和硬切换的全有或全无风险。
  • 支持 max_surge(优先扩新副本)和 max_unavailable(优先缩旧副本)两种模式,适应延迟或成本敏感场景。
站内正文

首个推理扩散LLM Mercury 2现已登陆Baseten

Inception推出的Mercury 2是目前速度最快的推理LLM,采用扩散架构而非传统自回归方式,在标准NVIDIA GPU上可达到每秒1000 token以上的生成速度,速度是同级模型的5-10倍,成本降低一半以上,质量与Haiku和GPT-5 mini相当。Augment Code在生产环境中使用后,成本降低90%,延迟降低82%。Baseten为其提供企业级推理平台支持。

  • Mercury 2是首个推理扩散LLM,通过并行生成整个输出再逐步精炼的方式,突破了自回归模型的序列生成瓶颈。
  • 在标准NVIDIA GPU上可达1000+ tokens/秒,无需专用芯片,速度是同类优化模型的5-10倍。
站内正文

NVIDIA Nemotron 3 Ultra 发布:Nemotron 3.x 系列来了!

Nemotron 3 Ultra 是一种混合 Mamba-Transformer 模型,专为长时间运行的代理设计,通过用 Mamba 层替换大部分注意力机制,实现高达 5 倍的推理速度提升和 30% 的成本降低。该模型完全开源,使代理能够高效完成冗长任务而不会变慢。

  • Nemotron 3 Ultra 采用以 Mamba 层为主的混合架构,在上下文增长时保持恒定推理速度。
  • 与开放前沿模型相比,在长时间运行的代理工作流中可实现高达 5 倍的推理速度提升和 30% 的成本降低。
站内正文

MAI-Thinking-1 即将登陆 Baseten

Baseten 与微软 AI 宣布,MAI-Thinking-1 即将在 Baseten 平台上提供。该模型是微软 AI 的旗舰推理模型,结合了开源模型的灵活性与闭源模型的管理便利性,具有干净数据来源、商业级质量和定制化能力。

  • MAI-Thinking-1 是微软 AI 的新旗舰推理模型,填补了开源与闭源模型之间的空白。
  • 模型采用无蒸馏的干净数据训练,数据来源可审计且商业安全。
站内正文

Nvidia Cosmos 3:机器人终于要接管世界了吗?

Nvidia发布的Cosmos 3是一个专为物理世界构建的基础模型,旨在帮助开发者训练机器人、自动驾驶系统和视觉AI代理。与传统的生成式视频模型不同,Cosmos 3着重于理解物体、动作和因果关系,支持六种交互模式,可作为机器人直接控制器或数据工厂,大幅降低机器人训练的数据成本。

  • Cosmos 3是面向物理世界的基础模型,而非简单的视频生成器。
  • 支持六种模式:文本生成图像、文本生成视频、图像生成视频、前向动力学、逆向动力学和策略生成。
站内正文

为持续学习时代提供推理动力

Baseten与Trajectory合作构建了一个生产级推理流水线,实现模型的持续学习:模型通过生产数据不断更新,训练到部署的时间压缩至约一小时。该流水线融合了LoRA适配器合并、架构感知验证、A/B测试路由与来源追踪,使模型在使用中持续改进。

  • 持续学习使模型能够从生产使用中持续改进,而非静态发布。
  • Baseten和Trajectory开发了涵盖合并、验证、A/B路由和来源追踪的流水线,部署时间从数小时缩短至约一小时。
站内正文

开源AI模型入门指南

本文介绍了开源AI模型的基本概念、工作原理及使用场景。开源模型通常指开放权重的模型,用户可以对其进行微调和部署,相比闭源模型具有成本低、可定制性强等优势。文章还讨论了开源与闭源模型的比较、适用时机以及未来发展趋势。

  • 开源模型主要是开放权重的模型,允许用户微调和部署。
  • 相比闭源模型,开源模型平均成本低87%,并提供更好的控制性和定制化能力。
站内正文

使用 Flux.2 和 Qwen-Image 实现亚秒级图像生成

Baseten 通过量化、优化注意力内核和运行时改进,在 NVIDIA Blackwell GPU 上实现了 Flux.2 [dev] 2.3 倍和 Qwen-Image 1.6 倍的加速,在 Hopper GPU 上也获得了显著提升。

  • Baseten 优化了 Flux.2 [dev] 和 Qwen-Image 的图像生成推理,在 B200 GPU 上延迟低于 1 秒。
  • 优化包括 FP4/FP8 量化、高效注意力内核和内存优化,无需 CPU 卸载。
站内正文

如何训练自定义EAGLE-3头部用于推测解码

一份关于训练自定义EAGLE-3草图头部的全面指南,用于推测解码,在不牺牲输出质量的情况下,将LLM推理延迟降低1.5-2.5倍。涵盖数据集准备、超参数调优、训练流程、评估和部署。

  • EAGLE-3是一种推测解码方法,使用轻量级草图头部预测多个未来token,由目标模型在单次前向传递中验证。
  • 训练需要使用目标模型重新生成输出以对齐token分布;数据集质量至关重要。
站内正文

一切皆在调度框架:如何优化你的 AI 调度配置

本文提出了优化 AI 调度框架的三个通用模式:保持 .md 文件精简且由人工编写、使用 R.P.I. 框架(研究-规划-执行)进行提示词结构化、以及利用子代理(并行扇出和流水线)维护干净的上下文窗口。强调调度框架而非模型本身才是工程判断发挥作用的关键,并建议用户选择并持续迭代一个调度框架,而不是频繁更换。

  • 保持 .md 配置文件精简且由人工编写,避免 LLM 生成的系统提示导致性能下降和成本增加。
  • 对 CLI、技能(Skills)和 MCP 工具采用渐进式信息加载,以减少上下文开销。
站内正文

NVIDIA Nemotron 3 Nano Omni:在Baseten上构建多模态智能体

NVIDIA Nemotron 3 Nano Omni 是一款开源的多模态基础模型,将音频、图像、视频和文本统一到单一上下文中。基于 Nemotron 3 Nano 骨干网络构建,为智能体工作流中的子智能体提供高效且准确的推理能力。Baseten 现已支持该模型,提供高性能推理、多云容量管理和企业级安全。

  • Nemotron 3 Nano Omni 是开源统一多模态模型,融合音频、图像、视频和文本。
  • 采用潜在 MoE、3D 卷积和高效视频采样架构,提升效率。
站内正文

Baseten 推出 Frontier Gateway:为 AI 实验室提供生产级推理 API 网关

Baseten 发布 Frontier Gateway,这是一个托管 API 网关,基于 Baseten Dedicated Inference,允许 AI 实验室以自有域名服务模型,无需自建或购买第三方网关,降低工程负担并提升性能。

  • Frontier Gateway 是托管在 Baseten 推理平台上的多租户 API 网关,支持身份验证、速率限制、计费和品牌白标。
  • 它解决了自建网关的工程复杂性和第三方网关的延迟问题,提供与推理基础设施共置的零开销路由。
站内正文

DFlash:实现3倍LLM推理速度

本文介绍了DFlash,一种新型推测解码技术,通过并行预测多个令牌突破EAGLE的2倍加速上限。Baseten的实现基于Qwen3-8B模型,在各种基准测试中实现约3倍加速,比vLLM快10-30%。文章详细解释了DFlash的工作原理、训练方法及与EAGLE和vLLM的性能对比。

  • DFlash采用块扩散方法,单次前向传播并行预测8-16个令牌,突破EAGLE的自回归瓶颈。
  • Baseten的DFlash实现基于Qwen3-8B,在GSM8k、MATH-500和Nemotron数据集上均实现约3倍加速。
站内正文

低成本、高性能的TTS:Qwen3-TTS优化实践

Baseten通过vLLM-Omni优化Qwen3-TTS,实现了每百万字符仅需3-4美元的成本,比闭源替代方案低90%,同时保持高语音保真度。本文详细介绍了多种优化技术,包括分离式声学令牌生成与解码、CUDA图优化、说话人嵌入缓存、动态帧累积以及单词时间戳添加,并探讨了微调定制语音的可能性。

  • Baseten优化后的Qwen3-TTS成本为每百万字符3-4美元,比闭源方案低90%。
  • 核心优化包括分离式架构、CUDA图、说话人嵌入缓存和动态帧累积。
站内正文

全部来源