AI News HubLIVE
公開文章 18採集文章 27可信度 82刷新頻率 120 分鐘
健康狀態 健康來源類型 官方原文權限 官方原文最近入庫 2026-06-25ID baseten-blog運行狀態 已啟用

Official AI inference and deployment platform blog; confirm reuse terms before full body display.

最新公開文章

AI訓練與推理:有什麼區別?

AI訓練讓模型從數據中學習,而推理則是模型在生產中響應請求。本文詳細解釋了兩者在硬件、成本、優化等方面的關鍵差異,並介紹了模型從預訓練到服務的完整生命週期,以及衡量推理性能的四個關鍵指標。

  • 訓練是模型從大量數據中學習並調整權重的過程,通常需要大量計算資源。
  • 推理是訓練後的模型對新輸入生成輸出的過程,每次用户請求都會觸發推理。
站內正文

如何在任意環境中運行GLM-5.2

GLM-5.2是今年的DeepSeek時刻,性能與閉源模型相當,但速度快4.5倍、成本低5倍。本文詳細介紹如何在Claude Code、Codex和Deep Agents CLI中配置並使用GLM-5.2,整個過程不到5分鐘。

  • GLM-5.2是高性能開源模型,可替代閉源模型如Opus 4.8
  • 在Claude Code中通過修改環境變量即可使用GLM-5.2
站內正文

NVIDIA BioNeMo Agent Toolkit 在 Baseten 上發佈

NVIDIA BioNeMo Agent Toolkit 旨在將通用 AI 智能體轉變為能夠執行真實生物學和藥物發現任務的科學智能體。該工具包結合了 BioNeMo Skills、開放模型、NVIDIA NIM 微服務和智能體基礎設施,支持蛋白質結構預測、蛋白質設計、虛擬篩選、基因組分析和靶點發現等流程。所有 BioNeMo NIM 微服務現已在 Baseten 模型庫中可用,方便開發者部署和擴展科學 AI 應用。

  • NVIDIA BioNeMo Agent Toolkit 將通用 AI 智能體轉化為科學智能體,用於生物學和藥物發現。
  • 工具包整合了 BioNeMo Skills、開放模型、NVIDIA NIM 微服務和智能體編排基礎設施。
站內正文

最佳開源大語言模型(LLM)對比

本文比較了8款頂級開源LLM,涵蓋DeepSeek V4 Pro、Gemma 4、GLM 5.1、GPT OSS 120B、Kimi K2.6、MiniMax M3、Nemotron 3 Ultra和Qwen 3.6。針對智能編碼、長上下文推理、成本和速度等不同需求,提供了選型建議。

  • Kimi K2.6 是最全面的模型;Qwen 3.6 和 GLM 5.1 在智能編碼方面領先;DeepSeek 和 Nemotron 在長上下文和企業工作負載中表現出色;GPT OSS 120B 在成本和速度上表現優異。
  • DeepSeek V4 Pro 擁有1M token上下文窗口,通過混合注意力機制將KV緩存內存降至標準模型的2%。
站內正文

滾動部署:實現模型更新的零停機時間

Baseten 推出滾動部署功能,允許團隊逐步更新模型版本,無需停機或加倍 GPU 開銷。該方法在每次替換一個副本,逐步轉移流量,並提供暫停、恢復和回滾控制。用户報告部署頻率提升 50–60%,無需在非高峯時段手動監控。

  • 滾動部署逐步替換副本,避免藍綠部署的雙倍 GPU 成本和硬切換的全有或全無風險。
  • 支持 max_surge(優先擴新副本)和 max_unavailable(優先縮舊副本)兩種模式,適應延遲或成本敏感場景。
站內正文

首個推理擴散LLM Mercury 2現已登陸Baseten

Inception推出的Mercury 2是目前速度最快的推理LLM,採用擴散架構而非傳統自迴歸方式,在標準NVIDIA GPU上可達到每秒1000 token以上的生成速度,速度是同級模型的5-10倍,成本降低一半以上,質量與Haiku和GPT-5 mini相當。Augment Code在生產環境中使用後,成本降低90%,延遲降低82%。Baseten為其提供企業級推理平台支持。

  • Mercury 2是首個推理擴散LLM,通過並行生成整個輸出再逐步精煉的方式,突破了自迴歸模型的序列生成瓶頸。
  • 在標準NVIDIA GPU上可達1000+ tokens/秒,無需專用芯片,速度是同類優化模型的5-10倍。
站內正文

NVIDIA Nemotron 3 Ultra 發佈:Nemotron 3.x 系列來了!

Nemotron 3 Ultra 是一種混合 Mamba-Transformer 模型,專為長時間運行的代理設計,通過用 Mamba 層替換大部分注意力機制,實現高達 5 倍的推理速度提升和 30% 的成本降低。該模型完全開源,使代理能夠高效完成冗長任務而不會變慢。

  • Nemotron 3 Ultra 採用以 Mamba 層為主的混合架構,在上下文增長時保持恆定推理速度。
  • 與開放前沿模型相比,在長時間運行的代理工作流中可實現高達 5 倍的推理速度提升和 30% 的成本降低。
站內正文

MAI-Thinking-1 即將登陸 Baseten

Baseten 與微軟 AI 宣佈,MAI-Thinking-1 即將在 Baseten 平台上提供。該模型是微軟 AI 的旗艦推理模型,結合了開源模型的靈活性與閉源模型的管理便利性,具有乾淨數據來源、商業級質量和定製化能力。

  • MAI-Thinking-1 是微軟 AI 的新旗艦推理模型,填補了開源與閉源模型之間的空白。
  • 模型採用無蒸餾的乾淨數據訓練,數據來源可審計且商業安全。
站內正文

Nvidia Cosmos 3:機器人終於要接管世界了嗎?

Nvidia發佈的Cosmos 3是一個專為物理世界構建的基礎模型,旨在幫助開發者訓練機器人、自動駕駛系統和視覺AI代理。與傳統的生成式視頻模型不同,Cosmos 3着重於理解物體、動作和因果關係,支持六種交互模式,可作為機器人直接控制器或數據工廠,大幅降低機器人訓練的數據成本。

  • Cosmos 3是面向物理世界的基礎模型,而非簡單的視頻生成器。
  • 支持六種模式:文本生成圖像、文本生成視頻、圖像生成視頻、前向動力學、逆向動力學和策略生成。
站內正文

為持續學習時代提供推理動力

Baseten與Trajectory合作構建了一個生產級推理流水線,實現模型的持續學習:模型通過生產數據不斷更新,訓練到部署的時間壓縮至約一小時。該流水線融合了LoRA適配器合併、架構感知驗證、A/B測試路由與來源追蹤,使模型在使用中持續改進。

  • 持續學習使模型能夠從生產使用中持續改進,而非靜態發佈。
  • Baseten和Trajectory開發了涵蓋合併、驗證、A/B路由和來源追蹤的流水線,部署時間從數小時縮短至約一小時。
站內正文

開源AI模型入門指南

本文介紹了開源AI模型的基本概念、工作原理及使用場景。開源模型通常指開放權重的模型,用户可以對其進行微調和部署,相比閉源模型具有成本低、可定製性強等優勢。文章還討論了開源與閉源模型的比較、適用時機以及未來發展趨勢。

  • 開源模型主要是開放權重的模型,允許用户微調和部署。
  • 相比閉源模型,開源模型平均成本低87%,並提供更好的控制性和定製化能力。
站內正文

使用 Flux.2 和 Qwen-Image 實現亞秒級圖像生成

Baseten 通過量化、優化注意力內核和運行時改進,在 NVIDIA Blackwell GPU 上實現了 Flux.2 [dev] 2.3 倍和 Qwen-Image 1.6 倍的加速,在 Hopper GPU 上也獲得了顯著提升。

  • Baseten 優化了 Flux.2 [dev] 和 Qwen-Image 的圖像生成推理,在 B200 GPU 上延遲低於 1 秒。
  • 優化包括 FP4/FP8 量化、高效注意力內核和內存優化,無需 CPU 卸載。
站內正文

如何訓練自定義EAGLE-3頭部用於推測解碼

一份關於訓練自定義EAGLE-3草圖頭部的全面指南,用於推測解碼,在不犧牲輸出質量的情況下,將LLM推理延遲降低1.5-2.5倍。涵蓋數據集準備、超參數調優、訓練流程、評估和部署。

  • EAGLE-3是一種推測解碼方法,使用輕量級草圖頭部預測多個未來token,由目標模型在單次前向傳遞中驗證。
  • 訓練需要使用目標模型重新生成輸出以對齊token分佈;數據集質量至關重要。
站內正文

一切皆在調度框架:如何優化你的 AI 調度配置

本文提出了優化 AI 調度框架的三個通用模式:保持 .md 文件精簡且由人工編寫、使用 R.P.I. 框架(研究-規劃-執行)進行提示詞結構化、以及利用子代理(並行扇出和流水線)維護乾淨的上下文窗口。強調調度框架而非模型本身才是工程判斷髮揮作用的關鍵,並建議用户選擇並持續迭代一個調度框架,而不是頻繁更換。

  • 保持 .md 配置文件精簡且由人工編寫,避免 LLM 生成的系統提示導致性能下降和成本增加。
  • 對 CLI、技能(Skills)和 MCP 工具採用漸進式信息加載,以減少上下文開銷。
站內正文

NVIDIA Nemotron 3 Nano Omni:在Baseten上構建多模態智能體

NVIDIA Nemotron 3 Nano Omni 是一款開源的多模態基礎模型,將音頻、圖像、視頻和文本統一到單一上下文中。基於 Nemotron 3 Nano 骨幹網絡構建,為智能體工作流中的子智能體提供高效且準確的推理能力。Baseten 現已支持該模型,提供高性能推理、多雲容量管理和企業級安全。

  • Nemotron 3 Nano Omni 是開源統一多模態模型,融合音頻、圖像、視頻和文本。
  • 採用潛在 MoE、3D 卷積和高效視頻採樣架構,提升效率。
站內正文

Baseten 推出 Frontier Gateway:為 AI 實驗室提供生產級推理 API 網關

Baseten 發佈 Frontier Gateway,這是一個託管 API 網關,基於 Baseten Dedicated Inference,允許 AI 實驗室以自有域名服務模型,無需自建或購買第三方網關,降低工程負擔並提升性能。

  • Frontier Gateway 是託管在 Baseten 推理平台上的多租户 API 網關,支持身份驗證、速率限制、計費和品牌白標。
  • 它解決了自建網關的工程複雜性和第三方網關的延遲問題,提供與推理基礎設施共置的零開銷路由。
站內正文

DFlash:實現3倍LLM推理速度

本文介紹了DFlash,一種新型推測解碼技術,通過並行預測多個令牌突破EAGLE的2倍加速上限。Baseten的實現基於Qwen3-8B模型,在各種基準測試中實現約3倍加速,比vLLM快10-30%。文章詳細解釋了DFlash的工作原理、訓練方法及與EAGLE和vLLM的性能對比。

  • DFlash採用塊擴散方法,單次前向傳播並行預測8-16個令牌,突破EAGLE的自迴歸瓶頸。
  • Baseten的DFlash實現基於Qwen3-8B,在GSM8k、MATH-500和Nemotron數據集上均實現約3倍加速。
站內正文

低成本、高性能的TTS:Qwen3-TTS優化實踐

Baseten通過vLLM-Omni優化Qwen3-TTS,實現了每百萬字符僅需3-4美元的成本,比閉源替代方案低90%,同時保持高語音保真度。本文詳細介紹了多種優化技術,包括分離式聲學令牌生成與解碼、CUDA圖優化、説話人嵌入緩存、動態幀累積以及單詞時間戳添加,並探討了微調定製語音的可能性。

  • Baseten優化後的Qwen3-TTS成本為每百萬字符3-4美元,比閉源方案低90%。
  • 核心優化包括分離式架構、CUDA圖、説話人嵌入緩存和動態幀累積。
站內正文

全部來源