Baseten Blog AI 新聞來源

公開文章 18採集文章 27可信度 82刷新頻率 120 分鐘

健康狀態健康來源類型官方原文權限 官方原文最近入庫 2026-06-25ID baseten-blog運行狀態 已啟用

Official AI inference and deployment platform blog; confirm reuse terms before full body display.

最新公開文章

AI訓練與推理：有什麼區別？

2026-06-26 06:12 UTC+8

AI訓練讓模型從數據中學習，而推理則是模型在生產中響應請求。本文詳細解釋了兩者在硬件、成本、優化等方面的關鍵差異，並介紹了模型從預訓練到服務的完整生命週期，以及衡量推理性能的四個關鍵指標。

訓練是模型從大量數據中學習並調整權重的過程，通常需要大量計算資源。
推理是訓練後的模型對新輸入生成輸出的過程，每次用户請求都會觸發推理。

如何在任意環境中運行GLM-5.2

2026-06-26 06:12 UTC+8

GLM-5.2是今年的DeepSeek時刻，性能與閉源模型相當，但速度快4.5倍、成本低5倍。本文詳細介紹如何在Claude Code、Codex和Deep Agents CLI中配置並使用GLM-5.2，整個過程不到5分鐘。

GLM-5.2是高性能開源模型，可替代閉源模型如Opus 4.8
在Claude Code中通過修改環境變量即可使用GLM-5.2

NVIDIA BioNeMo Agent Toolkit 在 Baseten 上發佈

2026-06-24 04:06 UTC+8

NVIDIA BioNeMo Agent Toolkit 旨在將通用 AI 智能體轉變為能夠執行真實生物學和藥物發現任務的科學智能體。該工具包結合了 BioNeMo Skills、開放模型、NVIDIA NIM 微服務和智能體基礎設施，支持蛋白質結構預測、蛋白質設計、虛擬篩選、基因組分析和靶點發現等流程。所有 BioNeMo NIM 微服務現已在 Baseten 模型庫中可用，方便開發者部署和擴展科學 AI 應用。

NVIDIA BioNeMo Agent Toolkit 將通用 AI 智能體轉化為科學智能體，用於生物學和藥物發現。
工具包整合了 BioNeMo Skills、開放模型、NVIDIA NIM 微服務和智能體編排基礎設施。

最佳開源大語言模型（LLM）對比

2026-06-18 16:13 UTC+8

本文比較了8款頂級開源LLM，涵蓋DeepSeek V4 Pro、Gemma 4、GLM 5.1、GPT OSS 120B、Kimi K2.6、MiniMax M3、Nemotron 3 Ultra和Qwen 3.6。針對智能編碼、長上下文推理、成本和速度等不同需求，提供了選型建議。

Kimi K2.6 是最全面的模型；Qwen 3.6 和 GLM 5.1 在智能編碼方面領先；DeepSeek 和 Nemotron 在長上下文和企業工作負載中表現出色；GPT OSS 120B 在成本和速度上表現優異。
DeepSeek V4 Pro 擁有1M token上下文窗口，通過混合注意力機制將KV緩存內存降至標準模型的2%。

滾動部署：實現模型更新的零停機時間

2026-06-13 01:37 UTC+8

Baseten 推出滾動部署功能，允許團隊逐步更新模型版本，無需停機或加倍 GPU 開銷。該方法在每次替換一個副本，逐步轉移流量，並提供暫停、恢復和回滾控制。用户報告部署頻率提升 50–60%，無需在非高峯時段手動監控。

滾動部署逐步替換副本，避免藍綠部署的雙倍 GPU 成本和硬切換的全有或全無風險。
支持 max_surge（優先擴新副本）和 max_unavailable（優先縮舊副本）兩種模式，適應延遲或成本敏感場景。

首個推理擴散LLM Mercury 2現已登陸Baseten

2026-06-12 22:13 UTC+8

Inception推出的Mercury 2是目前速度最快的推理LLM，採用擴散架構而非傳統自迴歸方式，在標準NVIDIA GPU上可達到每秒1000 token以上的生成速度，速度是同級模型的5-10倍，成本降低一半以上，質量與Haiku和GPT-5 mini相當。Augment Code在生產環境中使用後，成本降低90%，延遲降低82%。Baseten為其提供企業級推理平台支持。

Mercury 2是首個推理擴散LLM，通過並行生成整個輸出再逐步精煉的方式，突破了自迴歸模型的序列生成瓶頸。
在標準NVIDIA GPU上可達1000+ tokens/秒，無需專用芯片，速度是同類優化模型的5-10倍。

NVIDIA Nemotron 3 Ultra 發佈：Nemotron 3.x 系列來了！

2026-06-04 21:50 UTC+8

Nemotron 3 Ultra 是一種混合 Mamba-Transformer 模型，專為長時間運行的代理設計，通過用 Mamba 層替換大部分注意力機制，實現高達 5 倍的推理速度提升和 30% 的成本降低。該模型完全開源，使代理能夠高效完成冗長任務而不會變慢。

Nemotron 3 Ultra 採用以 Mamba 層為主的混合架構，在上下文增長時保持恆定推理速度。
與開放前沿模型相比，在長時間運行的代理工作流中可實現高達 5 倍的推理速度提升和 30% 的成本降低。

MAI-Thinking-1 即將登陸 Baseten

2026-06-03 03:45 UTC+8

Baseten 與微軟 AI 宣佈，MAI-Thinking-1 即將在 Baseten 平台上提供。該模型是微軟 AI 的旗艦推理模型，結合了開源模型的靈活性與閉源模型的管理便利性，具有乾淨數據來源、商業級質量和定製化能力。

MAI-Thinking-1 是微軟 AI 的新旗艦推理模型，填補了開源與閉源模型之間的空白。
模型採用無蒸餾的乾淨數據訓練，數據來源可審計且商業安全。

Nvidia Cosmos 3：機器人終於要接管世界了嗎？

2026-06-01 13:41 UTC+8

Nvidia發佈的Cosmos 3是一個專為物理世界構建的基礎模型，旨在幫助開發者訓練機器人、自動駕駛系統和視覺AI代理。與傳統的生成式視頻模型不同，Cosmos 3着重於理解物體、動作和因果關係，支持六種交互模式，可作為機器人直接控制器或數據工廠，大幅降低機器人訓練的數據成本。

Cosmos 3是面向物理世界的基礎模型，而非簡單的視頻生成器。
支持六種模式：文本生成圖像、文本生成視頻、圖像生成視頻、前向動力學、逆向動力學和策略生成。

為持續學習時代提供推理動力

2026-05-28 09:32 UTC+8

Baseten與Trajectory合作構建了一個生產級推理流水線，實現模型的持續學習：模型通過生產數據不斷更新，訓練到部署的時間壓縮至約一小時。該流水線融合了LoRA適配器合併、架構感知驗證、A/B測試路由與來源追蹤，使模型在使用中持續改進。

持續學習使模型能夠從生產使用中持續改進，而非靜態發佈。
Baseten和Trajectory開發了涵蓋合併、驗證、A/B路由和來源追蹤的流水線，部署時間從數小時縮短至約一小時。

開源AI模型入門指南

2026-05-27 21:31 UTC+8

本文介紹了開源AI模型的基本概念、工作原理及使用場景。開源模型通常指開放權重的模型，用户可以對其進行微調和部署，相比閉源模型具有成本低、可定製性強等優勢。文章還討論了開源與閉源模型的比較、適用時機以及未來發展趨勢。

開源模型主要是開放權重的模型，允許用户微調和部署。
相比閉源模型，開源模型平均成本低87%，並提供更好的控制性和定製化能力。

使用 Flux.2 和 Qwen-Image 實現亞秒級圖像生成

2026-05-19 08:06 UTC+8

Baseten 通過量化、優化注意力內核和運行時改進，在 NVIDIA Blackwell GPU 上實現了 Flux.2 [dev] 2.3 倍和 Qwen-Image 1.6 倍的加速，在 Hopper GPU 上也獲得了顯著提升。

Baseten 優化了 Flux.2 [dev] 和 Qwen-Image 的圖像生成推理，在 B200 GPU 上延遲低於 1 秒。
優化包括 FP4/FP8 量化、高效注意力內核和內存優化，無需 CPU 卸載。

如何訓練自定義EAGLE-3頭部用於推測解碼

2026-05-15 11:46 UTC+8

一份關於訓練自定義EAGLE-3草圖頭部的全面指南，用於推測解碼，在不犧牲輸出質量的情況下，將LLM推理延遲降低1.5-2.5倍。涵蓋數據集準備、超參數調優、訓練流程、評估和部署。

EAGLE-3是一種推測解碼方法，使用輕量級草圖頭部預測多個未來token，由目標模型在單次前向傳遞中驗證。
訓練需要使用目標模型重新生成輸出以對齊token分佈；數據集質量至關重要。

一切皆在調度框架：如何優化你的 AI 調度配置

2026-05-15 11:46 UTC+8

本文提出了優化 AI 調度框架的三個通用模式：保持 .md 文件精簡且由人工編寫、使用 R.P.I. 框架（研究-規劃-執行）進行提示詞結構化、以及利用子代理（並行扇出和流水線）維護乾淨的上下文窗口。強調調度框架而非模型本身才是工程判斷髮揮作用的關鍵，並建議用户選擇並持續迭代一個調度框架，而不是頻繁更換。

保持 .md 配置文件精簡且由人工編寫，避免 LLM 生成的系統提示導致性能下降和成本增加。
對 CLI、技能（Skills）和 MCP 工具採用漸進式信息加載，以減少上下文開銷。

NVIDIA Nemotron 3 Nano Omni：在Baseten上構建多模態智能體

2026-05-15 11:45 UTC+8

NVIDIA Nemotron 3 Nano Omni 是一款開源的多模態基礎模型，將音頻、圖像、視頻和文本統一到單一上下文中。基於 Nemotron 3 Nano 骨幹網絡構建，為智能體工作流中的子智能體提供高效且準確的推理能力。Baseten 現已支持該模型，提供高性能推理、多雲容量管理和企業級安全。

Nemotron 3 Nano Omni 是開源統一多模態模型，融合音頻、圖像、視頻和文本。
採用潛在 MoE、3D 卷積和高效視頻採樣架構，提升效率。

Baseten 推出 Frontier Gateway：為 AI 實驗室提供生產級推理 API 網關

2026-05-15 11:44 UTC+8

Baseten 發佈 Frontier Gateway，這是一個託管 API 網關，基於 Baseten Dedicated Inference，允許 AI 實驗室以自有域名服務模型，無需自建或購買第三方網關，降低工程負擔並提升性能。

Frontier Gateway 是託管在 Baseten 推理平台上的多租户 API 網關，支持身份驗證、速率限制、計費和品牌白標。
它解決了自建網關的工程複雜性和第三方網關的延遲問題，提供與推理基礎設施共置的零開銷路由。

DFlash：實現3倍LLM推理速度

2026-05-15 11:43 UTC+8

本文介紹了DFlash，一種新型推測解碼技術，通過並行預測多個令牌突破EAGLE的2倍加速上限。Baseten的實現基於Qwen3-8B模型，在各種基準測試中實現約3倍加速，比vLLM快10-30%。文章詳細解釋了DFlash的工作原理、訓練方法及與EAGLE和vLLM的性能對比。

DFlash採用塊擴散方法，單次前向傳播並行預測8-16個令牌，突破EAGLE的自迴歸瓶頸。
Baseten的DFlash實現基於Qwen3-8B，在GSM8k、MATH-500和Nemotron數據集上均實現約3倍加速。

低成本、高性能的TTS：Qwen3-TTS優化實踐