推理成本 AI News

推理成本動態

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智慧編碼基準測試、API定價及成本-效能權衡對比

2026-07-14 08:58 UTC+8

Anthropic釋出了Claude Sonnet 5，這是其最強的中端代理模型，在多項基準測試中超越前代Sonnet 4.6，並縮小了與旗艦Opus 4.8的差距。Sonnet 5引入了努力水平（effort levels）以控制推理成本，在低/中努力水平下價效比極高，但高努力水平下成本可能超過Opus 4.8。它已作為Free和Pro計劃的預設模型，並可透過API呼叫。

Sonnet 5在SWE-bench Pro、OSWorld-Verified和HLE等基準測試中均優於Sonnet 4.6，接近Opus 4.8。
定價低於Opus 4.8：$2/$10每百萬token（至2026年8月31日），之後為$3/$15。

Director：透過線上主動專家放置加速分散式MoE服務

2026-07-13 12:00 UTC+8

本文介紹了Director，一種新的分散式MoE推理系統，透過預測驅動的線上專家放置最佳化，顯著降低端到端延遲。系統採用輕量級級聯預測器或低位元量化副本預測專家啟用模式，結合近乎零停機的線上遷移模組，以及基於鬆弛最佳化的專家放置演算法，在多項式時間內達到(1+ε)近似比。實驗表明，在Mistral、DeepSeek和Qwen等流行MoE模型上，相比現有工作延遲降低11%~55%。

提出預測驅動的線上專家放置方法
設計近乎零停機的專家遷移模組

KV-PRM：透過KV快取傳遞實現高效過程獎勵建模，用於多智慧體測試時擴充套件

2026-07-13 12:00 UTC+8

KV-PRM是一種高效的過程獎勵模型，透過直接利用大語言模型生成階段自然產生的KV快取，避免了文本重新編碼，將評分成本從O(L²)降至O(L)。實驗表明，在多個基準上，KV-PRM在匹配或超越文本PRM效能的同時，實現了高達5000倍的FLOPs減少、37倍延遲降低和34倍記憶體佔用減少。

傳統文本PRM需要重新編碼整個軌跡，成本隨序列長度二次增長。
KV-PRM利用KV快取僅處理單個驗證令牌，成本線性增長。

亨利·沙因公司利用Amazon SageMaker AI實現牙科影像即時驗證

2026-07-10 23:33 UTC+8

亨利·沙因公司開發了Image Verify，這是一個基於Amazon SageMaker AI的AI驅動系統，可即時評估牙科X光片質量，減少保險理賠拒付。該系統在數月內從概念擴充套件到超過10,000個場所，處理了數百萬張X光片，中位延遲低於2秒。

高達20%的牙科保險理賠因影像質量差而最初被拒。
Image Verify在拍攝時提供即時質量評分（1-5分），允許立即重拍。

在SageMaker HyperPod上實現LLM推理的分離式預填充和解碼

2026-07-10 23:20 UTC+8

本文介紹瞭如何使用vLLM在Amazon SageMaker HyperPod上透過HyperPod推理運算子實現分離式預填充和解碼（DPD）。DPD透過將預填充和解碼階段分配到不同的GPU池，消除了長提示對令牌生成的干擾，從而降低了首令牌延遲和令牌間延遲，提高了推理效能。

分離式預填充和解碼（DPD）將LLM推理的預填充和解碼階段分開，執行在獨立的GPU池上。
DPD顯著提升長上下文、高併發流式工作負載的效能。

Infinity-Parser2 技術報告發布：多模態文件解析新正規化

2026-07-10 12:00 UTC+8

Infinity-Parser2 是一個結合可控資料合成與多工強化學習的大規模多模態模型，旨在解決文件解析中標註資料稀缺的問題。它開源了包含500萬樣本的中英文雙語語料庫 Infinity-Doc2-5M，並提出了聯合強化學習框架統一八項任務。Flash 版針對低延遲最佳化，Pro 版在多項基準上達到新 SOTA。

提出可控資料合成管線與迭代最佳化迴圈，構建500萬樣本雙語語料庫 Infinity-Doc2-5M
引入可驗證的多工獎勵系統，透過聯合強化學習同時最佳化八項文件理解任務

快速令牌生成成為關鍵差異點，異構推理逐漸普及

2026-07-10 03:14 UTC+8

隨著代理型AI用例增多，即時互動需求推動推理基礎設施重構。d-Matrix與NVIDIA合作推出異構計算解決方案，透過堆疊DRAM和邏輯晶片提升記憶體頻寬，實現低延遲快速令牌生成，開啟新的營收層級。

快速令牌生成是AI推理的關鍵差異點，其價格可達標準令牌的10倍。
d-Matrix的Corsair加速器與NVIDIA GPU結合，構成商業級異構推理方案。

OpenAI釋出最新ChatGPT模型，此前因白宮網路安全擔憂而延遲

2026-07-10 02:48 UTC+8

OpenAI於週四釋出了其最新的高階AI模型ChatGPT 5.6，此前因美國政府擔憂網路安全而推遲了公開發布。特朗普政府上月要求OpenAI將釋出範圍限制在政府批准的小部分使用者內。OpenAI遵從了要求，在向政府官員介紹能力後，僅向受信任合作伙伴開放。更廣泛的釋出是在政府AI標準與創新機構進行額外測試後進行的。此舉與競爭對手Anthropic最新AI模型所受限制類似。

OpenAI釋出ChatGPT 5.6，此前因白宮網路安全擔憂延遲釋出。
特朗普政府要求OpenAI限制釋出範圍，OpenAI遵從。

指紋，而非藍圖：位置編碼如何設定注意力的預設譜代數

2026-07-09 12:00 UTC+8

該研究探討了注意力機制中得分矩陣的譜特性如何受位置編碼影響。透過分析七個預訓練模型，發現RoPE下的前詞頭具有旋轉譜，而絕對位置編碼和ALiBi則不然。動態分析表明譜特徵在行為之後出現，因果實驗顯示沒有譜通道是必需的，但移除會延遲學習。

RoPE位置編碼使注意頭譜呈旋轉特徵，絕對位置和ALiBi則呈非旋轉特徵。
譜特徵在注意力行為出現後形成，而非預先存在。

LangChain與NVIDIA聯合釋出NemoClaw深度代理藍圖

2026-07-08 23:04 UTC+8

LangChain與NVIDIA合作推出NemoClaw深度代理藍圖，結合LangChain深度代理程式碼、NVIDIA Nemotron 3 Ultra和OpenShell，為企業構建開放、受治理的代理系統。該藍圖在代理評估中實現了領先效能，且推理成本降低約10倍。

NemoClaw深度代理藍圖整合了LangChain的代理框架、NVIDIA的開放模型Nemotron 3 Ultra以及安全執行時OpenShell。
該藍圖在LangChain代理評估套件中達到0.86的綜合得分，成本僅為4.48美元，相比競爭對手的43.48美元，推理成本降低約10倍。

NVIDIA Nemotron 藉助 LangChain 深度代理框架實現基準領先效能

2026-07-08 23:00 UTC+8

NVIDIA Nemotron 3 Ultra 與 LangChain 深度代理框架結合，在開放模型中取得最高準確率，同時以比頂級封閉模型低 10 倍的推理成本完成更多工。該成果無需重新訓練模型，而是透過最佳化模型周圍環境實現。Abridge、Amdocs、Box 等企業正在將專業代理嵌入其平臺，EY 等系統整合商則基於此開放棧為客戶構建定製化代理。

LangChain 為 NVIDIA Nemotron 3 Ultra 調優的深度代理框架在開放模型中取得最高準確率，任務量更大且成本僅為封閉模型的 1/10。
所有效能提升均來自工程最佳化而非模型重新訓練，調整包括系統提示、工具描述和中介軟體。

人工智慧成為平價市場，少數高階模型仍居頂端

2026-07-08 15:47 UTC+8

AI推理成本分化：普通模型價格走低，前沿模型費用飆升。企業AI支出佔勞動力成本10-20%，但存在效率拐點。開源模型接近前沿水平，成本優勢顯著。

GPT-4級模型推理成本四年內下降55倍，前沿模型價格反升。
市場分裂為平價推理和高階推理，企業支出佔比達10-20%。

記憶在迴圈中：程序內檢索作為語言代理的擴充套件工作記憶

2026-07-08 12:00 UTC+8

該研究提出將記憶儲存移入語言代理的推理迴圈中，在每個步驟讀取和寫入，以克服網路延遲問題。實驗表明，程序記憶體儲（約100微秒）可將冗餘動作從7.2/12降至0.0/12，並將召回率從0/5提升至3.6-4.8/5。瓶頸在於嵌入生成而非儲存。

傳統語言代理的記憶查詢受限於網路延遲（數十至數百毫秒），導致每步操作延遲增加最高83倍。
程序記憶體儲以約100微秒響應，使記憶成為擴充套件的工作記憶而非外部工具。

Show HN：如果個人網站變成ChatGPT會怎樣？

2026-07-07 20:42 UTC+8

一位開發者將個人簡歷網站改造為AI聊天介面，訪客可透過對話探索其職業經歷。網站採用Groq進行LLM推理，延遲僅100-200毫秒，並故意限制令牌生成速度以模擬自然對話。後端使用純Swift構建，無客戶端JavaScript。

網站透過AI聊天介面呈現簡歷，替代傳統靜態瀏覽
採用Groq實現極低延遲LLM推理，且成本低廉

OpenAI釋出GPT-Realtime-2.1和GPT-Realtime-2.1-mini，用於API中的低延遲語音代理

2026-07-07 12:35 UTC+8

OpenAI在API中新增了兩個Realtime模型：gpt-realtime-2.1和gpt-realtime-2.1-mini。後者是一款針對即時語音的迷你推理模型，定價與之前的gpt-realtime-mini相同。OpenAI還透過改進快取將p95延遲降低了至少25%。本文介紹了模型的變化、定價對比以及如何透過WebRTC連線。

OpenAI推出gpt-realtime-2.1和gpt-realtime-2.1-mini，後者為低延遲語音推理模型。
定價與之前的mini模型相同，p95延遲降低至少25%。

Compressor V2：三層壓縮技術將LLM智慧體成本降低50%

2026-07-06 16:13 UTC+8

Edgee AI釋出Compressor V2，透過三層正交壓縮策略（簡潔輸出、工具表面縮減、工具結果修剪）顯著降低LLM編碼智慧體的執行成本。在SWE-bench Lite基準測試中，僅簡潔輸出策略即可實現中位數約30%的成本削減。文章詳細闡述了壓縮的必要性、V1到V2的演進、實驗方法和統計顯著性驗證，展示了壓縮技術在經濟性、延遲、上下文視窗和吞吐量方面的綜合優勢。

Compressor V2包含三種非重疊壓縮策略，分別針對輸出令牌、工具目錄和工具結果。
在編碼任務中，簡潔輸出策略使中位數成本降低約27.5%（約30%），具有統計顯著性（p=0.031）。

分割，快與慢：基於雙路徑處理的即時開放詞彙影片例項分割

2026-07-02 12:00 UTC+8

本文提出SegFS，一種雙流快慢框架，用於開放詞彙影片例項分割（OV-VIS）。透過在稀疏關鍵幀上使用開放詞彙物件模型預測例項表示，並將這些表示投影回主幹特徵空間以調節輕量級快速網路，SegFS在不犧牲準確性的情況下顯著提高了效率。快速分支的延遲比面向移動的MOBIUS模型低14倍，同時保持具有競爭力的分割效能。

SegFS採用雙流快慢架構，在關鍵幀上使用精確的慢路徑，在後續幀上使用高效的快路徑。
透過將例項傳播從物件解碼轉移到特徵空間調節，解耦了多模態語義理解與密集掩碼預測。

基於伊辛模型的熱力學計算裝置在低功耗AI推理和邊緣計算中展現出巨大潛力，但針對此類硬體的大規模模型訓練方法仍然有限。本研究將高溫吉布斯取樣伊辛系統的時間平均行為與神經網路推理的理論對應關係轉化為一種可擴充套件的、純反向傳播的演算法，用於訓練深度卷積網路在伊辛機硬體上進行熱力學推理。在CIFAR-10和CIFAR-100資料集上，模型分別達到94.9%和76.0%的準確率。此外，還開發了推理成本與精度之間關係的數學理論，並給出了最優推理排程演算法。最後討論了硬體開發的影響和高溫熱力學AI模型的未來。

提出了基於反向傳播的可擴充套件演算法，用於訓練伊辛機硬體上的深度卷積網路。
在CIFAR-10和CIFAR-100上分別達到94.9%和76.0%的準確率。

Hugging Face 與 Cerebras 攜手將 Gemma 4 引入即時語音 AI

2026-07-01 08:00 UTC+8

Hugging Face 與 Cerebras 合作，利用 Gemma 4 模型打造即時語音 AI 系統，透過開放模組化架構顯著降低延遲，實現更自然的對話體驗。該系統整合 Nvidia 的語音識別、Cerebras 的推理加速和 Alibaba 的語音合成，已在 9000 多臺 Reachy Mini 機器人中應用。

Hugging Face 和 Cerebras 推出基於 Gemma 4 的即時語音 AI 演示，延遲極低。
系統採用開放的級聯架構：語音輸入→語音識別→模型推理→語音合成→語音輸出。

RunInfra：將任何開放模型最佳化至核心，5分鐘部署

2026-07-01 07:48 UTC+8

RunInfra是一個AI推理最佳化平臺，可自動為開放模型選擇最佳的推理引擎、GPU和配置，並提供可部署的堆疊。它透過基準測試和調優，大幅降低延遲、提高吞吐量並降低成本。

RunInfra自動最佳化開放模型的推理效能，支援vLLM、SGLang、TensorRT-LLM等多種引擎。
平臺提供從模型選擇到部署的完整流程，包括量化、核心調優和快取策略。

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智慧編碼基準測試、API定價及成本-效能權衡對比

2026-07-01 05:37 UTC+8

Sonnet 5在SWE-bench Pro、OSWorld-Verified和HLE等基準測試中均優於Sonnet 4.6，接近Opus 4.8。
定價低於Opus 4.8：$2/$10每百萬token（至2026年8月31日），之後為$3/$15。

不要構建路由器。訓練小模型知道何時交給大模型

2026-06-30 23:17 UTC+8

本文介紹了一種兩層級聯方法，其中一個小型專用模型處理絕大多數簡單查詢，並在遇到困難問題時自動呼叫大型前沿模型。這種方法在保持與全部使用大模型相當的質量的同時，顯著降低了成本和延遲。

使用兩層級聯：小型模型處理大多數簡單查詢，大型模型處理困難的少數查詢，實現成本與質量的平衡。
小型模型經過訓練，能夠在遇到超出其能力範圍的問題時發出‘交給大模型’的工具呼叫，無需額外路由器。

螢火蟲航空首次在月球軌道執行NVIDIA Jetson

2026-06-29 23:00 UTC+8

螢火蟲航空的藍色幽靈2號任務將在月球軌道上使用NVIDIA Jetson邊緣AI平臺，實現直接在太空進行AI推理，大幅減少資料傳輸延遲。該任務搭載Ocula月球成像服務，用於繪製著陸點、探測礦物組成等，支援未來人類和機器人探索。

螢火蟲航空將在藍色幽靈2號任務中首次在月球軌道執行NVIDIA Jetson邊緣AI平臺。
Ocula服務利用Jetson在軌處理影像資料，僅回傳關鍵資訊，減少延遲和頻寬需求。

Kog Laneformer 2B：Kog推理引擎背後的延遲優先模型

2026-06-29 16:40 UTC+8

Kog釋出了Laneformer 2B，一個23億引數的指令微調編碼模型，專為高速單請求推理從頭設計。透過將模型架構與推理引擎協同設計，Kog引入了延遲張量並行（DTP）和車道結構Transformer以隱藏通訊開銷。該模型在編碼基準上取得競爭性結果（HumanEval+ 45.1%，MBPP+ 51.6%），現已在Hugging Face上開源。

Laneformer 2B是一個23億引數的編碼模型，最佳化了低延遲推理。
它使用新穎的車道結構架構和延遲張量並行，最小化通訊成本。

自動化演講輔導系統綜述：系統、方法與開放挑戰

2026-06-29 12:00 UTC+8

本文系統綜述了自動化演講輔導系統，涵蓋發音、流利度、韻律、多模態及問答練習工具。提出了五維任務分類體系（分段發音、詞彙重音、超音段韻律、節奏、內容忠實性），並對映了現有系統以揭示覆蓋缺口。核心技術包括基於TTS的示例生成和診斷方法。開放挑戰包括標註語料庫稀缺、跨口音公平反饋和即時低延遲診斷。

首次系統綜述自動化演講輔導系統，提出五維任務分類體系。
覆蓋發音、韻律、節奏和內容忠實性等關鍵維度。

Enki——為AI智慧體設計的記憶引擎：儲存量減半，回答質量不減

2026-06-28 07:35 UTC+8

Enki是一款面向AI智慧體的記憶引擎，與mem0相比，在儲存量減少約一半的情況下，實現了相近的問答準確率。在25個例項的評估中，Enki總分14/25對12/25，在多會話推理方面表現突出（4/5對2/5）。CPU檢索延遲平均7.6毫秒。

Enki僅使用mem0儲存量的約49%（138對283條事實），準確率相當。
多會話推理能力優異（4/5對2/5），為顯著優勢。

AI閘道器基準測試：GoModel vs LiteLLM vs Portkey vs Bifrost

2026-06-27 00:04 UTC+8

本文對比了四種AI閘道器在請求路徑上的執行時開銷，包括延遲、吞吐量、記憶體、CPU、冷啟動時間和映象大小。測試結果顯示，GoModel在幾乎所有指標上表現最優，而LiteLLM則因資源消耗巨大而成為短板。文章還討論了閘道器的開源中立性和對本地模型部署的影響。

GoModel在所有測試中表現最佳：1.8毫秒延遲、4900請求/秒吞吐量、37MB記憶體佔用、0.56秒冷啟動。
LiteLLM的資源佔用過高：2.3GB記憶體、25.5秒冷啟動、372MB映象，成為效能瓶頸。

透過可微搜尋在視覺基礎模型中實現層特定提示融合發現

2026-06-26 12:00 UTC+8

本文提出一種基於可微架構搜尋的方法，用於自動發現視覺提示微調中影像標記與提示標記的最佳融合方案。該方法將學習提示及其融合方式聯合最佳化，並引入仿射變換和交叉注意力兩種新融合機制。在34個資料集上的實驗表明，該方法在準確率、延遲和引數數量之間實現了良好的權衡，並揭示了混合融合方式能更有效地利用Transformer的層語義。

將提示融合方案選擇建模為雙層最佳化問題，並透過可微架構搜尋求解。
提出了仿射變換和交叉注意力兩種新融合機制，豐富了搜尋空間。

設計能夠跟上AI步伐的組織

2026-06-25 20:00 UTC+8

組織延遲正成為充分實現AI益處的最大障礙，探討如何透過組織設計來化解這一問題。

組織延遲指的是組織適應AI的速度落後於技術發展。
傳統層級結構往往阻礙AI的快速整合與迭代。

什麼是無伺服器 PostgreSQL？

2026-06-25 16:37 UTC+8

無伺服器 PostgreSQL 是一種完全託管的雲資料庫模型，將計算和儲存分離，實現獨立自動伸縮。它適用於突發性或不可預測的工作負載，但不太適合始終線上、對延遲敏感的應用程式。文章還介紹了基於無伺服器 Postgres 的 Lakebase 架構，該架構統一了事務和分析工作負載，減少資料重複，簡化了對 AI 和即時應用程式的訪問。

無伺服器 PostgreSQL 將計算和儲存解耦，按需自動伸縮，按實際使用計費。
與傳統 Postgres 相比，它降低了運維開銷，但存在冷啟動延遲和連線管理問題。

面向低延遲視覺-語言模型的自我中心視覺理解中的雙重正確預測

2026-06-25 12:00 UTC+8

本文研究了在自我中心視覺理解中，如何透過權重剪枝實現低延遲視覺-語言模型，同時保證預測的準確性和證據基礎（雙重正確）。現有剪枝方法常保持證據定位但損害準確性，作者提出理由告知剪枝策略，在自我中心影片資料集上達到了最高準確率和雙重正確預測。

權重剪枝可用於降低VLM在自我中心視覺任務中的延遲
現有方法往往保留正確證據但降低預測準確性

Wan-Streamer v0.1：端到端即時互動基礎模型

2026-06-25 12:00 UTC+8

Wan-Streamer 是一個原生流式、端到端的互動基礎模型，專為低延遲、全雙工信視聽互動設計。它在一個Transformer中統一建模語言、音訊和影片的輸入輸出，使用塊因果注意力實現增量流式，無需依賴外部模組。模型側響應延遲約200毫秒，總互動延遲約550毫秒，支援亞秒級雙工信視聽通訊。

Wan-Streamer 採用單一Transformer處理語言、音訊和影片的輸入與輸出，實現端到端互動。
透過塊因果注意力和低延遲多模態令牌排程，支援160毫秒（25fps）的流式單元。

基於Pingora、Envoy和Spanner的無伺服器伺服器路由

2026-06-25 08:00 UTC+8

Modal團隊深入介紹了其新型超低延遲Serverless Servers的設計原理和實現細節，該服務針對LLM推理等對延遲敏感的應用進行了最佳化。文章解釋了為何選擇構建自己的代理層fprs，以及如何透過Pingora庫、Envoy邊緣代理和Spanner全域性資料庫實現無網路呼叫熱路徑、動態域名關聯和自動縮放。

Modal推出Serverless Servers，專為超低延遲HTTP/WebSocket/gRPC流量設計。
與Web Functions不同，Servers犧牲了排隊和重試以換取更低延遲。

Gradium釋出stt-translate和s2s-translate：即時語音翻譯模型，準確率和延遲均超越GPT Realtime Translate

2026-06-25 04:00 UTC+8

Gradium推出了兩款即時語音翻譯模型：stt-translate（語音轉文本）和s2s-translate（語音轉語音），覆蓋英語、法語、德語、西班牙語和葡萄牙語共20種語言對。透過將傳統的三模型級聯簡化為兩個階段，模型在BLEU和MetricX指標上優於GPT Realtime Translate，平均延遲3.0秒，略遜於Gemini的2.9秒，但支援輸出語音選擇和克隆。

Gradium釋出stt-translate和s2s-translate，將語音轉文本和翻譯合併為單次處理。
覆蓋5種語言，20個語言對，平均延遲3.0秒。

VoltanaLLM：面向能效LLM服務的反饋驅動頻率控制與狀態空間路由

2026-06-24 13:24 UTC+8

VoltanaLLM提出了一種基於反饋的頻率控制器和狀態空間路由器，用於預填/解碼分離的LLM服務架構，在保持延遲SLO的同時實現高達36.3%的能耗節省。該工作在多個LLM和NVIDIA A100 GPU上進行了評估。

VoltanaLLM協同設計頻率縮放和請求路由，用於分離式LLM服務。
採用EcoFreq Governor實現階段特定的頻率控制，EcoRouter實現狀態空間路由。

Sol影片推理引擎：面向高效影片生成的智慧體原生全棧加速框架

2026-06-24 12:00 UTC+8

現代影片擴散模型透過擴充套件規模提升了生成質量，但也帶來了高昂的推理成本。Sol影片推理引擎提出了一種無需訓練的智慧體加速框架，透過快取、稀疏注意力、token剪枝、量化和核心融合五種技術，針對具體模型、硬體和配置進行例項特定最佳化。在三個不同規模的影片模型上，該框架實現了超過2倍的端到端加速，同時幾乎不損失VBench質量指標。

影片擴散模型推理加速面臨例項特異性挑戰，不同模型、硬體和配置需要不同策略。
Sol引擎採用智慧體架構，並行最佳化五種加速技術並由整合器組合成全域性棧。

Upbound開源Modelplane以最佳化推理叢集管理

2026-06-24 08:31 UTC+8

Upbound Inc. 今天釋出了Modelplane，這是一個用於管理人工智慧推理叢集的新型開源工具。該工具基於其之前的Crossplane專案，旨在簡化跨多個雲平臺的推理工作負載分佈，自動分配資源，並透過分散式快取減少延遲。

Upbound釋出開源工具Modelplane，用於管理AI推理叢集。
Modelplane基於Crossplane，可跨多個雲平臺協調推理工作負載。

NVIDIA與AWS合作，將AI大規模投入生產

2026-06-24 08:05 UTC+8

NVIDIA與AWS合作，透過新的EC2 G7例項（搭載Blackwell GPU）和OpenSearch Serverless中的GPU加速向量索引（由cuVS驅動），以及AWS獲得NVIDIA GB300訓練的Exemplar雲狀態，為企業提供可擴充套件、低延遲的AI基礎設施。

EC2 G7例項搭載NVIDIA RTX PRO 4500 Blackwell GPU，AI推理效能提升高達4.6倍。
OpenSearch Serverless預設使用GPU加速向量索引，速度提升10倍，成本降低至四分之一。

透過推測解碼實現最先進的推理延遲

2026-06-24 08:00 UTC+8

Modal與Decagon合作，利用推測解碼將推理延遲降低100毫秒，超越了專有推理提供商。本文詳細介紹了透過最佳化通訊延遲、主機開銷、預填充延遲和解碼延遲來實現低延遲的完整策略，並重點展示了為特定應用定製推測模型（DFlash技術）如何帶來顯著效能提升。

Modal Auto Endpoints透過推測解碼實現低延遲推理，關鍵最佳化是使用Blackwell GPU、SGLang引擎和Modal伺服器。
推測解碼透過並行處理多個推測令牌來減少解碼階段延遲，且效率主要取決於接受長度。

Modal Auto Endpoints 釋出：最佳化推理，真正擁有

2026-06-23 08:00 UTC+8

Modal 推出 Auto Endpoints，一個自服務的生產級 LLM 推理入口，讓使用者透過單一命令列即可部署前沿開放模型，並完全掌控推理程式碼、指標和基礎設施。該服務基於 Modal 的 AI 基礎設施平臺，提供高效能自動擴縮、自定義容器執行時和全球 GPU 資源，並透過 Modal Servers 實現超低延遲路由（5ms 開銷）。預調優的推理方案源自與頂級團隊的合作經驗，並採用 DFlash 投機解碼加速。未來將實現推理工程全自動化。

Auto Endpoints 支援一鍵部署開放模型（如 GLM 5.2），使用者擁有完整推理棧。
提供引擎級可觀測性指標，包括伺服器和推理指標。

Sakana Fugu：一個模型指揮所有

2026-06-22 10:08 UTC+8

Sakana AI 推出 Fugu，一個透過單一API動態編排多種模型的多智慧體系統，在編碼、推理等複雜任務上達到前沿效能，且不依賴單一供應商。基於ICLR 2026論文，Fugu學習自動組合和協調專家模型，提供兩種版本：Fugu（平衡效能與延遲）和Fugu Ultra（針對高強度問題最佳化）。在多個基準測試中，Fugu模型與頂尖模型並駕齊驅，甚至超越。目前EU/EEA區域暫不可用。

Fugu透過單一API動態編排多種模型，無需手動設計工作流。
提供Fugu和Fugu Ultra兩種模型，分別平衡效能與延遲或最大化答案質量。

使用 SageMaker 詳細指標和 CloudWatch Insights 儀表板監控和除錯生成式 AI 推理

2026-06-19 07:31 UTC+8

Amazon SageMaker AI 現在提供超過 100 種詳細的推理指標，涵蓋 GPU 健康、令牌級延遲、KV 快取壓力、可用區流量分佈等。這些指標透過內建的 SageMaker Insights 儀表板在 CloudWatch 中展示，支援 PromQL 查詢。本文介紹如何啟用詳細可觀測性、導航儀表板以及將指標連線到外部工具。

SageMaker 推理端點現在預設發出超過 100 種詳細的 OpenTelemetry 指標到 CloudWatch。
新的 SageMaker Insights 儀表板提供效能、容量和可靠性三個檢視，幫助快速定位延遲和資源問題。

谷歌六年來首款智慧音箱將於下週發貨

2026-06-17 21:00 UTC+8

谷歌Home Speaker將於6月29日發貨，比原定的春季視窗略有延遲。這款99美元的揚聲器專為Gemini for Home設計，支援Matter和Thread邊界路由器，提供360度音效，並可選四種顏色。

谷歌Home Speaker六年來的首款智慧音箱，6月29日發貨。
專為Gemini for Home設計，執行本地模型以最佳化語音識別。

AI平臺新功能：ML工程智慧體、深度學習平臺及即時ML新能力

2026-06-17 16:44 UTC+8

Databricks在2026年資料+AI峰會上宣佈了AI平臺的多項新功能，包括用於機器學習的Genie Code智慧體、公開預覽的AI Runtime（無伺服器GPU訓練環境），以及增強的即時ML支援（低延遲、高QPS的特徵儲存和模型服務）。這些功能旨在加速從實驗到生產的AI應用開發。

Genie Code for ML：整合Databricks ML元件的編碼智慧體，加速特徵工程、模型訓練、部署和監控。
AI Runtime（公開預覽）：無伺服器GPU訓練平臺，支援研究級深度學習和大規模微調，無需管理基礎設施。

MLLP-VRAIN UPV 系統在 IWSLT 2026 同聲傳譯任務中的表現

2026-06-17 12:00 UTC+8

本文介紹了 MLLP-VRAIN 研究組參與 IWSLT 2026 同聲傳譯共享任務的系統。該系統利用最新發布的 Parakeet 和 Qwen 3.5 模型，透過自適應“黑盒”策略構建魯棒的級聯解決方案，並探索策略鬆弛以最佳化質量-延遲權衡。系統參與所有語言方向，並針對 En→De、It、Zh 方向引入新的上下文軌道，結合 ASR 詞彙增強和離線預翻譯示例的 RAG 機制。在 MCIF En→De 測試集上，質量提升 +5.82 XCOMET-XL，上下文處理額外提升 +1.03。

使用 Parakeet 和 Qwen 3.5 模型構建級聯同聲翻譯系統。
自適應黑盒策略及其鬆弛實現質量與延遲的更好平衡。

模型在預填充階段做筆記：KV快取變得可編輯且可組合

2026-06-17 12:00 UTC+8

研究表明，大型語言模型在預填充階段會將欄位條件結論寫入下游筆記，使得KV快取具有可編輯性和可組合性。透過鏈式思維編輯欄位即可恢復決策，而預編譯的技能可透過RoPE重新定位並拼接至任意上下文，實現與完全重新計算幾乎無差異的結果，同時延遲降低多達14.9倍。該方法適用於多種注意力和快取變體，並在線上vLLM基準測試中保持98.5%的快取命中率。

發現預填充階段模型已將結論寫入下游筆記，欄位本身的鍵/值對僅貢獻不到1%的決策。
透過鏈式思維編輯單一欄位即可糾正錯誤，保持決策正確，僅需約1%的計算量。

Amazon SageMaker AI 推出容器快取，加速模型擴充套件

2026-06-17 04:16 UTC+8

Amazon SageMaker AI 宣佈容器映象快取功能，可將擴充套件事件中的端到端延遲最多降低 2 倍，尤其適用於生成式 AI 模型。

容器快取自動為支援的例項型別啟用，無需修改。
在新例項啟動時消除容器映象拉取步驟，端到端啟動延遲降低最多 51%。

HPE與NVIDIA擴充套件AI工廠，迎接智慧體時代

2026-06-17 00:30 UTC+8

企業正將智慧體AI從概念驗證轉向生產，下一代AI工廠為此設計。在HPE Discover大會上，NVIDIA和HPE宣佈擴充套件HPE AI Factory，包括NVIDIA Vera CPU和NVIDIA Agent Toolkit。Vera CPU專為智慧體設計，提供確定性低延遲效能。NVIDIA機密計算現覆蓋整個HPE AI Factory產品組合。此外，全棧NVIDIA整合增強，涵蓋網路、DPU和GPU。

NVIDIA Vera CPU將於2027年隨HPE Private Cloud AI上市，專為智慧體工作負載最佳化。
NVIDIA Agent Toolkit現可用於HPE Private Cloud AI，提供智慧體AI作業系統。

超越轉錄：ASR模型在200毫秒內傳遞文字、情感和意圖

2026-06-16 07:38 UTC+8

Whissle的META-1模型是一種元感知語音識別系統，能夠在單次前向傳播中同時輸出轉錄文本和後設資料（情感、意圖、年齡、性別等），延遲約200毫秒。透過整合KenLM n-gram語言模型，該系統將詞錯誤率降低了高達3.6%（相對10.8%），同時在多語言基準測試中顯著快於Deepgram、AssemblyAI和Gemini 2.0 Flash等商業解決方案。

Whissle的META-1模型利用CTC解碼器在200毫秒內同時輸出文本和後設資料，無需單獨管道。
KenLM n-gram語言模型透過淺融合整合到CTC束搜尋解碼中，在不影響後設資料能力的前提下提高了轉錄準確性。

跳過學習曲線：重新思考資料遷移以取得實際成果

2026-06-15 20:40 UTC+8

文章指出傳統“先遷移，後現代化”的方法往往延遲價值實現，而領先的組織採用並行方法，透過AI驅動的自動化、漸進式退役和合作夥伴經驗，加速獲得業務價值。

傳統“先遷移，後現代化”模式常延遲價值實現，導致成本超支和動力不足。
真正瓶頸不是技術，而是學習曲線和團隊對AI的猶豫；專業合作伙伴和AI自動化可克服。

推理成本

相關主題

推理成本動態

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智慧編碼基準測試、API定價及成本-效能權衡對比

Director：透過線上主動專家放置加速分散式MoE服務

KV-PRM：透過KV快取傳遞實現高效過程獎勵建模，用於多智慧體測試時擴充套件

亨利·沙因公司利用Amazon SageMaker AI實現牙科影像即時驗證

在SageMaker HyperPod上實現LLM推理的分離式預填充和解碼

Infinity-Parser2 技術報告發布：多模態文件解析新正規化

快速令牌生成成為關鍵差異點，異構推理逐漸普及

OpenAI釋出最新ChatGPT模型，此前因白宮網路安全擔憂而延遲

指紋，而非藍圖：位置編碼如何設定注意力的預設譜代數

LangChain與NVIDIA聯合釋出NemoClaw深度代理藍圖

NVIDIA Nemotron 藉助 LangChain 深度代理框架實現基準領先效能

人工智慧成為平價市場，少數高階模型仍居頂端

記憶在迴圈中：程序內檢索作為語言代理的擴充套件工作記憶

Show HN：如果個人網站變成ChatGPT會怎樣？

OpenAI釋出GPT-Realtime-2.1和GPT-Realtime-2.1-mini，用於API中的低延遲語音代理

Compressor V2：三層壓縮技術將LLM智慧體成本降低50%

分割，快與慢：基於雙路徑處理的即時開放詞彙影片例項分割

擴充套件熱力學AI模型

Hugging Face 與 Cerebras 攜手將 Gemma 4 引入即時語音 AI

RunInfra：將任何開放模型最佳化至核心，5分鐘部署

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智慧編碼基準測試、API定價及成本-效能權衡對比

不要構建路由器。訓練小模型知道何時交給大模型

螢火蟲航空首次在月球軌道執行NVIDIA Jetson

Kog Laneformer 2B：Kog推理引擎背後的延遲優先模型

自動化演講輔導系統綜述：系統、方法與開放挑戰

Enki——為AI智慧體設計的記憶引擎：儲存量減半，回答質量不減

AI閘道器基準測試：GoModel vs LiteLLM vs Portkey vs Bifrost

透過可微搜尋在視覺基礎模型中實現層特定提示融合發現

設計能夠跟上AI步伐的組織

什麼是無伺服器 PostgreSQL？

面向低延遲視覺-語言模型的自我中心視覺理解中的雙重正確預測

Wan-Streamer v0.1：端到端即時互動基礎模型

基於Pingora、Envoy和Spanner的無伺服器伺服器路由

Gradium釋出stt-translate和s2s-translate：即時語音翻譯模型，準確率和延遲均超越GPT Realtime Translate

VoltanaLLM：面向能效LLM服務的反饋驅動頻率控制與狀態空間路由

Sol影片推理引擎：面向高效影片生成的智慧體原生全棧加速框架

Upbound開源Modelplane以最佳化推理叢集管理

NVIDIA與AWS合作，將AI大規模投入生產

透過推測解碼實現最先進的推理延遲

Modal Auto Endpoints 釋出：最佳化推理，真正擁有

Sakana Fugu：一個模型指揮所有

使用 SageMaker 詳細指標和 CloudWatch Insights 儀表板監控和除錯生成式 AI 推理

谷歌六年來首款智慧音箱將於下週發貨

AI平臺新功能：ML工程智慧體、深度學習平臺及即時ML新能力

MLLP-VRAIN UPV 系統在 IWSLT 2026 同聲傳譯任務中的表現

模型在預填充階段做筆記：KV快取變得可編輯且可組合

Amazon SageMaker AI 推出容器快取，加速模型擴充套件

HPE與NVIDIA擴充套件AI工廠，迎接智慧體時代

超越轉錄：ASR模型在200毫秒內傳遞文字、情感和意圖

跳過學習曲線：重新思考資料遷移以取得實際成果

更多增長標籤

AI 編程

MCP

開源模型

Agent 框架

中國 AI

GPU 基礎設施

模型定價

DeepSeek

Qwen