推理成本 AI News

推理成本動態

AMD Advancing AI 2026：與AMD的Alan Smith探討CDNA5架構

2026-07-28 05:17 UTC+8

在AMD Advancing AI 2026活動上，AMD公司研究員兼數據中心GPU首席架構師Alan Smith詳細介紹了全新CDNA5架構。該架構從傳統的GCN基礎遷移至RDNA，採用分離式計算小芯片設計，分別優化HPC（雙精度）和AI（張量）工作負載。此外，CDNA5淘汰了Wave64支持，轉而使用四個SIMD32單元執行Wave32指令，並將每波前可訪問的矢量寄存器（VGPR）數量從256提升至1024。緩存系統也進行了重構，採用每基礎芯片的客户端L2緩存，替代了此前的Infinity Cache，以提升全局原子操作帶寬和能效。

CDNA5從GCN架構遷移至RDNA，實現現代計算效率。
採用雙計算小芯片設計：一個面向HPC（雙精度），另一個面向AI（張量）。

Induction Labs推出Photon-1：從一次預訓練中模擬桌面、下跳棋並建模枱球物理

2026-07-26 17:14 UTC+8

大多數從視頻中學習的智能體需要知道每個幀是由什麼動作產生的。Induction Labs認為這一需求是瓶頸。上週，他們發佈了想象模型（imagination models），這是一種無需任何動作標籤即可在原始視頻上進行預訓練的基礎模型架構。其測試系統Photon-1是一個稀疏的106B-A5B混合專家（MoE）模型，在18年的計算機演示視頻上訓練。在內部計算機使用基準測試中，Photon-1以遠少於Gemini 3.1 Flash-Lite的預訓練計算量和約3倍的推理成本，擊敗了後者。

Photon-1通過下一個潛在令牌預測（next-latent-token prediction）從零動作標籤的屏幕錄像中學習隱式策略。
使用有限標量量化（FSQ）將每幀壓縮為960個令牌（約2.2 KB），據稱比OCR和多模態表示方法壓縮100倍以上。

InferenceBench：用於AI智能體開放式LLM推理優化的基準測試

2026-07-24 12:00 UTC+8

InferenceBench是一個新的基準測試，旨在評估AI智能體在開放式LLM推理優化中的能力。智能體需在兩小時內優化目標LLM的推理速度，涉及預填充延遲、解碼延遲和併發吞吐量等場景。測試顯示，智能體雖能超越基線，但往往收斂於單一框架，未能充分探索多樣化策略，表明瓶頸在於配置多樣性而非領域知識。

InferenceBench讓AI智能體在真實服務器環境中優化LLM推理速度，包含四種優化場景。
前沿智能體配置可提升性能達8倍，但低於簡單超參數搜索（11.53倍）。

DC-Leap：通過草稿引導的連續跳躍解碼實現dLLM的無訓練加速

2026-07-24 12:00 UTC+8

DC-Leap是一種無需訓練即可加速擴散大語言模型（dLLM）推理的框架。它通過動態連續驗證和草稿引導解碼克服了由聯合概率依賴誤差（JPDE）引起的過度保守置信閾值問題，在保持生成質量的同時實現顯著加速。實驗表明，在MBPP長序列生成任務上速度提升可達53.19倍，結合KV-Cache後可達105.02倍。

DC-Leap解決了dLLM並行解碼中因JPDE導致的過度保守置信閾值問題。
引入動態連續驗證策略，在並行解碼中整合嚴格有序的因果約束，有效消除JPDE。

NASA將谷歌Gemma大語言模型送入軌道

2026-07-23 21:00 UTC+8

NASA噴氣推進實驗室成功將谷歌Gemma 3大語言模型部署到太空，首次在軌演示了視覺語言模型分析衞星自身傳感器圖像的能力。該系統名為NAVI-Orbital，在Loft Orbital的YAM-9衞星上運行，僅需8GB內存即可在低功耗設備上執行任務，為衞星圖像分析帶來了範式轉變。通過語義壓縮，衞星可以傳輸文本摘要而非大量原始數據，有望將野火檢測等任務的延遲從90分鐘降至近乎實時。

NASA成功在軌演示了谷歌Gemma 3視覺語言模型分析衞星圖像
NAVI-Orbital系統在預訓練模型上達到88%的分類準確率，無需微調

儘早檢測，極少升級：從壓縮比特流中實時檢測AI生成視頻

2026-07-23 12:00 UTC+8

本文提出一種新穎方法，通過分析壓縮比特流而非解碼像素來實時檢測AI生成視頻。該方法利用編解碼器已寫入的運動場數據，實現流式感知，並支持隨時決策。在GenVidBench上，該方法僅用像素CNN五分之一數量級的計算量即達到0.64 AUC，同時通過延遲15%的片段將準確率從0.75提升至0.78，計算量減少7倍。

將AI視頻檢測重新定義為從壓縮比特流的流式感知
利用編解碼器中已有的運動場，僅需解析而非像素解碼

NEXUS：面向工具使用LLM代理的結構化運行時安全監控

2026-07-23 12:00 UTC+8

NEXUS是一個結構化計劃安全監控器，結合確定性安全規則、參數級檢查和校準的邏輯迴歸風險評分，對LLM代理執行四種干預措施：允許、阻止、請求確認或請求修訂。在多個基準測試中，NEXUS表現出色，F1分數高達0.949，延遲僅0.205毫秒。

NEXUS採用四種干預措施，實現細粒度安全控制。
結合規則和機器學習風險評分，優於純規則方法。

基於Intel TDX的NVIDIA H100機密GPU推理性能基準測試

2026-07-23 12:00 UTC+8

一項新研究評估了在NVIDIA H100 GPU上啓用機密計算對大型語言模型推理性能的影響。測試使用Mistral-7B和Qwen3-30B-A3B模型，發現機密模式使首令牌延遲平均增加21.8%-27.8%，全局令牌吞吐量下降17.7%-21.1%，且較大模型更早達到飽和。結果表明機密GPU推理在負載下仍可保持可用吞吐量，但容量規劃需考慮性能損失和早期飽和現象。

機密計算正成為AI推理部署的實際需求，但性能成本因工作負載而異。
在Intel TDX機密實例中，使用NVIDIA H100 GPU測試了兩種模型的機密與非機密模式。

超越準確率與成本：面向動態工作負載的延遲感知LLM查詢路由

2026-07-22 12:00 UTC+8

現代語言查詢路由器通常忽略生成延遲，而僅關注響應質量和成本。本文提出一種輕量級延遲估計器，模擬自迴歸標記批處理，估計首個令牌生成時間（TTFT），並將其集成到路由決策中，實現延遲、準確率和成本的聯合優化。實驗表明，該方法在保持與標準負載均衡相同延遲的同時，將準確率-成本效用提升了高達40%。

當前查詢路由器大多忽略延遲，僅通過負載均衡策略控制延遲。
新方法設計輕量級延遲估計器，模擬推理框架中的批處理過程，預測TTFT。

新型可編程光子芯片可控制光的傳播速度

2026-07-22 10:43 UTC+8

科學家們製造了一種可編程光學芯片，能夠按需減慢光速，使工程師對光信號在電路中的傳播擁有更大的控制權。該技術可提供光計算所需的光延遲、同步和緩衝功能，最終可能降低AI服務器和數據中心的能耗、成本和複雜性。

研發團隊設計了一種基於耦合諧振器誘導透明（CRIT）的可編程光子集成電路，可動態調節光信號的速度和帶寬。
傳統CRIT器件製造後功能固定，新設計通過兩個可控環形耦合器實現了靈活的延遲和頻譜控制。

硬件機制動態限制AI性能

2026-07-22 09:01 UTC+8

隨着AI模型融入關鍵系統，現有軟件安全措施存在被繞過的風險。研究人員提出一組微架構旋鈕，通過動態控制GPU內存子系統的資源（如L2緩存大小、延遲、帶寬和共享內存端口訪問率），實現對AI性能的細粒度運行時限制，最高可削減80%性能，且實現成本極低。

軟件安全措施可能被足夠智能的AI模型繞過，硬件級安全至關重要。
提出四個微架構旋鈕：L2大小、延遲、帶寬和共享內存端口訪問率。

使用 NVIDIA srt-slurm、SLURM 配方、參數掃描和帕累託分析驗證分佈式 LLM 服務基準測試

2026-07-22 00:29 UTC+8

本教程探討了 NVIDIA 的 srt-slurm 框架，學習如何使用 srtctl 將聲明式 YAML 配置轉換為可重複的 SLURM 基準測試工作流，用於分佈式 LLM 服務。在 Google Colab 中設置項目，檢查內部架構，定義集羣配置，試運行內置和自定義配方，併為 DeepSeek-R1 建模分離的預填充和解碼部署。還生成參數掃描，與類型化 Python API 交互，驗證擴展配置，並通過吞吐量與延遲的帕累託前沿分析模擬的基準測試結果。

srtctl 將 YAML 配置轉化為 SLURM 基準測試工作流
支持分離的預填充和解碼部署

Google Gemini 3.6 Flash 旨在降低企業代理的Token成本

2026-07-22 00:06 UTC+8

Google發佈了Gemini 3.6 Flash和3.5 Flash-Lite，旨在降低企業AI代理的延遲和Token成本。3.6 Flash在多項基準測試中性能提升顯著，而3.5 Flash-Lite則專注於高吞吐量、低延遲的場景。此外，Google還推出了針對網絡安全的3.5 Flash Cyber模型，並集成了客户端計算機使用工具。

Gemini 3.6 Flash輸出Token減少17%，部分測試中減少高達65%，定價為輸入$1.50/百萬Token，輸出$7.50/百萬Token。
3.5 Flash-Lite以高吞吐量和低價格（輸入$0.3/百萬Token，輸出$2.5/百萬Token）服務於文檔處理和代理搜索。

支持本地機器學習的新型智能眼鏡平台

2026-07-21 12:00 UTC+8

本文介紹ARGO智能眼鏡平台，利用STM32N6微控制器及其集成NPU實現本地機器學習，保護隱私並降低延遲。通過軟硬件協同設計，部署優化後的YOLOv11模型進行實時城市障礙物識別，引入頭並行注意力機制（HPA）適配NPU，模型僅佔用2.483 MB內存，mAP50-95達24。該平台集成多模態傳感器，以10 FPS運行，200 mAh電池續航約113分鐘，展示了高性能、隱私保護且社交可接受輔助設備的可行性。

ARGO智能眼鏡平台採用STM32N6微控制器和NPU，實現本地ML處理，避免雲依賴
引入頭並行注意力（HPA）優化YOLOv11模型，在嚴格內存限制下達到mAP50-95 24

AI代理系統確定性重放框架agrepl

2026-07-21 12:00 UTC+8

AI代理系統因結合大語言模型與外部工具而本質非確定性。arXiv論文提出agrepl框架，通過MITM代理攔截外部交互，實現運行軌跡的確定性重放，並憑噪聲感知差異算法區分HTTP頭部變化。實驗顯示重放保真度F=1.0，單步延遲降低98.3%。

AI代理系統（LLM+工具/API）的運行本質上非確定，難以復現。
agrepl框架使用MITM代理記錄全部外部交互，並在隔離環境中重放。

KDnuggets 每週綜述：2026年7月13日周

2026-07-18 21:00 UTC+8

本週精選包括如何用註冊表模式替代If-Else鏈、降低LLM延遲和推理成本的12種方法、五個真實SQL項目構建數據作品集、Git Worktrees用於AI開發、用Outlines進行結構化語言模型生成、七個用於編排本地AI代理的Python框架、10個保持AI前沿的YouTube頻道、Conductor for Gemini CLI入門、五個免費資源學習Agentic AI以及Pi編碼代理的工作方式。

用註冊表模式替代if-else鏈可提高代碼可擴展性
降低LLM推理成本需優化令牌使用、模型路由和多層緩存

Meta 的 Muse Spark 1.1 現已在 Databricks 上可用，完全由 Unity AI Gateway 管理

2026-07-17 21:08 UTC+8

Meta 的新模型 Muse Spark 1.1 現可通過 Databricks 的 Unity AI Gateway 中的模型提供商服務（MPS）使用。該服務允許組織在 Unity Catalog 中註冊提供商一次，消除 API 密鑰氾濫，並通過熟悉的權限、速率限制和護欄實現集中治理。此外，自動跟蹤每次請求的令牌使用量、延遲、成本歸屬和審計日誌，提供端到端的可觀察性。

Polestar：面向擴散大語言模型高效推理的漂移感知緩存校準與令牌提交

2026-07-17 12:00 UTC+8

Polestar是一種無需訓練的推理框架，通過利用令牌表示漂移來解決擴散大語言模型中KV緩存重用和解碼並行性的挑戰。它包含Polestar-Cache（用於稀疏緩存刷新）和Polestar-Commit（用於識別可提交令牌），在數學和編程基準測試上實現了高達10.73%的精度提升和3.7倍的吞吐量提升。

Polestar通過令牌表示漂移統一優化緩存效率和解碼並行性。
Polestar-Cache識別過期KV緩存位置進行稀疏刷新，實現高效重用。

Alphabet股價因Gemini 3.5 Pro延遲發佈而下跌

2026-07-17 08:06 UTC+8

據報道，Alphabet推遲了其旗艦AI模型Gemini 3.5 Pro的發佈，導致股價下跌。該模型的編碼能力未達到內部預期，而競爭對手如OpenAI和Meta已推出更先進的AI編碼模型。

Alphabet因Gemini 3.5 Pro AI模型延遲發佈，股價下跌4%。
模型編碼能力未達內部預期，競爭對手已推出更先進的編碼模型。

Kimi K3：我們仍能從鵜鶘基準中學到什麼

2026-07-17 04:19 UTC+8

中國AI實驗室Moonshot AI發佈了Kimi K3模型，擁有2.8萬億參數，自稱首個“開源3T級模型”。該模型在多個基準測試中表現優異，但定價較高。作者通過“鵜鶘騎自行車”測試，展示了模型的推理成本、隱性系統提示和視覺能力，並反思了這一非正式基準的侷限性。

Kimi K3擁有2.8萬億參數，是Moonshot AI的最強模型，承諾2026年7月27日開源。
定價為每百萬輸入3美元、每百萬輸出15美元，是目前中國AI實驗室最貴的模型。

3DGS驅動的動態視角與振動觸覺框架：用於水下遙操作，經功能性近紅外光譜驗證

2026-07-16 12:00 UTC+8

提出一種基於ROS-Unity的多模態遙操作架構，利用3D高斯潑濺技術生成無遮擋的外部視角，並通過軀幹振動觸覺套裝提供直觀的接近提示。在30名受試者參與的實驗中，該框架在嚴重通信延遲下表現出顯著的性能優勢，fNIRS結果顯示其能維持操作者的執行控制能力，避免認知負荷過載。

動態自適應視角系統（DAVS）通過實時3D高斯潑濺合成無遮擋外部視角
振動觸覺套裝將障礙物距離映射為觸覺信號，降低感官負荷

通過知識蒸餾將LLM轉化為高效交叉編碼器用於RAG重排序

2026-07-15 12:00 UTC+8

本研究通過兩階段流水線（監督微調+4位量化）將LLaMA 3 (8B)微調為高效的替代重排序器，在RAG管道中替代傳統交叉編碼器，在保持高準確率的同時顯著降低推理成本。在領域特定問答基準上，微調模型在答案相關性、上下文精度、答案相似度和答案正確性上分別提升14%、16%、19%和21%。

傳統交叉編碼器在RAG重排序中準確率高但推理成本為二次複雜度，限制實時部署。
提出兩階段方法：使用Unsloth框架和LoRA適配器進行監督微調，然後進行4位量化。

操作系統 -> 生產調查

2026-07-15 02:53 UTC+8

開源AI已達到與封閉模型的能力平價，推理成本在36個月內下降了50倍，開源權重在API調用量上佔據主導地位。儘管開發者廣泛採用開源模型（79%），但生產部署仍面臨運營工具和信任度挑戰（僅51%成功部署）。開源不僅是成本選擇，更是主權選擇，尤其在中國和全球南方國家的戰略推動下。

開源AI與頂級封閉模型的能力差距縮小至3.3%，在編碼等任務上達到平價。
GPT-4級推理成本從每百萬token 20美元降至0.40美元，降幅達50倍。

生產中減少LLM延遲和推理成本的12種方法

2026-07-14 20:00 UTC+8

擴展LLM的關鍵不是增加GPU，而是消除每個請求中的不必要工作。本文介紹了12種實用的減少延遲和成本的方法。

測量隊列時間、首token時間、token間延遲和緩存命中率等關鍵指標。
積極減少輸出token，設置合理的max_tokens限制。

工作負載驅動的設備端實時字幕翻譯優化

2026-07-14 12:00 UTC+8

本報告研究針對台灣地區的設備端英文到繁體中文字幕翻譯，在短輸入、短輸出、單批次推理、低延遲和隱私約束下的優化。作者將原始151k詞表替換為64k字幕領域分詞器，並進行嵌入校準和微調，在OpenSubtitles2024子集上實現了59.2%的勝率（排除平局），並在Apple M2上獲得1.63倍加速。

設備端英文到繁體中文字幕翻譯，針對短輸入、低延遲和隱私優化。
將151k詞表替換為64k字幕領域分詞器，應用嵌入校準和微調。

閉環控制：規則對齊的小語言模型與多智能體自我修正

2026-07-14 12:00 UTC+8

本文研究了一種基於小型語言模型（SLM）的閉環控制框架，通過GRPO對齊的Qwen2.5-1.5B模型，結合動作智能體、數字孿生驗證層和重提示智能體，實現了從自然語言需求規範生成控制策略。在隨機熱控制模擬中，該框架達到91.5%的動作對齊準確率，平均推理延遲3.84秒，展示了在邊緣設備上實現可重構自主控制的可行性。

使用1.5B參數的小型語言模型（Qwen2.5-1.5B）通過GRPO進行對齊，用於控制推理
多智能體架構包括動作生成器、符號/數字孿生驗證器和迭代修正的重提示智能體

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智能編碼基準測試、API定價及成本-性能權衡對比

2026-07-14 08:58 UTC+8

Anthropic發佈了Claude Sonnet 5，這是其最強的中端代理模型，在多項基準測試中超越前代Sonnet 4.6，並縮小了與旗艦Opus 4.8的差距。Sonnet 5引入了努力水平（effort levels）以控制推理成本，在低/中努力水平下性價比極高，但高努力水平下成本可能超過Opus 4.8。它已作為Free和Pro計劃的默認模型，並可通過API調用。

Sonnet 5在SWE-bench Pro、OSWorld-Verified和HLE等基準測試中均優於Sonnet 4.6，接近Opus 4.8。
定價低於Opus 4.8：$2/$10每百萬token（至2026年8月31日），之後為$3/$15。

Director：通過在線主動專家放置加速分佈式MoE服務

2026-07-13 12:00 UTC+8

本文介紹了Director，一種新的分佈式MoE推理系統，通過預測驅動的在線專家放置優化，顯著降低端到端延遲。系統採用輕量級級聯預測器或低比特量化副本預測專家激活模式，結合近乎零停機的在線遷移模塊，以及基於鬆弛優化的專家放置算法，在多項式時間內達到(1+ε)近似比。實驗表明，在Mistral、DeepSeek和Qwen等流行MoE模型上，相比現有工作延遲降低11%~55%。

提出預測驅動的在線專家放置方法
設計近乎零停機的專家遷移模塊

KV-PRM：通過KV緩存傳遞實現高效過程獎勵建模，用於多智能體測試時擴展

2026-07-13 12:00 UTC+8

KV-PRM是一種高效的過程獎勵模型，通過直接利用大語言模型生成階段自然產生的KV緩存，避免了文本重新編碼，將評分成本從O(L²)降至O(L)。實驗表明，在多個基準上，KV-PRM在匹配或超越文本PRM性能的同時，實現了高達5000倍的FLOPs減少、37倍延遲降低和34倍內存佔用減少。

傳統文本PRM需要重新編碼整個軌跡，成本隨序列長度二次增長。
KV-PRM利用KV緩存僅處理單個驗證令牌，成本線性增長。

亨利·沙因公司利用Amazon SageMaker AI實現牙科影像實時驗證

2026-07-10 23:33 UTC+8

亨利·沙因公司開發了Image Verify，這是一個基於Amazon SageMaker AI的AI驅動系統，可實時評估牙科X光片質量，減少保險理賠拒付。該系統在數月內從概念擴展到超過10,000個場所，處理了數百萬張X光片，中位延遲低於2秒。

高達20%的牙科保險理賠因圖像質量差而最初被拒。
Image Verify在拍攝時提供實時質量評分（1-5分），允許立即重拍。

在SageMaker HyperPod上實現LLM推理的分離式預填充和解碼

2026-07-10 23:20 UTC+8

本文介紹瞭如何使用vLLM在Amazon SageMaker HyperPod上通過HyperPod推理運算符實現分離式預填充和解碼（DPD）。DPD通過將預填充和解碼階段分配到不同的GPU池，消除了長提示對令牌生成的干擾，從而降低了首令牌延遲和令牌間延遲，提高了推理性能。

分離式預填充和解碼（DPD）將LLM推理的預填充和解碼階段分開，運行在獨立的GPU池上。
DPD顯著提升長上下文、高併發流式工作負載的性能。

Infinity-Parser2 技術報告發布：多模態文檔解析新範式

2026-07-10 12:00 UTC+8

Infinity-Parser2 是一個結合可控數據合成與多任務強化學習的大規模多模態模型，旨在解決文檔解析中標註數據稀缺的問題。它開源了包含500萬樣本的中英文雙語語料庫 Infinity-Doc2-5M，並提出了聯合強化學習框架統一八項任務。Flash 版針對低延遲優化，Pro 版在多項基準上達到新 SOTA。

提出可控數據合成管線與迭代優化循環，構建500萬樣本雙語語料庫 Infinity-Doc2-5M
引入可驗證的多任務獎勵系統，通過聯合強化學習同時優化八項文檔理解任務

快速令牌生成成為關鍵差異點，異構推理逐漸普及

2026-07-10 03:14 UTC+8

隨着代理型AI用例增多，實時交互需求推動推理基礎設施重構。d-Matrix與NVIDIA合作推出異構計算解決方案，通過堆疊DRAM和邏輯芯片提升內存帶寬，實現低延遲快速令牌生成，開啓新的營收層級。

快速令牌生成是AI推理的關鍵差異點，其價格可達標準令牌的10倍。
d-Matrix的Corsair加速器與NVIDIA GPU結合，構成商業級異構推理方案。

OpenAI發佈最新ChatGPT模型，此前因白宮網絡安全擔憂而延遲

2026-07-10 02:48 UTC+8

OpenAI於週四發佈了其最新的高級AI模型ChatGPT 5.6，此前因美國政府擔憂網絡安全而推遲了公開發布。特朗普政府上月要求OpenAI將發佈範圍限制在政府批准的小部分用户內。OpenAI遵從了要求，在向政府官員介紹能力後，僅向受信任合作伙伴開放。更廣泛的發佈是在政府AI標準與創新機構進行額外測試後進行的。此舉與競爭對手Anthropic最新AI模型所受限制類似。

OpenAI發佈ChatGPT 5.6，此前因白宮網絡安全擔憂延遲發佈。
特朗普政府要求OpenAI限制發佈範圍，OpenAI遵從。

指紋，而非藍圖：位置編碼如何設置注意力的默認譜代數

2026-07-09 12:00 UTC+8

該研究探討了注意力機制中得分矩陣的譜特性如何受位置編碼影響。通過分析七個預訓練模型，發現RoPE下的前詞頭具有旋轉譜，而絕對位置編碼和ALiBi則不然。動態分析表明譜特徵在行為之後出現，因果實驗顯示沒有譜通道是必需的，但移除會延遲學習。

RoPE位置編碼使注意頭譜呈旋轉特徵，絕對位置和ALiBi則呈非旋轉特徵。
譜特徵在注意力行為出現後形成，而非預先存在。

LangChain與NVIDIA聯合發佈NemoClaw深度代理藍圖

2026-07-08 23:04 UTC+8

LangChain與NVIDIA合作推出NemoClaw深度代理藍圖，結合LangChain深度代理代碼、NVIDIA Nemotron 3 Ultra和OpenShell，為企業構建開放、受治理的代理系統。該藍圖在代理評估中實現了領先性能，且推理成本降低約10倍。

NemoClaw深度代理藍圖整合了LangChain的代理框架、NVIDIA的開放模型Nemotron 3 Ultra以及安全運行時OpenShell。
該藍圖在LangChain代理評估套件中達到0.86的綜合得分，成本僅為4.48美元，相比競爭對手的43.48美元，推理成本降低約10倍。

NVIDIA Nemotron 藉助 LangChain 深度代理框架實現基準領先性能

2026-07-08 23:00 UTC+8

NVIDIA Nemotron 3 Ultra 與 LangChain 深度代理框架結合，在開放模型中取得最高準確率，同時以比頂級封閉模型低 10 倍的推理成本完成更多任務。該成果無需重新訓練模型，而是通過優化模型周圍環境實現。Abridge、Amdocs、Box 等企業正在將專業代理嵌入其平台，EY 等系統集成商則基於此開放棧為客户構建定製化代理。

LangChain 為 NVIDIA Nemotron 3 Ultra 調優的深度代理框架在開放模型中取得最高準確率，任務量更大且成本僅為封閉模型的 1/10。
所有性能提升均來自工程優化而非模型重新訓練，調整包括系統提示、工具描述和中間件。

人工智能成為平價市場，少數高端模型仍居頂端

2026-07-08 15:47 UTC+8

AI推理成本分化：普通模型價格走低，前沿模型費用飆升。企業AI支出佔勞動力成本10-20%，但存在效率拐點。開源模型接近前沿水平，成本優勢顯著。

GPT-4級模型推理成本四年內下降55倍，前沿模型價格反升。
市場分裂為平價推理和高端推理，企業支出佔比達10-20%。

記憶在循環中：進程內檢索作為語言代理的擴展工作記憶

2026-07-08 12:00 UTC+8

該研究提出將記憶存儲移入語言代理的推理循環中，在每個步驟讀取和寫入，以克服網絡延遲問題。實驗表明，進程內存儲（約100微秒）可將冗餘動作從7.2/12降至0.0/12，並將召回率從0/5提升至3.6-4.8/5。瓶頸在於嵌入生成而非存儲。

傳統語言代理的記憶查詢受限於網絡延遲（數十至數百毫秒），導致每步操作延遲增加最高83倍。
進程內存儲以約100微秒響應，使記憶成為擴展的工作記憶而非外部工具。

Show HN：如果個人網站變成ChatGPT會怎樣？

2026-07-07 20:42 UTC+8

一位開發者將個人簡歷網站改造為AI聊天界面，訪客可通過對話探索其職業經歷。網站採用Groq進行LLM推理，延遲僅100-200毫秒，並故意限制令牌生成速度以模擬自然對話。後端使用純Swift構建，無客户端JavaScript。

網站通過AI聊天界面呈現簡歷，替代傳統靜態瀏覽
採用Groq實現極低延遲LLM推理，且成本低廉

OpenAI發佈GPT-Realtime-2.1和GPT-Realtime-2.1-mini，用於API中的低延遲語音代理

2026-07-07 12:35 UTC+8

OpenAI在API中新增了兩個Realtime模型：gpt-realtime-2.1和gpt-realtime-2.1-mini。後者是一款針對實時語音的迷你推理模型，定價與之前的gpt-realtime-mini相同。OpenAI還通過改進緩存將p95延遲降低了至少25%。本文介紹了模型的變化、定價對比以及如何通過WebRTC連接。

OpenAI推出gpt-realtime-2.1和gpt-realtime-2.1-mini，後者為低延遲語音推理模型。
定價與之前的mini模型相同，p95延遲降低至少25%。

Compressor V2：三層壓縮技術將LLM智能體成本降低50%

2026-07-06 16:13 UTC+8

Edgee AI發佈Compressor V2，通過三層正交壓縮策略（簡潔輸出、工具表面縮減、工具結果修剪）顯著降低LLM編碼智能體的運行成本。在SWE-bench Lite基準測試中，僅簡潔輸出策略即可實現中位數約30%的成本削減。文章詳細闡述了壓縮的必要性、V1到V2的演進、實驗方法和統計顯著性驗證，展示了壓縮技術在經濟性、延遲、上下文窗口和吞吐量方面的綜合優勢。

Compressor V2包含三種非重疊壓縮策略，分別針對輸出令牌、工具目錄和工具結果。
在編碼任務中，簡潔輸出策略使中位數成本降低約27.5%（約30%），具有統計顯著性（p=0.031）。

分割，快與慢：基於雙路徑處理的實時開放詞彙視頻實例分割

2026-07-02 12:00 UTC+8

本文提出SegFS，一種雙流快慢框架，用於開放詞彙視頻實例分割（OV-VIS）。通過在稀疏關鍵幀上使用開放詞彙對象模型預測實例表示，並將這些表示投影回主幹特徵空間以調節輕量級快速網絡，SegFS在不犧牲準確性的情況下顯著提高了效率。快速分支的延遲比面向移動的MOBIUS模型低14倍，同時保持具有競爭力的分割性能。

SegFS採用雙流快慢架構，在關鍵幀上使用精確的慢路徑，在後續幀上使用高效的快路徑。
通過將實例傳播從對象解碼轉移到特徵空間調節，解耦了多模態語義理解與密集掩碼預測。

擴展熱力學AI模型

2026-07-02 12:00 UTC+8

基於伊辛模型的熱力學計算設備在低功耗AI推理和邊緣計算中展現出巨大潛力，但針對此類硬件的大規模模型訓練方法仍然有限。本研究將高温吉布斯採樣伊辛系統的時間平均行為與神經網絡推理的理論對應關係轉化為一種可擴展的、純反向傳播的算法，用於訓練深度卷積網絡在伊辛機硬件上進行熱力學推理。在CIFAR-10和CIFAR-100數據集上，模型分別達到94.9%和76.0%的準確率。此外，還開發了推理成本與精度之間關係的數學理論，並給出了最優推理調度算法。最後討論了硬件開發的影響和高温熱力學AI模型的未來。

提出了基於反向傳播的可擴展算法，用於訓練伊辛機硬件上的深度卷積網絡。
在CIFAR-10和CIFAR-100上分別達到94.9%和76.0%的準確率。

Hugging Face 與 Cerebras 攜手將 Gemma 4 引入實時語音 AI

2026-07-01 08:00 UTC+8

Hugging Face 與 Cerebras 合作，利用 Gemma 4 模型打造實時語音 AI 系統，通過開放模塊化架構顯著降低延遲，實現更自然的對話體驗。該系統集成 Nvidia 的語音識別、Cerebras 的推理加速和 Alibaba 的語音合成，已在 9000 多台 Reachy Mini 機器人中應用。

Hugging Face 和 Cerebras 推出基於 Gemma 4 的實時語音 AI 演示，延遲極低。
系統採用開放的級聯架構：語音輸入→語音識別→模型推理→語音合成→語音輸出。

RunInfra：將任何開放模型優化至內核，5分鐘部署

2026-07-01 07:48 UTC+8

RunInfra是一個AI推理優化平台，可自動為開放模型選擇最佳的推理引擎、GPU和配置，並提供可部署的堆棧。它通過基準測試和調優，大幅降低延遲、提高吞吐量並降低成本。

RunInfra自動優化開放模型的推理性能，支持vLLM、SGLang、TensorRT-LLM等多種引擎。
平台提供從模型選擇到部署的完整流程，包括量化、內核調優和緩存策略。

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智能編碼基準測試、API定價及成本-性能權衡對比

2026-07-01 05:37 UTC+8

Sonnet 5在SWE-bench Pro、OSWorld-Verified和HLE等基準測試中均優於Sonnet 4.6，接近Opus 4.8。
定價低於Opus 4.8：$2/$10每百萬token（至2026年8月31日），之後為$3/$15。

不要構建路由器。訓練小模型知道何時交給大模型

2026-06-30 23:17 UTC+8

本文介紹了一種兩層級聯方法，其中一個小型專用模型處理絕大多數簡單查詢，並在遇到困難問題時自動調用大型前沿模型。這種方法在保持與全部使用大模型相當的質量的同時，顯著降低了成本和延遲。

使用兩層級聯：小型模型處理大多數簡單查詢，大型模型處理困難的少數查詢，實現成本與質量的平衡。
小型模型經過訓練，能夠在遇到超出其能力範圍的問題時發出‘交給大模型’的工具調用，無需額外路由器。

螢火蟲航空首次在月球軌道運行NVIDIA Jetson

2026-06-29 23:00 UTC+8

螢火蟲航空的藍色幽靈2號任務將在月球軌道上使用NVIDIA Jetson邊緣AI平台，實現直接在太空進行AI推理，大幅減少數據傳輸延遲。該任務搭載Ocula月球成像服務，用於繪製着陸點、探測礦物組成等，支持未來人類和機器人探索。

螢火蟲航空將在藍色幽靈2號任務中首次在月球軌道運行NVIDIA Jetson邊緣AI平台。
Ocula服務利用Jetson在軌處理圖像數據，僅回傳關鍵信息，減少延遲和帶寬需求。

Kog Laneformer 2B：Kog推理引擎背後的延遲優先模型

2026-06-29 16:40 UTC+8

Kog發佈了Laneformer 2B，一個23億參數的指令微調編碼模型，專為高速單請求推理從頭設計。通過將模型架構與推理引擎協同設計，Kog引入了延遲張量並行（DTP）和車道結構Transformer以隱藏通信開銷。該模型在編碼基準上取得競爭性結果（HumanEval+ 45.1%，MBPP+ 51.6%），現已在Hugging Face上開源。

Laneformer 2B是一個23億參數的編碼模型，優化了低延遲推理。
它使用新穎的車道結構架構和延遲張量並行，最小化通信成本。

推理成本

相關主題

推理成本動態

AMD Advancing AI 2026：與AMD的Alan Smith探討CDNA5架構

Induction Labs推出Photon-1：從一次預訓練中模擬桌面、下跳棋並建模枱球物理

InferenceBench：用於AI智能體開放式LLM推理優化的基準測試

DC-Leap：通過草稿引導的連續跳躍解碼實現dLLM的無訓練加速

NASA將谷歌Gemma大語言模型送入軌道

儘早檢測，極少升級：從壓縮比特流中實時檢測AI生成視頻

NEXUS：面向工具使用LLM代理的結構化運行時安全監控

基於Intel TDX的NVIDIA H100機密GPU推理性能基準測試

超越準確率與成本：面向動態工作負載的延遲感知LLM查詢路由

新型可編程光子芯片可控制光的傳播速度

硬件機制動態限制AI性能

使用 NVIDIA srt-slurm、SLURM 配方、參數掃描和帕累託分析驗證分佈式 LLM 服務基準測試

Google Gemini 3.6 Flash 旨在降低企業代理的Token成本

支持本地機器學習的新型智能眼鏡平台

AI代理系統確定性重放框架agrepl

KDnuggets 每週綜述：2026年7月13日周

Meta 的 Muse Spark 1.1 現已在 Databricks 上可用，完全由 Unity AI Gateway 管理

Polestar：面向擴散大語言模型高效推理的漂移感知緩存校準與令牌提交

Alphabet股價因Gemini 3.5 Pro延遲發佈而下跌

Kimi K3：我們仍能從鵜鶘基準中學到什麼

3DGS驅動的動態視角與振動觸覺框架：用於水下遙操作，經功能性近紅外光譜驗證

通過知識蒸餾將LLM轉化為高效交叉編碼器用於RAG重排序

操作系統 -> 生產調查

生產中減少LLM延遲和推理成本的12種方法

工作負載驅動的設備端實時字幕翻譯優化

閉環控制：規則對齊的小語言模型與多智能體自我修正

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智能編碼基準測試、API定價及成本-性能權衡對比

Director：通過在線主動專家放置加速分佈式MoE服務

KV-PRM：通過KV緩存傳遞實現高效過程獎勵建模，用於多智能體測試時擴展

亨利·沙因公司利用Amazon SageMaker AI實現牙科影像實時驗證

在SageMaker HyperPod上實現LLM推理的分離式預填充和解碼

Infinity-Parser2 技術報告發布：多模態文檔解析新範式

快速令牌生成成為關鍵差異點，異構推理逐漸普及

OpenAI發佈最新ChatGPT模型，此前因白宮網絡安全擔憂而延遲

指紋，而非藍圖：位置編碼如何設置注意力的默認譜代數

LangChain與NVIDIA聯合發佈NemoClaw深度代理藍圖

NVIDIA Nemotron 藉助 LangChain 深度代理框架實現基準領先性能

人工智能成為平價市場，少數高端模型仍居頂端

記憶在循環中：進程內檢索作為語言代理的擴展工作記憶

Show HN：如果個人網站變成ChatGPT會怎樣？

OpenAI發佈GPT-Realtime-2.1和GPT-Realtime-2.1-mini，用於API中的低延遲語音代理

Compressor V2：三層壓縮技術將LLM智能體成本降低50%

分割，快與慢：基於雙路徑處理的實時開放詞彙視頻實例分割

擴展熱力學AI模型

Hugging Face 與 Cerebras 攜手將 Gemma 4 引入實時語音 AI

RunInfra：將任何開放模型優化至內核，5分鐘部署

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智能編碼基準測試、API定價及成本-性能權衡對比

不要構建路由器。訓練小模型知道何時交給大模型

螢火蟲航空首次在月球軌道運行NVIDIA Jetson

Kog Laneformer 2B：Kog推理引擎背後的延遲優先模型

更多增長標籤

AI 編程

MCP

開源模型

Agent 框架

中國 AI

GPU 基礎設施

模型定價

DeepSeek

Qwen