AI News HubLIVE

推理成本動態

Zyphra發佈Zamba2-VL:混合Mamba2-Transformer視覺語言模型,首Token延遲降低約一個數量級

Zyphra發佈了Zamba2-VL系列開放視覺語言模型,提供1.2B、2.7B和7B三個參數版本。模型採用混合Mamba2狀態空間與Transformer骨幹網絡,基於Apache 2.0許可發佈。在保持與同類Transformer VLM競爭力相當的同時,將首Token延遲降低了約一個數量級。

  • Zamba2-VL系列模型參數規模分別為1.2B、2.7B和7B,全部開源。
  • 採用Mamba2狀態空間層與共享Transformer塊的混合架構,實現線性時間預填充。
站內正文

Arbor:樹搜索作為自主代理的認知層

Arbor是一個多代理框架,將結構化樹搜索作為自主代理的認知層,用於大規模有狀態動作空間。在全棧LLM推理優化中,相比供應商優化基線,實現了高達193%的吞吐量-延遲帕累託改進,並且硬件無關、可重複。

  • Arbor引入樹搜索作為共享工作記憶,跨代理協同優化。
  • 在全棧LLM推理上實現193%性能提升,且硬件無關。
站內正文

為擴散語言模型啓用共享前綴的KV緩存

擴散語言模型(DLM)中的雙向注意力機制導致傳統KV緩存方法失效,模型精度近乎歸零。本文提出雙向前綴緩存(bicache),通過動態識別安全層深度重用共享前綴KV,實現36.3%-98.3%的吞吐量提升,且精度下降僅0-1.8%。

  • 現有大語言模型的KV緩存技術因DLM的雙向注意力機制導致共享前綴KV損壞,精度崩潰。
  • Bicache通過分析發現淺層共享前綴KV穩定可重用,並根據請求中共享前綴比例動態確定安全層深度。
站內正文

加速傅里葉SAT(AFSAT):完全實現基於GPU的對稱偽布爾SAT求解器

本文介紹加速傅里葉SAT(AFSAT),一種基於連續局部搜索(CLS)的GPU加速偽布爾可滿足性求解器。AFSAT將概念驗證方法FastFourierSAT發展為完全工程化的求解器,支持任意異構對稱約束類型和長度的混合。利用JAX編譯器,通過純函數組合、自動向量化、自動微分和即時編譯實現大規模並行CLS。與概念驗證相比,AFSAT在數值穩定性、運行時性能和內存效率上顯著提升,通過解決內存延遲和浮點表示限制,以及利用自動並行化和緊湊表示實現。定製的離散傅里葉變換部分解決了浮點限制,通過JAX數組分片實現多加速器近線性擴展。

  • AFSAT是一種基於連續局部搜索的GPU加速偽布爾SAT求解器,將FastFourierSAT發展為完整工程實現。
  • 利用JAX編譯器實現純函數組合、自動向量化、自動微分和JIT編譯,支持大規模並行批處理。
站內正文

Roblox發佈了遊戲界最大的AI世界模型。所有人都討厭它

Roblox收購Morpheus AI併成立Roblox Labs,隨後悄然發佈世界模型遊戲World Research Station,但因性能極差、延遲高、圖像故障等問題僅獲得3%的好評率。文章批評Roblox急於推出不成熟的技術,可能損害整個領域的發展。

  • Roblox收購Morpheus AI併成立Roblox Labs,展示AI世界模型。
  • 悄然發佈的World Research Station遊戲體驗極差,評分僅3%。
站內正文

ToTra – 開源LLM網關,符合GDPR和歐盟AI法案

ToTra 是一個開源 AI 網關和治理平台,內置配額管理、PII 屏蔽、成本追蹤和合規(GDPR、歐盟 AI 法案)功能。它使用 Go 編寫,延遲增加不到 2 毫秒,支持多種 LLM 提供商,無需更改代碼即可接入。

  • 按用户和團隊實施硬預算限制的配額管理
  • 在邊緣掃描18種語言組的PII屏蔽
站內正文

ZeroGPU:AI推理的算力高效層

ZeroGPU是一個為AI推理設計的算力高效層,旨在優化計算資源使用,降低推理成本,提升效率。

  • ZeroGPU專注於AI推理的算力優化
  • 提供高效的計算層以降低推理成本
站內正文

LANTERN:用於長上下文LLM對話的分層歸檔與時間情景檢索網絡

本文提出LANTERN,一種輕量級記憶層,通過零LLM調用和低延遲的混合檢索,在對話歷史壓縮後恢復關鍵細節。實驗表明,LANTERN在恢復丟失事實方面優於MemGPT,並且將通用LLM的準確率平均提高8.4個百分點。

  • LANTERN是一種零LLM調用的記憶層,每輪對話延遲小於25毫秒,可恢復對話中丟失的細節。
  • 在94個真實多輪對話中,LANTERN-Rerank恢復了78.3%的可驗證事實,優於MemGPT的72.4%。
站內正文

Nemotron 3.5 內容安全:面向全球企業 AI 的可定製多模態安全模型

NVIDIA 發佈 Nemotron 3.5 Content Safety,這是一個統一的、支持多模態輸入、多語言覆蓋、自定義企業策略執行和可審計推理的內容安全模型。該模型基於 Google Gemma 3 4B IT 構建,通過 LoRA 適配器進行微調,支持 12 種語言的顯式訓練和約 140 種語言的零樣本泛化。它引入了自定義策略執行(通過自然語言策略規範)和推理跟蹤(THINK 模式)功能,可提供可審計的逐步推理。該模型在多項多語言和多模態安全基準測試中平均準確率約為 85%,同時保持了緊湊的 4B 參數大小和低延遲特性。NVIDIA 還發布了配套的安全數據集,包含多模態、多語言的安全推理跟蹤數據。

  • Nemotron 3.5 統一了多模態輸入、多語言覆蓋、自定義策略和可審計推理。
  • 支持 12 種語言的顯式訓練,並通過 Gemma 3 基座模型零樣本泛化至約 140 種語言。
站內正文

Mate Security的Asaf Wiener讓每個後端工程師都成為模型路由器。他是對的。

Mate Security的CEO Asaf Wiener在面對高昂的AI推理成本時,沒有選擇簡單削減開支,而是徹底重構了公司的技術結構,讓每個後端工程師都負責自己工作負載的模型選擇、評估和路由。這種將成本可見性下放到工作負載所有者的做法,使公司在保持質量的同時優化成本,甚至發現開源模型在某些任務上優於前沿API。Wiener強調,AI原生公司的競爭優勢在於能夠迅速切換到當天最好的模型,而這需要一種不接受“AI拒絕者”的快速執行文化。

  • Mate Security的CEO因AI推理成本過高而面臨現金流危機,隨後將成本分解為約10個子項以進行精細管理。
  • 每個後端工程師負責自己工作負載的模型評估和路由,質量與成本掛鈎。
站內正文

3倍更快搜索:使用Instructed-Retriever-1進行並行測試時擴展

Databricks宣佈Agent Bricks知識助手重大更新,通過Instructed-Retriever-1模型實現搜索速度提升3倍以上,答案生成時間減半,首Token時間降至約2秒。該模型採用並行測試時擴展,同時進行查詢生成和重排序,在不犧牲質量的前提下顯著降低延遲。

  • Instructed-Retriever-1將搜索速度提升3倍以上,答案生成時間減半
  • 通過並行化查詢生成和重排序,實現低延遲高精度檢索
站內正文

如何針對您的語言、領域或口音微調 Nemotron 3.5 ASR

NVIDIA 發佈了 Nemotron 3.5 ASR,這是一個 600M 參數的流式多語言語音轉文本模型,支持 40 種語言區域,具有低延遲、高準確度,並內置標點和大小寫處理。文章詳細介紹瞭如何通過微調將該模型適應特定語言、領域或口音,並以希臘語和保加利亞語為例展示了顯著的詞錯誤率降低。

  • Nemotron 3.5 ASR 是單檢查點、流式多語言模型,支持 40 種語言區域。
  • 採用 Cache-Aware FastConformer-RNNT 架構,實現低延遲高準確度。
站內正文

OpenJarvis:首個完全本地運行的AI智能體框架,工具、記憶與學習皆在設備端

斯坦福大學和Lambda Labs發佈了OpenJarvis,一個開源框架,可在設備上完全運行推理、智能體、記憶和學習。該框架將個人AI系統分解為五個可組合的原語,在基準測試中平均僅落後最佳雲模型3.2個百分點,而邊際API成本降低約800倍,延遲降低約4倍。

  • OpenJarvis是Apache 2.0許可的開源框架,支持在設備上運行整個AI智能體棧。
  • 採用五原語架構(智能、引擎、智能體、工具與記憶、學習),通過TOML規範文件組合。
站內正文

使用DLAMI和DLC上的SOCI索引減少容器冷啓動時間

AWS Deep Learning AMI和Deep Learning Containers現已支持SOCI快照器和索引,通過選擇性文件下載(延遲加載)和並行拉取模式,顯著縮短容器啓動時間。本文介紹了SOCI的工作原理、適用場景以及性能基準測試結果。

  • SOCI(Seekable OCI)通過層索引實現懶加載,容器僅需下載必要文件即可啓動,冷啓動時間從6分59秒降至21秒。
  • AWS DLAMI和DLC提供標準Docker拉取、SOCI並行拉取和SOCI懶加載三種模式,用户可根據實例規格和網絡帶寬選擇。
站內正文

Marvell推出102.4 Tbps交換機芯片,進軍AI網絡市場

Marvell在Computex 2026上發佈Teralynx T100交換機芯片,專為AI基礎設施設計,帶寬達102.4 Tbps,功耗低於1000W,比競品低25%。採用3nm工藝,支持512端口擴展,可整合網絡層級降低延遲。Nvidia CEO黃仁勳盛讚其為下一個萬億美元公司,帶動股價大漲24%。芯片將於本季度開始提供樣品。

  • Marvell發佈Teralynx T100交換機芯片,帶寬102.4 Tbps,功耗低於1000W
  • 相比競品功耗降低25%,延遲更低,適用於AI訓練和推理
站內正文

英偉達Groq 3:AI推理時代(可能)來臨

英偉達發佈Groq 3語言處理單元(LPU),專為AI推理設計,採用SRAM內存架構實現極低延遲。該芯片基於從Groq公司授權的技術,與Vera Rubin GPU配合使用,通過推理分離技術優化性能,標誌着AI推理市場進入新階段。

  • 英偉達推出Groq 3 LPU,這是其首款專為AI推理設計的芯片。
  • Groq 3採用片上SRAM而非高帶寬內存,實現150 TB/s的內存帶寬,延遲極低。
站內正文

Scikit-LLM 與傳統文本分類器:何時應使用 LLM?

本文比較了三種文本分類方法:TF-IDF 結合邏輯迴歸、零樣本 BART 以及使用 Groq LLM 的 Scikit-LLM。在一個合成客户支持數據集上,Scikit-LLM 準確率最高(87%),延遲低於 BART,特別適用於數據量小且需要深度語言理解的任務。

  • TF-IDF + 邏輯迴歸最快但準確率最低(約 53%)
  • 零樣本 BART 較慢,準確率中等(約 67%)
站內正文

序列知識 #870:液態模型與後Transformer架構探索

本文探討了Transformer架構的侷限性,以及液態模型作為一種有前景的替代方案,後者更適用於低延遲、隱私保護的端側智能場景。

  • Transformer架構雖主導AI,但全局注意力機制導致推理時內存和計算成本高昂。
  • 液態模型通過動力學方法替代注意力機制,為實時、低功耗設備提供可能。
站內正文

MindGames Arena泛化賽道:In2AI解決方案採用延遲逐步獎勵歸因

本文提出了一種延遲逐步獎勵歸因方法,結合資格門控、異步rollout生成等,使8B參數開源模型在NeurIPS 2025 MindGames Arena基準測試中擊敗GPT-5等大型系統,贏得雙賽道第一。

  • 提出延遲逐步獎勵歸因與資格門控
  • 使用vLLM連續批處理異步生成rollout
站內正文

ZAPS-DA:用於強化學習連續控制的零相位動作策略平滑與解耦執行器

ZAPS-DA是一種新框架,通過解耦執行器與零相位濾波,在不引入相位延遲和後處理的情況下,顯著降低強化學習連續控制策略的高頻動作抖動,在駕駛模擬器中實現14-21倍的轉向抖動減少,且任務成功率幾乎不變。

  • ZAPS-DA使用一個獨立解耦的執行器,通過監督學習模仿零相位濾波後的目標,消除動作抖動。
  • 該方法無需推理時的濾波器或動作歷史輸入,實現了非因果濾波器的因果蒸餾。
站內正文

AI硬件市場分析:內存瓶頸與各層解決方案

本文深入探討了AI硬件市場中的內存瓶頸問題。GPU的張量運算速度遠超內存帶寬,導致解碼階段大部分計算單元閒置。文章分析了芯片層(Groq、Cerebras等)、推理引擎層(RadixArk、Inferact)、KV緩存基礎設施(TensorMesh/LMCache)以及封裝互連層(CoWoS)的不同解決方案,並指出持久公司需要把握無法被棧中其他部分內部化的控制點。

  • 現代GPU在LLM推理中,內存帶寬成為瓶頸,計算單元大量閒置
  • 各公司從芯片、引擎、緩存、封裝等不同層面解決內存問題
站內正文

Amazon SageMaker AI LLM推理的全面可觀測性:從GPU利用率到LLM質量

本演示展示了使用Amazon Managed Grafana儀表板的全面可觀測性解決方案,為部署在Amazon SageMaker AI端點上的LLM提供質量和數量兩個維度的整體視圖。該方案涵蓋基礎設施指標(如GPU利用率、延遲、成本)和LLM質量指標(如相關性、安全性、語氣),幫助團隊檢測模型退化、優化資源並控制成本。

  • 可觀測性需要同時監控LLM服務基礎設施(數量)和LLM輸出質量(質量),兩者相互依賴。
  • 亞馬遜CloudWatch集中存儲增強指標(來自SageMaker推理組件)和自定義質量指標。
站內正文

Overline

Overline 是一款 Chrome 擴展,可為任何瀏覽器視頻提供實時 AI 字幕和實時翻譯,延遲低於一秒,無需字幕。

  • 為瀏覽器視頻提供實時 AI 字幕和實時翻譯
  • 支持 YouTube、Netflix、Twitch、Zoom 等平台
站內正文

Together AI如何構建全球最快的語音轉文本技術棧

Together AI通過將語音識別視為端到端系統問題,而非單純的GPU推理問題,在Artificial Analysis榜單上實現了最快的語音轉文本速度。本文詳細介紹了其優化策略:包括針對真實音頻形狀的TensorRT多配置文件引擎、條件CUDA圖消除CPU往返、共享內存減少數據拷貝、事件驅動I/O處理流式傳輸,以及通過gc.freeze()消除垃圾回收尾延遲。

  • Together AI通過全路徑系統優化,而非僅關注GPU推理,實現了最快的語音轉文本性能。
  • 核心技術包括TensorRT多配置文件編碼器、條件CUDA圖解碼器、零拷貝共享內存和事件驅動I/O。
站內正文

Perplexity AI 開源Unigram分詞器,p50延遲比Hugging Face tokenizers crate低5倍

Perplexity AI 開源了用Rust重寫的Unigram分詞器,實現了比Hugging Face tokenizers crate低5倍的p50延遲,並將生產環境CPU利用率降低了5-6倍。優化包括雙數組trie、位圖打包和大頁面支持。

  • Perplexity AI 用Rust重寫了Unigram分詞器,p50延遲比Hugging Face tokenizers crate降低5倍。
  • 三項優化:雙數組trie、位圖和緩存行打包、大頁面支持。
站內正文

$E^3$-Agent:面向邊緣生成式推理的可執行與演化式資源管理智能體

本文提出$E^3$-Agent,一種面向邊緣AIGC資源管理的可執行與演化式智能體。該智能體將毫秒級的路由決策與事件驅動的LLM元控制器分離,通過在線學習適應未知且時變的服務時間映射。在模擬實驗中,$E^3$-Agent將平均延遲降低65%-73%,並有效抑制了語義退化下的卡頓率。

  • 邊緣生成式推理面臨設備性能未知和動態變化挑戰。
  • $E^3$-Agent採用雙路徑架構:快速路由器+慢速LLM元控制器。
站內正文

OpenJarvis v1.0 發佈:支持 Ollama 的本地優先個人 AI 框架

OpenJarvis 是一個開源框架,用於構建運行在本地硬件上的個人 AI 代理。由斯坦福大學 Hazy Research 和 Scaling Intelligence 實驗室開發,v1.0 版本現已集成 Ollama,實現本地優先、雲端可選,並跟蹤能耗、成本和延遲。

  • OpenJarvis v1.0 現已發佈,支持 Ollama。
  • 框架由斯坦福大學研究團隊開發,專注於高效本地 AI。
站內正文

AERIC:用於隱式有害對話的預期性隱藏狀態監控

AERIC 是一種輕量級安全監控器,通過讀取解碼過程中的隱藏狀態來提前檢測隱式有害內容,無需額外前向傳播。它僅含 387 個可訓練參數,在多個基準測試上優於大型模型,且延遲增加僅 2.34%。

  • AERIC 通過分析模型內部隱藏狀態提前預測有害內容。
  • 結合短期危害預測、支持敏感抑制和提示條件殘差評分。
站內正文

邁向可靠的LLM驅動代理工作流設計:優化延遲-可靠性-成本權衡

本文分析了大型語言模型(LLM)驅動的代理工作流中延遲、可靠性和成本之間的基本權衡,提出了一種參數化指數可靠性函數來建模LLM代理的計算投入與輸出質量關係,並推導了最優令牌分配策略(注水算法)以及影子價格表徵。

  • LLM代理工作流面臨延遲、可靠性和成本的三難權衡。
  • 提出基於指數可靠性函數的性能模型,量化計算投入與輸出質量的關係。
站內正文

教皇利奧譴責推動人工智能崛起的“權力文化”

教皇利奧發佈通諭,呼籲對人工智能進行“解除武裝”,並警告該技術必須受到最嚴格的倫理約束。他還為教會長期延遲譴責奴隸制道歉,提及數字經濟帶來的“新形式奴隸制”。

  • 教皇利奧譴責驅動人工智能快速發展的‘權力文化’
  • 要求對人工智能進行‘解除武裝’並施加最嚴格的倫理限制
站內正文

GEM-4D:用於機器人操作的幾何增強視頻世界模型

GEM-4D是一種幾何增強的視頻世界模型,通過注入密集的4D對應監督來提升機器人的操作能力。該模型在訓練時從預訓練的幾何基礎模型中提取知識,從而同時捕捉外觀和幾何結構,且不增加推理成本。此外,引入逆向動力學模塊,將一致的視頻序列轉化為可執行的機器人軌跡。實驗顯示,GEM-4D在視頻預測和幾何一致性上達到最優,並將真實世界操作成功率從61%提升至81%。

  • GEM-4D通過密集4D對應監督增強視頻世界模型的幾何一致性。
  • 該模型保持單流架構,無需額外推理成本。
站內正文

潛在緩存流:無需文本的模型間通信

潛在緩存流(LCF)通過聯合翻譯和壓縮鍵值對,將適配器大小降至Cache-to-Cache(C2C)的4%,並支持上下文不同的通信場景。實驗表明,在共享上下文中,13MB的LCF適配器比956MB的C2C更準確;在不同上下文中,LCF比基於文本的通信準確率高23%、速度快8.5倍。

  • LCF聯合翻譯和壓縮鍵值,適配器大小僅為C2C的4%。
  • 適配器傳輸新信息摘要,適用於上下文不同的場景。
站內正文

認知架構AI加權記憶與可證偽的連續性度量

PHI // DRIFT是一種認知中間件架構,旨在解決大語言模型缺乏持久內部狀態的問題。它引入了決策記憶單元(DMU)進行加權記憶檢索,持久性-具身-漂移指數(PEDI)用於衡量行為連續性,穩態調節內部狀態變量,安全防禦以及邏輯鏈推理。該系統在無GPU的消費級硬件上開發,實現了比僅餘弦相似度檢索多14.8%的上下文注入和45.4%的延遲改進。

  • DMU通過多因素記憶評分取代餘弦相似度,上下文注入提升14.8%。
  • PEDI為跨上下文重置的行為連續性提供了可證偽的度量。
站內正文

Databricks為開源大語言模型提供提示緩存,大幅加速推理性能

Databricks將提示緩存功能擴展至開源模型,無需配置即可降低延遲、提升吞吐量。在生產環境中,GPT-OSS模型的吞吐量提升2.5倍,P50延遲降低3倍。該功能適用於批量推理、按token付費和預配置工作負載,支持GPT-OSS、Gemma 3、Llama 3等多個開源模型。

  • Databricks為開源模型(如GPT-OSS、Gemma 3、Llama 3等)提供自動提示緩存,無需用户配置。
  • 緩存命中時跳過預填充階段,顯著降低延遲並提高吞吐量。
站內正文

物理AI的未來不在於更智能的機器人,而在於更智能的界面

Wetour Robotics認為,物理AI的下一個前沿不是更智能的機器人,而是將人體視為計算網絡中的一流節點的更智能界面。其空間意圖融合平台Orchestra結合空間位置、視覺背景和手勢意圖,實現低延遲、免提控制連接設備。系統使用邊緣AI和表面肌電信號(sEMG)進行動作前意圖感知,解決了傳統界面在現實場景中的失效問題。文章討論了其架構、權衡及對領域的影響。

  • Wetour Robotics的空間意圖融合技術整合空間位置、視覺背景和手勢意圖,實現免提設備控制。
  • 其Orchestra平台使用NVIDIA Jetson Orin Nano Super邊緣AI和sEMG,實現亞100毫秒延遲並預測用户意圖。
站內正文

Modal C輪融資:以46.5億美元估值籌集3.55億美元

Modal 公司宣佈完成3.55億美元C輪融資,估值達46.5億美元,由 General Catalyst 和 Redpoint 領投。自去年9月以來,公司收入增長五倍,年化收入突破3億美元。Modal 是為AI工作負載量身打造的雲平台,提供低延遲彈性推理、動態智能體運行時、強化學習和大規模批處理等原生能力。本輪融資將用於進一步投資低延遲推理、訓練-推理閉環以及智能體計算層。

  • Modal 以46.5億美元估值籌集3.55億美元C輪融資,General Catalyst 和 Redpoint 領投,現有投資者全部跟投。
  • 自2025年9月以來,公司收入增長五倍,年化收入超過3億美元。
站內正文

阿里巴巴Qwen團隊推出Qwen3.5-LiveTranslate-Flash:支持60種語言、延遲僅2.8秒的實時多模態翻譯模型

阿里巴巴Qwen團隊發佈了Qwen3.5-LiveTranslate-Flash,這是一款實時多模態翻譯模型,可同時處理音頻和視頻。該模型支持60種輸入語言,並以2.8秒的延遲輸出29種語言的語音。相比上一版本,新增了實時説話人聲音克隆、通過唇形和屏幕文本增強視覺理解,以及動態關鍵詞配置以處理領域特定術語。在FLEURS和CoVoST2基準測試中,該模型表現優於主要商業替代品。該模型通過阿里雲百鍊平台以API形式提供,使用WebSocket協議。

  • 支持60種輸入語言和29種語音輸出語言,延遲低至2.8秒。
  • 首次將視覺信息(唇形、手勢、屏幕文字)作為核心輸入,提升嘈雜環境下的翻譯準確度。
站內正文

Gemini 3.5 Flash:前沿智能與速度的結合

Google發佈了Gemini 3.5 Flash模型,它結合了前沿智能與高速性能,支持代理工作流、編程和多模態推理,同時保持低延遲。本文通過原型設計、複雜問題處理和視覺生成等實際測試,展示了其出色的響應速度和實用能力。

  • Gemini 3.5 Flash在編程和代理任務上超越Gemini 3.1 Pro
  • 擁有100萬token上下文窗口和65k最大輸出token,速度提升4倍
站內正文

COBALT:通過基於雲的智能手機遠程操作實現機器人學習眾包

COBALT 是一個新的遠程操作平台,利用智能手機等常見設備,實現機器人模仿學習所需的高質量示範數據的眾包收集。它支持併發多用户控制,降低遠程操作成本,並實現低延遲。在九個國家的試點數據集表明,基於手機的遠程操作與專用硬件相當甚至更優。

  • COBALT 利用向量化環境,支持單個 GPU 上多用户併發遠程操作,大幅降低成本。
  • 操作員可隨時隨地使用智能手機、VR頭顯或3D鼠標,每個GPU最多8個併發用户,端到端延遲低於100毫秒。
站內正文

UCCI:校準不確定性實現成本最優的LLM級聯路由

UCCI是一種校準優先的路由器,通過等滲迴歸將token級邊際不確定性映射為每個查詢的錯誤概率,並通過約束成本最小化選擇升級閾值。在NER生產工作負載上,UCCI以micro-F1=0.91將推理成本降低31%,並將ECE從0.12降至0.03。

  • UCCI使用等滲迴歸校準不確定性,無需每個工作負載的閾值調整。
  • 在75,000個NER查詢的生產環境中,成本降低31%,性能保持高水準。
站內正文

文檔AI生產化:面向OCR與LLM管線的微服務架構

本文提出一種微服務架構,將分類、光學字符識別(OCR)和大語言模型結構化字段提取管線封裝在一起,並分享了每小時處理數千份多頁文檔的生產經驗。關鍵設計包括混合分類、GPU與CPU分離、異步I/O處理及獨立水平擴展。批處理分析揭示兩個意外發現:OCR主導端到端延遲,系統併發由共享GPU推理容量而非工作進程數決定。

  • 提出將OCR與LLM結合的微服務架構用於生產級文檔理解
  • 核心設計:混合分類、GPU/CPU分離、異步處理、獨立水平擴展
站內正文

使用Spark實時模式與Lakebase構建實時欺詐檢測

傳統的欺詐檢測系統因依賴批量處理或複雜的流式引擎而存在檢測延遲。Databricks推出了Spark實時模式(RTM)和Lakebase,使數據團隊能夠在統一平台上構建端到端的實時欺詐檢測工作流,實現毫秒級交易處理、低延遲機器學習模型評分和可解釋的欺詐分數,無需外部基礎設施。本文介紹了一個開源解決方案加速器,包含四個漸進步驟:快速體驗RTM、構建生產級欺詐檢測管道、升級到機器學習模型、以及實時監控儀表板。

  • Spark實時模式(RTM)實現亞秒級流處理,速度比Flink快92%,且無需額外運維複雜度。
  • Lakebase作為託管PostgreSQL服務,提供亞毫秒級讀取,用於實時特徵服務。
站內正文

多模態語言模型需要多少視覺標記?使用F^3A擴展視覺標記剪枝

隨着多模態模型規模的增長,向語言骨幹網絡提供的視覺標記序列越來越長,導致推理成本上升。本文提出了一個基本問題:實際需要多少視覺標記,以及在固定預算下如何分配?現有免訓練剪枝方法使用一次性代理,但作者認為視覺標記剪枝應視為任務條件證據搜索。他們提出了F^3A,一種在語言模型消費圖像標記之前運行的免訓練路由器,通過輕量級問題條件線索、凍結稀疏感知頭匹配以及粗證據定位、局部細化、覆蓋保持競爭和未覆蓋區域恢復來分配固定預算。F^3A無需模型訓練或額外LLM前向傳播,保留了原有的多模態提示和推斷流程。

  • 多模態語言模型使用越來越長的視覺標記序列,但推理成本成為瓶頸。
  • 現有免訓練剪枝方法使用一次性代理,效果有限。
站內正文

TTE-Flash:通過思考-然後-嵌入令牌加速基於推理的多模態表示

最新研究表明,通用多模態嵌入(UME)從鏈式思維(CoT)推理中獲益顯著,但生成顯式CoT軌跡的計算開銷過大。本文提出用潛在思維令牌替代顯式CoT,這些令牌作為潛在變量可生成顯式CoT軌跡作為觀測變量。通過CoT生成損失優化思維令牌,再通過對比損失優化嵌入令牌,實現了恆定推理成本下的高性能、推理感知表示。研究探討了兩種關鍵架構設計,並推出了TTE-Flash-2B模型,在MMEB-v2基準上超越顯式CoT對應模型,同時思維令牌可文本和視覺解釋。此外,在15個視頻數據集上的零樣本評估顯示,隨着思維令牌數量增加呈現擴展行為,並啓發了基於任務需求的自適應思維預算分配試點研究。

  • 引入潛在思維令牌替代顯式CoT推理,大幅降低計算成本
  • TTE-Flash-2B在MMEB-v2基準上優於顯式CoT模型
站內正文

略讀:用於快速高效網絡代理的投機執行框架

Skim是一種投機執行框架,利用網站的可預測結構繞過重量級組件,將成本降低1.9倍、延遲降低33.4%,且不損失準確性。

  • Skim通過離線分析捕獲網站的URL模式、答案格式和任務軌跡映射。
  • 運行時使用模板匹配和輕量級模型快速生成結果,僅在有誤時回退到完整代理。
站內正文

EpiCache:面向資源受限環境下的長期對話的片段式KV緩存管理

現代大語言模型(LLM)可處理百萬級token的上下文,但鍵值(KV)緩存隨對話歷史線性增長,導致內存不足。現有壓縮方法多在處理完整個上下文後才驅逐緩存,峯值內存不受控,且查詢依賴的驅逐會窄化緩存語義。本文提出EpiCache,一種免訓練的KV緩存管理框架,通過分塊預填充限制緩存增長,並通過片段式KV壓縮保留主題相關上下文。在三個基準測試上,EpiCache準確率提升高達30%,在4-6倍壓縮下接近全緩存準確率,延遲和峯值內存分別降低2.4倍和3.7倍。

  • EpiCache是一種免訓練的KV緩存管理框架,適用於固定內存預算下的長對話問答。
  • 通過分塊預填充和片段式KV壓縮,EpiCache在保留主題上下文的同時限制緩存增長。
站內正文

大規模推理基準測試:編碼智能體

在編碼代理生產負載下,Together Inference Engine 相比 TensorRT-LLM 每秒令牌數提升 31%,飽和時首令牌延遲提升 2 倍,成本比 Claude Opus 4.6 低 76%。

  • 實際編碼代理工作負載的推理基準測試,重點模擬高併發長上下文場景。
  • Together Inference Engine 在 4 塊 B200 GPU 上實現 31% 更高的 TPS 和更低的 TTFT。
站內正文

NVIDIA CEO黃仁勳在戴爾科技世界大會上表示:“需求呈拋物線式增長,完全呈拋物線式增長”

在戴爾科技世界大會上,戴爾和NVIDIA宣佈了新一代AI基礎設施,包括基於NVIDIA Vera Rubin NVL72的Dell PowerEdge XE9812,可將每個token的推理成本降低10倍。戴爾CEO邁克爾·戴爾表示,全球AI基礎設施支出到2030年可能達到3-4萬億美元,代幣消耗量增長3400%。NVIDIA CEO黃仁勳強調需求呈拋物線式增長。企業AI已從試點轉向大規模代理AI和推理部署。戴爾AI工廠與NVIDIA合作,提供從桌面到數據中心的全面AI解決方案,包括保密計算和開放模型支持。

  • 戴爾和NVIDIA推出基於Vera Rubin NVL72的新服務器,推理成本降低10倍。
  • 戴爾CEO預測AI基礎設施支出將達到數萬億美元。
站內正文

使用llmcompressor對指令調優的LLM進行FP8、GPTQ和SmoothQuant量化的編碼實現與基準測試

本教程展示瞭如何使用llmcompressor庫對指令調優的語言模型應用訓練後量化。它比較了FP8動態量化、GPTQ W4A16以及SmoothQuant結合GPTQ W8A8,對每種方法進行了磁盤大小、延遲、吞吐量、困惑度和輸出質量的基準測試。文章提供了可複用的Colab代碼和壓縮權衡的見解。

  • 訓練後量化可以顯著減小模型大小並提高推理速度。
  • FP8動態量化提供了一種快速、無需數據的壓縮方法,質量損失極小。
站內正文

一個廉價修復方案,每年為AI節省4億美元,並讓40億人接入網絡

Codec是一種新型協議,通過在網絡傳輸中保持令牌ID格式,避免反覆的解令牌化和重新令牌化,從而大幅減少數據量、降低延遲和成本。它有望每年為全球AI行業節省約4億美元,並使約50億用户能夠在低速、昂貴的網絡上使用AI。

  • Codec將令牌ID作為端到端傳輸格式,取代傳統的JSON-SSE,減少16到1700倍的數據傳輸量。
  • 該技術可降低雲出口費用、GPU阻塞請求成本和衞星網絡費用,每年節省約4億美元。
站內正文

更多增長標籤

推理成本 AI News | AI News Hub