GPU 基礎設施 AI News

過去五年，Alphabet、亞馬遜、Meta、微軟和甲骨文這五大美國科技公司為擴建AI數據中心，債務總額增加了約3500億美元。儘管投資者對AI前景看好，但亞馬遜本週250億美元的債券發行遇冷，顯示市場對鉅額投資的擔憂。甲骨文因AI支出增加被標普下調評級，而英特爾因債務和戰略失誤陷入困境。大型雲服務商今年計劃投入高達7250億美元，主要投向數據中心和英偉達芯片。

五大科技公司債務五年翻倍，總額增加3500億美元
亞馬遜250億美元債券發行遇冷，反映市場對AI投資回報的疑慮

NVIDIA 基於 Tile 的 GPU 編程編碼指南：從 cuTile 和 Triton 內核到 Flash Attention

2026-07-12 08:01 UTC+8

本教程通過 TileGym 探索 NVIDIA 的基於 tile 的 GPU 編程，構建一個可在不同硬件上運行的 Colab 工作流程。我們探測 CUDA 環境，嘗試真實的 cuTile 後端，並在標準 Colab GPU 缺乏 cuTile 堆棧時回退到 Triton。我們學習核心 tile 思想：對整個數據塊進行操作，而不是單個線程，然後加載、計算和存儲它們。我們實現了向量加法、融合 GELU、行級 softmax、分塊矩陣乘法和 flash attention，並將每個結果與 PyTorch 進行比較。

介紹 NVIDIA 的 tile 編程模型，將操作應用於數據塊而非單個線程。
提供可運行的 Colab 腳本，支持 cuTile 和 Triton 後端。

Mesh LLM：基於iroh的分佈式AI計算

2026-07-12 06:38 UTC+8

Mesh LLM是一種新型分佈式AI計算系統，通過iroh網絡將多台機器的GPU和內存池化，提供一個OpenAI兼容的API。用户可以在本地或對等節點上運行模型，甚至將大型模型拆分到多台機器上。它解決了AI計算成本高、缺乏控制的問題，支持私有部署和公共網格，無需依賴中央服務器。

Mesh LLM將多台機器的GPU資源池化，提供統一的OpenAI兼容API
支持本地運行、路由到對等節點或拆分模型跨多台機器

LiteRT.js：谷歌高性能網頁AI推理庫

2026-07-11 22:32 UTC+8

谷歌發佈LiteRT.js，將高性能AI推理帶入瀏覽器，支持CPU、GPU和NPU硬件加速，性能比現有方案提升最多3倍，並集成YOLO等模型。

LiteRT.js是LiteRT的JavaScript綁定，用於在瀏覽器中直接運行AI模型。
通過WebAssembly實現原生性能，支持XNNPACK（CPU）、WebGPU（GPU）和WebNN（NPU）加速。

如何使用DeepAnalyze-8B構建一個適配T4的自主數據科學代理：沙盒代碼執行與迭代分析

2026-07-11 03:24 UTC+8

本教程介紹如何基於DeepAnalyze-8B構建一個自主數據科學代理。我們準備穩定的Colab運行時，安裝依賴，以4位模式加載模型以適配有限GPU內存。添加沙盒執行環境，使模型能生成並安全運行Python代碼，觀察結果並持續迭代。最後，代理處理多文件電子商務工作區，完成數據清洗、連接、分析、可視化和生成分析報告。

在Colab中安裝依賴並以4位模式加載DeepAnalyze-8B模型，適配T4 GPU。
構建沙盒代碼執行器，安全運行模型生成的代碼並捕獲輸出。

使用 Amazon SageMaker AI 無服務器模型定製微調 NVIDIA Nemotron 3 模型

2026-07-10 23:35 UTC+8

本文介紹了 NVIDIA Nemotron 3 模型的獨特架構，包括混合 Mamba-Transformer MoE 設計和支持高達 1M token 的上下文長度。亞馬遜 SageMaker AI 現在推出針對 Nemotron 3 的無服務器模型定製服務，支持監督微調（SFT）、基於可驗證獎勵的強化學習（RLVR）和基於 AI 反饋的強化學習（RLAIF）三種技術。文章詳細説明了如何通過 SageMaker Studio 控制台或 Python SDK 準備數據、啓動定製任務、監控訓練進度和評估模型，幫助企業將通用模型轉化為領域專用資產。

NVIDIA Nemotron 3 採用 Mamba-Transformer 混合 MoE 架構，僅激活部分參數即可高效運行，支持超長上下文。
Amazon SageMaker AI 為 Nemotron 3 提供無服務器模型定製，用户無需管理基礎設施即可進行微調。

在SageMaker HyperPod上實現LLM推理的分離式預填充和解碼

2026-07-10 23:20 UTC+8

本文介紹瞭如何使用vLLM在Amazon SageMaker HyperPod上通過HyperPod推理運算符實現分離式預填充和解碼（DPD）。DPD通過將預填充和解碼階段分配到不同的GPU池，消除了長提示對令牌生成的干擾，從而降低了首令牌延遲和令牌間延遲，提高了推理性能。

分離式預填充和解碼（DPD）將LLM推理的預填充和解碼階段分開，運行在獨立的GPU池上。
DPD顯著提升長上下文、高併發流式工作負載的性能。

你願意在家裏託管AI數據中心的一部分嗎？

2026-07-10 21:20 UTC+8

太陽能和家庭儲能公司Sunrun啓動了一項試點計劃，讓客户在家中託管AI計算節點，併為此獲得補償。此舉旨在應對大型數據中心面臨的公眾反對，探索分佈式AI計算基礎設施。

Sunrun推出分佈式AI計算試點，客户可在家中託管計算節點並獲得補償。
該公司計劃將計算能力出售給AI企業。

本地視頻摘要管道：使用SmolVLM2-2.2B處理幀

2026-07-10 20:00 UTC+8

SmolVLM2-2.2B在能力和規模之間取得了實用平衡，可在單個消費級GPU上運行，並生成真正有用的視頻摘要。本文構建了一個本地管道，提取幀、用SmolVLM2分析並輸出結構化JSON摘要。

SmolVLM2-2.2B使用像素洗牌策略，每張圖像僅用81個令牌，使得在消費級GPU上處理多幀成為可能。
管道支持均勻採樣和關鍵幀採樣，適用於會議、講座、監控等多種場景。

“AI問責議程”：美國參議員提出一攬子法案以遏制技術危害

2026-07-10 17:00 UTC+8

美國參議員埃德·馬基（Ed Markey）提出一系列法案，旨在監管數據中心、自動化招聘系統、工作場所監控以及保護兒童免受AI侵害。馬基表示，對未監管的人工智能所帶來的危險感到擔憂，包括能源消耗、算法偏見、經濟不平等加劇等問題。

參議員埃德·馬基公佈“AI問責議程”法案包，針對數據中心、自動化招聘、工作場所監控和兒童保護。
法案旨在解決AI帶來的能源消耗、算法偏見和經濟不平等問題。

關於AI系統技術追求的隨想

2026-07-10 16:33 UTC+8

作者通過對比童年電腦與當今的B300 GPU系統，反思AI技術的快速發展。探討了LLMs的爭議、符號AI與統計AI的差異、智能的本質以及未來的夢想與現實。文章還包含與朋友的關於確定性和記憶的討論。

從童年電腦到B300 GPU系統的技術飛躍
對LLMs和AI行業的反思：過度炒作還是真正變革？

AI能否回答3萬億美元的問題？

2026-07-10 14:22 UTC+8

紅杉資本合夥人David Cahn三年前首次計算了硅谷AI基礎設施鉅額支出的財務影響，他根據Nvidia的GPU收入推導出需要2000億美元的收入才能收回前期投資。

David Cahn三年前開始計算AI基礎設施投資的回報要求
他基於Nvidia年收入500億美元的數據推算出2000億美元收入門檻

韓國芯片製造商SK海力士借AI熱潮在美上市募資265億美元

2026-07-10 13:06 UTC+8

SK海力士作為先進存儲芯片供應商，受益於全球AI數據中心建設熱潮，利潤飆升。公司於週五確定其鉅額美國上市定價，計劃融資265億美元，成為全球最大規模股票發行之一。

SK海力士於週五確定美國上市定價，目標融資265億美元。
該公司是全球AI數據中心建設熱潮的主要受益者，利潤大幅增長。

TensorSharp：開源的本地LLM推理引擎

2026-07-10 10:42 UTC+8

TensorSharp是一個基於.NET 10的本地LLM推理引擎，支持GGUF模型、GPU加速，並提供命令行工具、瀏覽器聊天服務器及兼容Ollama和OpenAI的API。它強調隱私性、零按token費用，並支持多種硬件後端。文中還提供了快速入門指南和性能基準測試比較。

使用C#和.NET 10構建的本地LLM推理引擎，支持GGUF模型和GPU加速。
提供命令行工具、Web UI聊天服務器以及兼容Ollama和OpenAI的HTTP API。

新西蘭首個AI數據中心計劃引發擔憂，當地居民要求更多透明度

2026-07-10 08:40 UTC+8

新加坡公司Datagrid獲准在新西蘭南部的Makarewa建設價值35億新西蘭元（約20億美元）的AI數據中心，計劃於2026年動工，2028年投入運營。當地居民對電力、水資源消耗及噪音污染表示擔憂，呼籲項目方提高透明度。

新加坡Datagrid公司計劃在新西蘭南部Makarewa建設該國首個AI數據中心，耗資35億新西蘭元。
項目預計2026年開工，2028年運營，佔地49公頃。

Token per watt成為存儲進入AI關鍵路徑的衡量標準

2026-07-10 06:56 UTC+8

隨着代理AI推動上下文記憶需求激增，存儲角色從邊緣走向核心。Solidigm提出以token per watt作為數據中心效率新指標，並通過高密度SSD和液冷技術重新定義AI基礎設施。

Token per watt替代原始算力，成為AI數據中心效率新度量標準。
固態存儲從輔助角色躍升至關鍵路徑，影響GPU利用率。

揭開Nemotron Labs 3 Puzzle 75B A9B的面紗：壓縮混合MoE大語言模型實現2.03倍服務器吞吐量

2026-07-10 03:31 UTC+8

NVIDIA發佈了Nemotron-Labs-3-Puzzle-75B-A9B，這是Nemotron-3-Super的壓縮變體，通過迭代式Puzzle壓縮技術，將總參數量從120.7B降至75.3B，活躍參數從12.8B降至9.3B。在單個8xB200節點上，吞吐量提升至原模型的2.03倍（100 tok/s每用户）；在單塊H100上，1M token併發數從1提升至8。該模型在多項基準測試中保持高精度，但指令跟隨和智能體評估略有下降。

NVIDIA發佈壓縮版MoE模型Nemotron-Labs-3-Puzzle-75B-A9B，參數量減少約38%，活躍參數減少27%。
在8xB200節點上實現2.03倍吞吐量提升，在單H100上實現8倍併發請求處理能力。

快速令牌生成成為關鍵差異點，異構推理逐漸普及

2026-07-10 03:14 UTC+8

隨着代理型AI用例增多，實時交互需求推動推理基礎設施重構。d-Matrix與NVIDIA合作推出異構計算解決方案，通過堆疊DRAM和邏輯芯片提升內存帶寬，實現低延遲快速令牌生成，開啓新的營收層級。

快速令牌生成是AI推理的關鍵差異點，其價格可達標準令牌的10倍。
d-Matrix的Corsair加速器與NVIDIA GPU結合，構成商業級異構推理方案。

DDN瞄準GPU效率：AI數據基礎設施成為成敗關鍵層

2026-07-10 02:56 UTC+8

DDN首席執行官Alex Bouzari在RAISE峯會上表示，AI數據基礎設施決定了GPU投資能否獲得回報。全球正在分化成高效利用GPU和閒置GPU的兩類組織。DDN參與了12個主權AI項目，其技術使Salesforce的GPU生產力提升了70%，並得到NVIDIA長期使用驗證。DDN的Infinidat平台旨在連接分佈式邊緣到核心的AI架構，解決多數據中心和多雲的整合難題。

DDN CEO指出，AI數據基礎設施是區分GPU投資成敗的關鍵，高效利用GPU的組織獲得財務回報，而其他組織則浪費資本。
數據主權推動各國建設自主AI工廠，DDN正在參與12個主權AI項目。

正式驗證AI生成的GPU內核

2026-07-10 00:50 UTC+8

AI智能體生成的高性能GPU內核雖然通過數值測試，但仍可能存在隱藏缺陷。本文介紹了Gimlet Labs開發的一款早期研究系統，利用形式化驗證補充傳統數值測試，確保AI生成及人工編寫的內核的正確性。通過一個缺失中間裁剪的注意力機制案例，展示了形式化驗證如何發現測試遺漏的等價性問題。

AI生成的GPU內核在數值測試中可能隱藏語義錯誤。
形式化驗證通過SMT求解器證明所有輸入上的等價性。

Lab：全棧平台，訓練你自己的模型

2026-07-09 21:47 UTC+8

Prime Intellect 發佈 Lab 平台，旨在讓每個人都能訓練自己的 AI 模型。該平台集成了環境中心、託管訓練和評估功能，支持從強化學習到推理的完整後訓練流程，無需管理GPU集羣或底層算法細節。

Lab 平台將環境中心、託管訓練和評估整合為一個全棧解決方案，用於模型研究和優化。
平台支持大規模異步強化學習訓練，使用 LoRA 技術，併兼容多種主流模型。

NVIDIA發佈Nemotron-Labs-3-Puzzle-75B-A9B：一種壓縮混合MoE大模型，在相同用户吞吐量下實現2.03倍服務器吞吐量

2026-07-09 16:47 UTC+8

NVIDIA發佈了Nemotron-Labs-3-Puzzle-75B-A9B，這是Nemotron-3-Super的壓縮變體。通過迭代式Puzzle壓縮，模型參數從120.7B總/12.8B活躍降至75.3B總/9.3B活躍。在單個8xB200節點上，用户吞吐量達到100 tok/s時，總吞吐量提升至Super的2.03倍；在單個H100上，1M令牌併發數從1提升至8。

參數壓縮：總參數從120.7B降至75.3B，活躍參數從12.8B降至9.3B。
吞吐量提升：8xB200節點上，在匹配用户吞吐量下總吞吐量提升1.60x至2.14x。

1.3億美元A輪融資，構建開放超級智能堆棧

2026-07-09 15:48 UTC+8

Prime Intellect 宣佈完成1.3億美元A輪融資，由Radical Ventures領投，NVIDIA、英特爾、戴爾等參投，總融資額超1.5億美元。公司旨在構建開放超級智能堆棧，利用強化學習（RL）使企業能夠擁有自己的模型優化循環，而非依賴少數封閉實驗室。其平台涵蓋訓練、部署和持續改進模型的完整工具鏈，已擁有超6000家客户，年化收入超1億美元。未來將聚焦長時程代理、遞歸語言模型、自動化科研和持續學習等前沿方向。

Prime Intellect 獲1.3億美元A輪融資，領投方為Radical Ventures，總融資超1.5億美元。
公司構建開放超級智能堆棧，使企業可通過強化學習擁有自己的模型優化閉環。

OpenClaw基金會正式成立

2026-07-09 14:10 UTC+8

OpenClaw從一個週末項目成長為全球性開源運動，每週新增450萬用户，成為GitHub史上增長最快的倉庫。如今，它正式成立501(c)(3)非營利基金會，旨在保持項目開放、獨立，並由社區驅動。基金會將提供治理、穩定資金，並僱傭全職團隊。合作伙伴包括OpenAI、NVIDIA、微軟、密歇根大學等，共同推動個人AI代理的發展。

OpenClaw從個人項目成長為全球性開源運動，每週新增450萬用户。
成立501(c)(3)非營利基金會，確保項目長期開放、獨立。

MiLSD：面向資源受限設備的微型線段檢測器

2026-07-09 12:00 UTC+8

線段檢測是視覺SLAM、3D重建和工業檢測的關鍵模塊。現有深度學習方法雖精度高，但最小模型也需數兆字節內存，超出低成本MCU的容量。本文研究亞兆字節預算下的最大可達精度，提出MiLSD——針對MCU約束設計的檢測器，系統比較緊湊全卷積骨幹網絡中的三種輸出表示，發現所提出的F-Clip中心-長度-角度公式在小模型規模下學習效率最高。8位量化可保持全精度性能，而4位量化導致顯著退化，尤其角度迴歸，量化感知訓練僅能部分恢復損失。在1兆字節激活預算下，結合亞像素解碼、測試時增強和輕量驗證器，MiLSD將ShanghaiTech Wireframe上的sAP10從10.6（25k參數，0.25 MB）提升至24.1。本文不試圖與GPU級解析器競爭，而是繪製了嵌入式視覺系統中不同表示、位寬、容量和後處理策略下的精度-內存權衡圖。

提出MiLSD，一種內存佔用小於1MB的微型線段檢測器，專為MCU級設備設計。
比較三種輸出表示，發現F-Clip公式在小模型上學習效果最佳。

AI建設放緩的真正瓶頸：電網接入而非能源短缺

2026-07-09 11:26 UTC+8

美國擁有足夠的電力來支持AI數據中心，但將其輸送到需要的地方才是問題所在。電網互聯排隊時間從2005年的20個月增加到2023年的55個月，成為AI發展的主要障礙。市場機制本身能有效調配發電資源，但電網基礎設施規劃滯後。

AI建設的主要瓶頸是電網接入，而非發電能力不足。
電網互聯排隊時間已從20個月延長至55個月。

為什麼AI基礎設施必須為智能體體驗進化——Modal CTO Akshat Bubna專訪

2026-07-09 06:55 UTC+8

Modal公司剛完成3.55億美元的C輪融資，其CTO Akshat Bubna在播客中闡述了從開發者體驗到智能體體驗的轉變。他強調Kubernetes並不適合突發性AI工作負載，並介紹了Modal的AI雲原生組件：無服務器函數、GPU快照、沙箱等。

Modal完成3.55億美元C輪融資，致力於構建智能體原生雲平台。
Kubernetes並非為突發性AI工作負載設計，Modal提供更靈活的基礎設施。

智能體的數據

2026-07-09 01:16 UTC+8

NVIDIA 通過開放數據和合成數據推動智能體 AI 發展，強調數據質量、可檢查性和信任。

NVIDIA 發佈了 Nemotron 系列開放數據集，包括預訓練和後訓練樣本。
合成數據有助於在保護公司機密的同時共享有用信號。

LangChain與NVIDIA聯合發佈NemoClaw深度代理藍圖

2026-07-08 23:04 UTC+8

LangChain與NVIDIA合作推出NemoClaw深度代理藍圖，結合LangChain深度代理代碼、NVIDIA Nemotron 3 Ultra和OpenShell，為企業構建開放、受治理的代理系統。該藍圖在代理評估中實現了領先性能，且推理成本降低約10倍。

NemoClaw深度代理藍圖整合了LangChain的代理框架、NVIDIA的開放模型Nemotron 3 Ultra以及安全運行時OpenShell。
該藍圖在LangChain代理評估套件中達到0.86的綜合得分，成本僅為4.48美元，相比競爭對手的43.48美元，推理成本降低約10倍。

數據中心是定時炸彈。我們必須確保AI的收益大於成本 | 尼基·哈特利

2026-07-08 23:00 UTC+8

數據中心消耗大量能源和水資源，並散發大量熱量。除了科技精英，還有誰從這些投資中受益？氣候變化和人工智能這兩大生存威脅在澳大利亞及全球的數據中心爆炸式增長中交匯。

數據中心對能源和水的需求巨大，加劇氣候危機。
AI的快速發展導致數據中心建設激增，引發對通脹、就業和住房可負擔性的擔憂。

NVIDIA Nemotron 藉助 LangChain 深度代理框架實現基準領先性能

2026-07-08 23:00 UTC+8

NVIDIA Nemotron 3 Ultra 與 LangChain 深度代理框架結合，在開放模型中取得最高準確率，同時以比頂級封閉模型低 10 倍的推理成本完成更多任務。該成果無需重新訓練模型，而是通過優化模型周圍環境實現。Abridge、Amdocs、Box 等企業正在將專業代理嵌入其平台，EY 等系統集成商則基於此開放棧為客户構建定製化代理。

LangChain 為 NVIDIA Nemotron 3 Ultra 調優的深度代理框架在開放模型中取得最高準確率，任務量更大且成本僅為封閉模型的 1/10。
所有性能提升均來自工程優化而非模型重新訓練，調整包括系統提示、工具描述和中間件。

在NVIDIA NemoClaw上運行Deep Agents Code：為最敏感代碼設計的治理藍圖

2026-07-08 23:00 UTC+8

Deep Agents Code現在可作為NVIDIA NemoClaw的治理藍圖運行，使用開放模型Nemotron 3 Ultra，提供默認拒絕網絡、人工審批和完整審計日誌，適用於敏感代碼現代化。

Deep Agents Code (dcode) 作為NemoClaw藍圖，運行開放模型Nemotron 3 Ultra，確保代碼、模型和審計軌跡自主可控。
默認拒絕網絡、人工審批和完整審計軌跡為監管團隊提供所需控制。

美國正在構建一個財富體系

2026-07-08 20:50 UTC+8

文章闡述了美國如何通過將能源轉化為算力，再轉化為智能，構建下一個出口層，從而重新定義國家實力。核心觀點包括：經濟安全始於國家能力，能源是所有產業的基石，算力是能源通往智能的轉化層，以及美國需要從物理、金融、技術和文明維度同時推進戰略。

美國戰略的核心是將能源丰度轉化為認知丰度，能源成為算力，算力成為智能，智能成為下一齣口層。
國家能力（如能源、工業、半導體、算力等）是安全的基礎，而非保護主義。

ZML發佈免費產品，加速跨AI芯片推理

2026-07-08 16:18 UTC+8

法國AI初創公司ZML在被譽為圖靈獎得主Yann LeCun的支持下，推出了一款免費軟件，旨在使多種開源大型語言模型能夠在包括Nvidia、AMD、Google TPU、Apple Metal和Intel Arc在內的多種芯片上高效運行。

ZML獲得Yann LeCun背書，發佈免費推理加速軟件
支持多種AI芯片，打破Nvidia壟斷格局

NVIDIA的Cosmos-Framework教程：用全模態混合Transformer設計Colab友好的Cosmos 3世界模型微型版

2026-07-08 15:15 UTC+8

本教程從Colab實際操作角度探索NVIDIA的Cosmos框架，誠實地評估真實Cosmos 3檢查點所需的硬件條件。我們檢測運行時環境，基於框架的真實結構、CLI界面和輸入模式，構建並訓練了一個緊湊的全模態混合Transformer模型，該模型共享跨模態注意力，同時將每種模態路由到各自的專家網絡。使用合成物理世界數據和自迴歸滾動，展示了模型如何跨文本、視覺和動作模態預測未來潛在狀態。

教程從硬件探測開始，説明為何標準Colab無法運行完整的Cosmos 3 16B+模型
基於NVIDIA cosmos-framework的真實結構，構建了一個約400萬參數的微型全模態混合Transformer

Light-Omni：在具有長期記憶的智能視頻理解中實現反射而非推理

2026-07-08 12:00 UTC+8

Light-Omni是一種多模態智能體框架，通過雙上下文狀態（全局狀態和參數化潛在狀態）實現無需迭代推理的反射式視頻理解，在多個基準測試中超越M3-Agent，速度提升12.1倍，GPU內存效率提升2.6倍，並可作為現有多模態大語言模型的記憶系統。

Light-Omni通過雙上下文狀態設計，在單次前向傳播中構建所需上下文，避免了高昂的迭代推理。
全局狀態是一個有限大小的多模態腳本，通過分層合併保留近期細節並總結過去事件。

Design-CP：用於蛋白質納米顆粒設計的上下文並行策略

2026-07-08 12:00 UTC+8

本文提出Design-CP，為RFdiffusion 3引入兩種上下文並行推理策略（1D行分片和2D網格分片），將二次激活分佈到多GPU，使得在有限顯存下設計大型蛋白質納米顆粒成為可能。實驗表明，2D分片在二十面體組裝中擴展性更好，併成功在16GB GPU集羣上實現了八面體納米顆粒設計。

Design-CP採用1D行分片和2D網格分片兩種上下文並行策略，突破單GPU顯存限制。
2D分片在二十面體組裝中實現更優的時鐘時間擴展。

GPU 基礎設施

相關主題

GPU 基礎設施動態

微軟人工智能建設導致去年碳排放量增加25%

紐約禁止數據中心建設一年，震動機器學習行業

TPU與GPU集羣：集體通信的解剖

Nemotron Labs：開放模型如何讓企業和國家擁有可信、可控、可定製的人工智能

為什麼每瓦性能是AI基礎設施效率的終極指標

紐約成為首個暫停新建AI數據中心的州

Meta在路易斯安那州建設5GW人工智能超級集羣的成本高達500億美元

生產中減少LLM延遲和推理成本的12種方法

Meta有望成為美國下一個大型雲服務提供商

AI基礎設施建設構成最新通脹威脅

利用適度非結構化稀疏權重矩陣加速大語言模型的GPU推理

“這些是有史以來最複雜的結構之一”：科技報道如何轉向物理世界

內存製造商受制於繁榮-蕭條過山車

科技巨頭為AI數據中心競賽加槓桿，債務激增3500億美元

NVIDIA 基於 Tile 的 GPU 編程編碼指南：從 cuTile 和 Triton 內核到 Flash Attention

Mesh LLM：基於iroh的分佈式AI計算

LiteRT.js：谷歌高性能網頁AI推理庫

如何使用DeepAnalyze-8B構建一個適配T4的自主數據科學代理：沙盒代碼執行與迭代分析

使用 Amazon SageMaker AI 無服務器模型定製微調 NVIDIA Nemotron 3 模型

在SageMaker HyperPod上實現LLM推理的分離式預填充和解碼

你願意在家裏託管AI數據中心的一部分嗎？

本地視頻摘要管道：使用SmolVLM2-2.2B處理幀

“AI問責議程”：美國參議員提出一攬子法案以遏制技術危害

關於AI系統技術追求的隨想

AI能否回答3萬億美元的問題？

韓國芯片製造商SK海力士借AI熱潮在美上市募資265億美元

TensorSharp：開源的本地LLM推理引擎

新西蘭首個AI數據中心計劃引發擔憂，當地居民要求更多透明度

Token per watt成為存儲進入AI關鍵路徑的衡量標準

揭開Nemotron Labs 3 Puzzle 75B A9B的面紗：壓縮混合MoE大語言模型實現2.03倍服務器吞吐量

快速令牌生成成為關鍵差異點，異構推理逐漸普及

DDN瞄準GPU效率：AI數據基礎設施成為成敗關鍵層

正式驗證AI生成的GPU內核

Lab：全棧平台，訓練你自己的模型

NVIDIA發佈Nemotron-Labs-3-Puzzle-75B-A9B：一種壓縮混合MoE大模型，在相同用户吞吐量下實現2.03倍服務器吞吐量

1.3億美元A輪融資，構建開放超級智能堆棧

OpenClaw基金會正式成立

MiLSD：面向資源受限設備的微型線段檢測器

AI建設放緩的真正瓶頸：電網接入而非能源短缺

為什麼AI基礎設施必須為智能體體驗進化——Modal CTO Akshat Bubna專訪

智能體的數據

LangChain與NVIDIA聯合發佈NemoClaw深度代理藍圖

數據中心是定時炸彈。我們必須確保AI的收益大於成本 | 尼基·哈特利

NVIDIA Nemotron 藉助 LangChain 深度代理框架實現基準領先性能

在NVIDIA NemoClaw上運行Deep Agents Code：為最敏感代碼設計的治理藍圖

美國正在構建一個財富體系

ZML發佈免費產品，加速跨AI芯片推理

NVIDIA的Cosmos-Framework教程：用全模態混合Transformer設計Colab友好的Cosmos 3世界模型微型版

Light-Omni：在具有長期記憶的智能視頻理解中實現反射而非推理

Design-CP：用於蛋白質納米顆粒設計的上下文並行策略

更多增長標籤

AI 編程

MCP

開源模型

推理成本

Agent 框架

中國 AI

模型定價

DeepSeek

Qwen