NVIDIA

來源分布

NVIDIA Blog13
Hacker News AI12
MarkTechPost10
SiliconANGLE AI3
AWS Machine Learning Blog2
Hugging Face Blog2
LangChain Blog2
Latent Space2

主題分布

芯片50
Agent37
模型15
研究5
創業融資3
政策3

日期線

2026-06-307
2026-07-017
2026-07-087
2026-07-105
2026-07-024
2026-07-074
2026-07-094
2026-07-033

最新動態

NVIDIA 基於 Tile 的 GPU 編程編碼指南：從 cuTile 和 Triton 內核到 Flash Attention

2026-07-12 08:01 UTC+8

本教程通過 TileGym 探索 NVIDIA 的基於 tile 的 GPU 編程，構建一個可在不同硬件上運行的 Colab 工作流程。我們探測 CUDA 環境，嘗試真實的 cuTile 後端，並在標準 Colab GPU 缺乏 cuTile 堆棧時回退到 Triton。我們學習核心 tile 思想：對整個數據塊進行操作，而不是單個線程，然後加載、計算和存儲它們。我們實現了向量加法、融合 GELU、行級 softmax、分塊矩陣乘法和 flash attention，並將每個結果與 PyTorch 進行比較。

介紹 NVIDIA 的 tile 編程模型，將操作應用於數據塊而非單個線程。
提供可運行的 Colab 腳本，支持 cuTile 和 Triton 後端。

使用 Amazon SageMaker AI 無服務器模型定製微調 NVIDIA Nemotron 3 模型

2026-07-10 23:35 UTC+8

本文介紹了 NVIDIA Nemotron 3 模型的獨特架構，包括混合 Mamba-Transformer MoE 設計和支持高達 1M token 的上下文長度。亞馬遜 SageMaker AI 現在推出針對 Nemotron 3 的無服務器模型定製服務，支持監督微調（SFT）、基於可驗證獎勵的強化學習（RLVR）和基於 AI 反饋的強化學習（RLAIF）三種技術。文章詳細説明了如何通過 SageMaker Studio 控制台或 Python SDK 準備數據、啓動定製任務、監控訓練進度和評估模型，幫助企業將通用模型轉化為領域專用資產。

NVIDIA Nemotron 3 採用 Mamba-Transformer 混合 MoE 架構，僅激活部分參數即可高效運行，支持超長上下文。
Amazon SageMaker AI 為 Nemotron 3 提供無服務器模型定製，用户無需管理基礎設施即可進行微調。

AI能否回答3萬億美元的問題？

2026-07-10 14:22 UTC+8

紅杉資本合夥人David Cahn三年前首次計算了硅谷AI基礎設施鉅額支出的財務影響，他根據Nvidia的GPU收入推導出需要2000億美元的收入才能收回前期投資。

David Cahn三年前開始計算AI基礎設施投資的回報要求
他基於Nvidia年收入500億美元的數據推算出2000億美元收入門檻

揭開Nemotron Labs 3 Puzzle 75B A9B的面紗：壓縮混合MoE大語言模型實現2.03倍服務器吞吐量

2026-07-10 03:31 UTC+8

NVIDIA發佈了Nemotron-Labs-3-Puzzle-75B-A9B，這是Nemotron-3-Super的壓縮變體，通過迭代式Puzzle壓縮技術，將總參數量從120.7B降至75.3B，活躍參數從12.8B降至9.3B。在單個8xB200節點上，吞吐量提升至原模型的2.03倍（100 tok/s每用户）；在單塊H100上，1M token併發數從1提升至8。該模型在多項基準測試中保持高精度，但指令跟隨和智能體評估略有下降。

NVIDIA發佈壓縮版MoE模型Nemotron-Labs-3-Puzzle-75B-A9B，參數量減少約38%，活躍參數減少27%。
在8xB200節點上實現2.03倍吞吐量提升，在單H100上實現8倍併發請求處理能力。

快速令牌生成成為關鍵差異點，異構推理逐漸普及

2026-07-10 03:14 UTC+8

隨着代理型AI用例增多，實時交互需求推動推理基礎設施重構。d-Matrix與NVIDIA合作推出異構計算解決方案，通過堆疊DRAM和邏輯芯片提升內存帶寬，實現低延遲快速令牌生成，開啓新的營收層級。

快速令牌生成是AI推理的關鍵差異點，其價格可達標準令牌的10倍。
d-Matrix的Corsair加速器與NVIDIA GPU結合，構成商業級異構推理方案。

DDN瞄準GPU效率：AI數據基礎設施成為成敗關鍵層

2026-07-10 02:56 UTC+8

DDN首席執行官Alex Bouzari在RAISE峯會上表示，AI數據基礎設施決定了GPU投資能否獲得回報。全球正在分化成高效利用GPU和閒置GPU的兩類組織。DDN參與了12個主權AI項目，其技術使Salesforce的GPU生產力提升了70%，並得到NVIDIA長期使用驗證。DDN的Infinidat平台旨在連接分佈式邊緣到核心的AI架構，解決多數據中心和多雲的整合難題。

DDN CEO指出，AI數據基礎設施是區分GPU投資成敗的關鍵，高效利用GPU的組織獲得財務回報，而其他組織則浪費資本。
數據主權推動各國建設自主AI工廠，DDN正在參與12個主權AI項目。

NVIDIA發佈Nemotron-Labs-3-Puzzle-75B-A9B：一種壓縮混合MoE大模型，在相同用户吞吐量下實現2.03倍服務器吞吐量

2026-07-09 16:47 UTC+8

NVIDIA發佈了Nemotron-Labs-3-Puzzle-75B-A9B，這是Nemotron-3-Super的壓縮變體。通過迭代式Puzzle壓縮，模型參數從120.7B總/12.8B活躍降至75.3B總/9.3B活躍。在單個8xB200節點上，用户吞吐量達到100 tok/s時，總吞吐量提升至Super的2.03倍；在單個H100上，1M令牌併發數從1提升至8。

參數壓縮：總參數從120.7B降至75.3B，活躍參數從12.8B降至9.3B。
吞吐量提升：8xB200節點上，在匹配用户吞吐量下總吞吐量提升1.60x至2.14x。

1.3億美元A輪融資，構建開放超級智能堆棧

2026-07-09 15:48 UTC+8

Prime Intellect 宣佈完成1.3億美元A輪融資，由Radical Ventures領投，NVIDIA、英特爾、戴爾等參投，總融資額超1.5億美元。公司旨在構建開放超級智能堆棧，利用強化學習（RL）使企業能夠擁有自己的模型優化循環，而非依賴少數封閉實驗室。其平台涵蓋訓練、部署和持續改進模型的完整工具鏈，已擁有超6000家客户，年化收入超1億美元。未來將聚焦長時程代理、遞歸語言模型、自動化科研和持續學習等前沿方向。

Prime Intellect 獲1.3億美元A輪融資，領投方為Radical Ventures，總融資超1.5億美元。
公司構建開放超級智能堆棧，使企業可通過強化學習擁有自己的模型優化閉環。

OpenClaw基金會正式成立

2026-07-09 14:10 UTC+8

OpenClaw從一個週末項目成長為全球性開源運動，每週新增450萬用户，成為GitHub史上增長最快的倉庫。如今，它正式成立501(c)(3)非營利基金會，旨在保持項目開放、獨立，並由社區驅動。基金會將提供治理、穩定資金，並僱傭全職團隊。合作伙伴包括OpenAI、NVIDIA、微軟、密歇根大學等，共同推動個人AI代理的發展。

OpenClaw從個人項目成長為全球性開源運動，每週新增450萬用户。
成立501(c)(3)非營利基金會，確保項目長期開放、獨立。

智能體的數據

2026-07-09 01:16 UTC+8

NVIDIA 通過開放數據和合成數據推動智能體 AI 發展，強調數據質量、可檢查性和信任。

NVIDIA 發佈了 Nemotron 系列開放數據集，包括預訓練和後訓練樣本。
合成數據有助於在保護公司機密的同時共享有用信號。

LangChain與NVIDIA聯合發佈NemoClaw深度代理藍圖

2026-07-08 23:04 UTC+8

LangChain與NVIDIA合作推出NemoClaw深度代理藍圖，結合LangChain深度代理代碼、NVIDIA Nemotron 3 Ultra和OpenShell，為企業構建開放、受治理的代理系統。該藍圖在代理評估中實現了領先性能，且推理成本降低約10倍。

NemoClaw深度代理藍圖整合了LangChain的代理框架、NVIDIA的開放模型Nemotron 3 Ultra以及安全運行時OpenShell。
該藍圖在LangChain代理評估套件中達到0.86的綜合得分，成本僅為4.48美元，相比競爭對手的43.48美元，推理成本降低約10倍。

NVIDIA Nemotron 藉助 LangChain 深度代理框架實現基準領先性能

2026-07-08 23:00 UTC+8

NVIDIA Nemotron 3 Ultra 與 LangChain 深度代理框架結合，在開放模型中取得最高準確率，同時以比頂級封閉模型低 10 倍的推理成本完成更多任務。該成果無需重新訓練模型，而是通過優化模型周圍環境實現。Abridge、Amdocs、Box 等企業正在將專業代理嵌入其平台，EY 等系統集成商則基於此開放棧為客户構建定製化代理。

LangChain 為 NVIDIA Nemotron 3 Ultra 調優的深度代理框架在開放模型中取得最高準確率，任務量更大且成本僅為封閉模型的 1/10。
所有性能提升均來自工程優化而非模型重新訓練，調整包括系統提示、工具描述和中間件。

在NVIDIA NemoClaw上運行Deep Agents Code：為最敏感代碼設計的治理藍圖

2026-07-08 23:00 UTC+8

Deep Agents Code現在可作為NVIDIA NemoClaw的治理藍圖運行，使用開放模型Nemotron 3 Ultra，提供默認拒絕網絡、人工審批和完整審計日誌，適用於敏感代碼現代化。

Deep Agents Code (dcode) 作為NemoClaw藍圖，運行開放模型Nemotron 3 Ultra，確保代碼、模型和審計軌跡自主可控。
默認拒絕網絡、人工審批和完整審計軌跡為監管團隊提供所需控制。

ZML發佈免費產品，加速跨AI芯片推理

2026-07-08 16:18 UTC+8

法國AI初創公司ZML在被譽為圖靈獎得主Yann LeCun的支持下，推出了一款免費軟件，旨在使多種開源大型語言模型能夠在包括Nvidia、AMD、Google TPU、Apple Metal和Intel Arc在內的多種芯片上高效運行。

ZML獲得Yann LeCun背書，發佈免費推理加速軟件
支持多種AI芯片，打破Nvidia壟斷格局

NVIDIA的Cosmos-Framework教程：用全模態混合Transformer設計Colab友好的Cosmos 3世界模型微型版

2026-07-08 15:15 UTC+8

本教程從Colab實際操作角度探索NVIDIA的Cosmos框架，誠實地評估真實Cosmos 3檢查點所需的硬件條件。我們檢測運行時環境，基於框架的真實結構、CLI界面和輸入模式，構建並訓練了一個緊湊的全模態混合Transformer模型，該模型共享跨模態注意力，同時將每種模態路由到各自的專家網絡。使用合成物理世界數據和自迴歸滾動，展示了模型如何跨文本、視覺和動作模態預測未來潛在狀態。

教程從硬件探測開始，説明為何標準Colab無法運行完整的Cosmos 3 16B+模型
基於NVIDIA cosmos-framework的真實結構，構建了一個約400萬參數的微型全模態混合Transformer

[AINews] Lilian Weng總結35篇關於RSI的套件工程論文

2026-07-08 10:20 UTC+8

本期AINews涵蓋了2026年7月6日至7日的廣泛AI發展。亮點包括Lilian Weng對遞歸自我改進中套件工程深入分析、Meta推出Muse Image和預覽Muse Video（具有代理生成循環）、以及Anthropic、LangChain和Google在代理平台上的重大產品更新。其他值得注意的內容：NVIDIA的Audex音頻模型、Cohere的阿拉伯語ASR、與Hugging Face和NVIDIA的機器人集成、Liquid AI的Antidoom方法減少推理循環失敗、以及Anthropic有爭議的J-space可解釋性研究。還涵蓋了代理和法律AI的基準測試、研究自動化和推理效率進展。

Lilian Weng的博文將遞歸自我改進重新聚焦於套件工程而非直接權重修改，強調套件工程對於指定目標和上下文至關重要。
Meta的Muse Image和Muse Video展示了具有規劃、工具使用和自我細化的代理生成，迅速登上公共排行榜高位。

NVIDIA發佈Audex（Nemotron-Labs-Audex-30B-A3B）：統一音頻-文本LLM，保留骨幹網絡的文本智能

2026-07-08 08:50 UTC+8

NVIDIA發佈了Audex，一個統一的音頻-文本大語言模型，採用MoE架構（30B總參數，3B激活），基於Nemotron-Cascade-2骨幹網絡。該模型能處理音頻理解、語音識別、翻譯、TTS和音頻生成，且在多階段SFT和文本RL訓練後，文本性能幾乎無退化。在語音識別上領先開源模型（OpenASR WER 6.82），並能生成通用音頻。模型以非商業許可發佈。

Audex是一個統一的音頻-文本模型，支持多種音頻任務，文本性能保留骨幹網絡水平。
採用MoE架構，總參數30B，每token激活3B參數，設計簡潔，兼容標準LLM框架。

AI創新者採用NVIDIA Vera——為何大規模最大單線程CPU至關重要

2026-07-07 23:00 UTC+8

NVIDIA Vera是一種專為AI代理時代設計的新型CPU，強調大規模下的最大單線程性能。它基於自研Olympus核心，相比前代Grace性能提升50%，並配備高帶寬內存與低功耗設計。在代理工作負載中，Vera相比x86 CPU提供1.8倍的持續單核性能，並在真實測試中展現出1.5至1.9倍的速度提升。Vera整合了從工具調用到數據處理的全部工作，使AI工廠能最大化GPU利用率。

NVIDIA Vera是一款專為代理AI設計的大規模最大單線程CPU。
其Olympus核心相比Grace性能提升50%，並支持高達1.2TB/s內存帶寬。

NVIDIA與Hugging Face為開放機器人社區帶來新模型和框架至LeRobot

2026-07-07 14:00 UTC+8

NVIDIA和Hugging Face合作，將NVIDIA Isaac GR00T 1.7模型和Isaac Teleop框架集成到Hugging Face的開源機器人庫LeRobot中，並計劃引入NVIDIA Cosmos 3。這些整合為開發者提供了更易訪問和標準化的機器人開發路徑，推動開放機器人社區的創新。

NVIDIA和Hugging Face合作，將Isaac GR00T 1.7模型和Isaac Teleop框架引入LeRobot。
LeRobot獲得NVIDIA物理AI能力，包括數據收集、模型訓練和仿真工具。

主權AI診斷登上黃金時段

2026-07-07 02:34 UTC+8

Palantir首席執行官Alex Karp在CNBC上猛烈抨擊AI行業，稱其“瘋狂”，並指責OpenAI和Anthropic對美國企業徵收“財富税”。然而，他實際上強調了主權AI的重要性，即企業應擁有自己的計算、模型和數據。Palantir與Nvidia合作推出了主權AI OS參考架構，允許客户在安全、隔離的環境中部署Nvidia的Nemotron模型，這使股價上漲了9%。

Alex Karp在CNBC上批評AI行業，稱其“瘋狂”，並指責AI公司對美國企業徵收“財富税”。
Karp強調企業應控制自己的計算、模型和數據，即主權AI理念。

開放模型如何推動AI研究

2026-07-07 00:00 UTC+8

在2026年國際機器學習大會（ICML）上，超過2000篇論文引用了NVIDIA GPU，Nemotron、Cosmos和BioNeMo等開放模型成為機器人、生命科學和合成數據生成等AI研究的基礎。NVIDIA有74篇論文被收錄，突出了視覺、強化學習和智能體訓練等趨勢。

開放前沿模型和基礎設施現已成為AI研究的基礎。
NVIDIA的Nemotron系列被用作推理、數據整理和安全推斷的研究堆棧。

各國如何部署AI以服務於戰略優先事項

2026-07-06 23:00 UTC+8

各國正在投資國內AI基礎設施，包括AI工廠、基於本地數據訓練的基礎模型以及人才培養，以定製化AI滿足本地需求，這一趨勢由生成式和代理式AI驅動。來自歐洲、亞洲和拉丁美洲的案例展示了社會效益。

AI正在重塑經濟和社會，促使各國構建本土AI能力。
AI工廠——下一代數據中心——正成為AI生產的關鍵基礎設施。

AI數據中心

2026-07-06 21:42 UTC+8

Epoch AI的獨立數據庫覆蓋全球67個大型AI數據中心，通過衞星圖像、許可證等公開數據追蹤其建設時間線。最大的設施是SpaceXAI在孟菲斯的Colossus 2，IT功率達946 MW，計算能力相當於111.2萬塊H100 GPU。美國集中了大部分數據中心，尤其在得克薩斯、俄亥俄等州。總IT功率容量達10.8 GW，加上冷卻等基礎設施後總設施功率達14 GW，超過紐約市峯值需求。硬件以NVIDIA H100、H200、B200 GPU為主，Google和Amazon也使用自研芯片。

Epoch AI數據庫收錄67個AI數據中心，最大的是SpaceXAI的Colossus 2。
美國擁有最多大型AI數據中心，集中在得克薩斯、俄亥俄等州。

Nvidia悄無聲息地成為AI熱潮背後的銀行

2026-07-05 07:59 UTC+8

Nvidia正在資助購買了其GPU的neocloud公司，通過回租閒置容量和收入分成，逐步從硬件公司轉變為類似銀行的角色。

Nvidia通過融資模式支持neocloud公司購買其GPU
Nvidia回租閒置容量並分享雲收入

Anthropic 推出 Claude Science 測試版：一個用於可重複基因組學、蛋白質組學和化學信息學管道的多智能體 AI 工作台

2026-07-05 00:21 UTC+8

Anthropic 於 2026 年 6 月 30 日發佈了 Claude Science 測試版。該應用基於現有 Claude 模型，採用多智能體架構：一個協調智能體將任務分配給領域專家智能體，一個審查智能體標記並糾正引文和數字，每個圖表附帶其確切代碼、環境和完整消息歷史。它管理本地機器、通過 SSH 的 HPC 以及 Modal 上的計算，並連接 60 多個數據庫和 NVIDIA BioNeMo 技能。

Claude Science 是一個面向科學家的 AI 工作台，可運行多步驟研究並記錄每個結果的生成過程。
採用多智能體架構：協調智能體、領域專家智能體和審查智能體協同工作。

NVIDIA HORIZON：一種免手動代理框架，利用Git工作樹實現RTL基準測試100%完成率

2026-07-05 00:04 UTC+8

NVIDIA Research推出HORIZON，一種免手動代理框架，將硬件設計視為基於Git工作樹的倉庫級代碼演化。該框架在所有評估的RTL基準測試中達到100%通過率，但團隊指出代理式硬件設計尚未完全解決。

HORIZON將設計問題託管為版本控制的Git倉庫，迭代演化代碼。
使用結構化Markdown框架，包含目標、方向、評估器和驗收謂詞。

NVIDIA AI推出ASPIRE：一種自我改進的機器人框架，在LIBERO-Pro長任務上達到31%零樣本率

2026-07-04 14:32 UTC+8

NVIDIA與多所大學團隊提出ASPIRE框架，通過編寫和調試機器人程序，將驗證過的修復轉化為可複用的技能庫。在LIBERO-Pro上提升高達77分，並零樣本遷移到未見過的長時域任務。

ASPIRE通過每個原語的軌跡定位故障，而非依賴粗粒度的任務級反饋
技能庫存儲可複用的修復策略，實現跨任務的知識積累

NVCF：大規模部署和路由 GPU 加速 AI 工作負載

2026-07-03 16:18 UTC+8

NVIDIA Cloud Functions (NVCF) 是一個用於大規模部署、管理和運行 GPU 加速工作負載的開源平台。它支持長期運行的函數和異步任務，利用 Kubernetes 進行編排，並提供統一控制平面、負載均衡路由、多集羣自動縮放等功能。本文介紹了 NVCF 的架構、工作負載類型、核心能力以及如何使用 Bazel 構建。

NVCF 是 NVIDIA 開源的 GPU 工作負載平台，支持推理、流處理和批處理。
架構包括控制平面、調用平面和計算平面，通過 Kubernetes 管理。

DGX工作站與“前沿”模型：深度調查本地AI的真相

2026-07-03 11:48 UTC+8

本文深入調查NVIDIA DGX工作站的實際能力，揭露其748GB統一內存中僅252GB為高速HBM3e，其餘為低速LPDDR5X。通過Cornell、Snowflake等使用案例和GLM-5.2等基準測試，探討其能否承載本地前沿模型推理。

DGX工作站擁有748GB統一內存，但僅252GB為高速HBM3e（7.1TB/s），496GB為低速LPDDR5X（396GB/s），NVLink-C2C實測未達標稱900GB/s。
售價約10萬美元，與多GPU RTX PRO 6000、雲推理及Mac Studio等方案競爭，買家需評估是否值得。

Show HN: AI基礎設施知識庫

2026-07-03 01:11 UTC+8

一個面向系統管理員、GPU服務器工程師、平台工程師、SRE和MLOps工程師的實用、可引用的知識庫，涵蓋從物理數據中心和InfiniBand網絡到Kubernetes、Slurm、Ray、分佈式訓練、強化學習後訓練和大規模LLM推理服務的GPU集羣部署、運維和優化。涵蓋NVIDIA全系列產品（Ampere、Hopper、Blackwell數據中心GPU，RTX消費級和工作站卡，DGX系統包括DGX Spark），當前以Blackwell Ultra（B300/GB300 NVL72）為重點更新至2026年中。

為運營GPU集羣的工程師提供可引用的實踐指南。
涵蓋硬件、構建、集羣技術、訓練、推理和服務運維全棧。

NVIDIA BioNeMo 加速 Anthropic Claude 科學研究

2026-07-02 22:38 UTC+8

Anthropic 推出了 Claude Science 公開測試版，集成了 NVIDIA BioNeMo Agent Toolkit，使科學家能夠使用自然語言直接與數字代理對話，執行端到端的研究工作流程，加速計算生命科學研究。

Claude Science 與 NVIDIA BioNeMo Agent Toolkit 集成，支持自然語言驅動的科研工作流。
NVIDIA 提供 GPU 加速模型、庫和微服務，大幅提升計算效率。

[AINews] 今天沒發生太多事

2026-07-02 15:10 UTC+8

本期涵蓋Anthropic的Fable 5重新上線並配備安全兜底，生態系統轉向多模型編排。開源模型如GLM-5.2通過ZCode和基準測試取得進展。智能體基礎設施引入維基記憶和結構化組合模式，Devin Security Swarm展示基於智能體的漏洞發現。架構進展包括NVIDIA TwoTower和端側推理突破。

Anthropic重新上線Fable 5，附帶安全兜底措施，工具生態迅速集成，用户轉向多模型編排。
Z.ai推出GLM-5.2的ZCode IDE，基準測試顯示開源模型編碼差距縮小，推理優化加速。

NVIDIA 大規模解鎖 AI 算力，邀請資本合作伙伴助力 AI 基礎設施建設

2026-07-02 11:34 UTC+8

隨着 AI 從模型開發轉向生產推理，計算需求加速並轉向持續運行的 AI 工廠。NVIDIA 推出新戰略，通過收入分成和信用支持模式，讓初創企業、模型構建者等獲得大規模加速計算資源。Sharon AI 和 Firmus 等公司已率先部署。

AI 計算需求從開發轉向推理，需要大規模多租户加速計算
NVIDIA 通過收入分成模式開放計算訪問，降低資本門檻

在 AWS GovCloud（美國）上通過 Amazon Bedrock 運行 NVIDIA Nemotron 和 OpenAI GPT OSS 模型

2026-07-02 02:14 UTC+8

AWS GovCloud（美國）區域新增對 OpenAI 開源 GPT OSS 模型（120B 和 20B）及 NVIDIA Nemotron 系列模型（Nano 9B v2、Nano 12B v2、Nano 30B、Super 120B）的支持，通過 Amazon Bedrock 提供統一的 API 訪問，推理過程完全在美國境內由美國公民運營的基礎設施上進行，滿足 FedRAMP、DoD SRG 等合規要求。

Amazon Bedrock 現支持 OpenAI GPT OSS（120B/20B）和 NVIDIA Nemotron（多個尺寸）模型。
所有推理均在 AWS GovCloud（美國）隔離邊界內進行，數據不離開美國。

NVIDIA 與合作伙伴在美國為美國建設

2026-07-01 21:00 UTC+8

NVIDIA 及其合作伙伴正在投資美國製造業、供應鏈、電網和熟練勞動力，以便美國能夠生產更好的醫療、突破性科學發現、更強的工業生產力以及全球技術領導地位所需的基礎設施。

NVIDIA 與合作伙伴在43個州建設AI基礎設施，計劃在美國生產高達5000億美元的AI基礎設施。
2026年，NVIDIA驅動的AI需求將為美國GDP貢獻4850億美元，並支持超過10萬個就業崗位。

NVIDIA發佈Nemotron-Labs-TwoTower：基於凍結自迴歸骨幹網絡的開放權重擴散語言模型

2026-07-01 16:10 UTC+8

NVIDIA發佈了Nemotron-Labs-TwoTower擴散語言模型，該模型採用雙塔架構，在凍結的自迴歸骨幹網絡上添加訓練過的去噪器，實現了2.42倍的生成吞吐量提升，同時保留了98.7%的基準質量。模型以開放權重形式發佈，支持擴散、模擬自迴歸和自迴歸三種推理模式。

TwoTower將擴散過程拆分為凍結的AR上下文塔和訓練過的去噪器塔。
在默認配置下，吞吐量提升2.42倍，質量保留98.7%。

在Jetson上通過持久流服務本地AI

2026-07-01 09:00 UTC+8

作者使用NVIDIA Jetson Orin Nano Super和Kokoro-82M模型構建了一個本地文本轉語音應用StreamTTS，利用持久流（S2）而非傳統請求-響應架構，實現了可共享、可重放的實時音頻生成，並解決了慢推理、多用户公平調度和去重等問題。

使用Jetson Orin Nano Super和Kokoro-82M模型自託管TTS服務。
採用S2持久流架構，支持輸出流的實時追加和重放。

Hugging Face 與 Cerebras 攜手將 Gemma 4 引入實時語音 AI

2026-07-01 08:00 UTC+8

Hugging Face 與 Cerebras 合作，利用 Gemma 4 模型打造實時語音 AI 系統，通過開放模塊化架構顯著降低延遲，實現更自然的對話體驗。該系統集成 Nvidia 的語音識別、Cerebras 的推理加速和 Alibaba 的語音合成，已在 9000 多台 Reachy Mini 機器人中應用。

Hugging Face 和 Cerebras 推出基於 Gemma 4 的實時語音 AI 演示，延遲極低。
系統採用開放的級聯架構：語音輸入→語音識別→模型推理→語音合成→語音輸出。

宣佈8億美元C輪融資：加速向開源AI的轉變

2026-07-01 08:00 UTC+8

Together AI完成8億美元C輪融資，由Aramco Ventures、NVIDIA、Vista Equity等領投，旨在加速開源AI的普及。公司強調，閉源模型的成本無法規模化，而開源模型結合全棧優化可實現6-20倍成本降低。Together AI已推出FlashAttention-4、Together Megakernel等創新，成為全球最大的AI token生產商之一。

Together AI完成8億美元C輪融資，用於加速開源AI發展
公司認為閉源模型的成本在規模化應用中不可持續

英偉達BioNeMo Agent Toolkit助力生命科學研究人員，與Claude Science集成加速AI應用

2026-07-01 01:00 UTC+8

英偉達發佈了BioNeMo Agent Toolkit，與Anthropic的Claude Science集成，使科學家能通過自然語言與AI代理交互，加速藥物發現、基因組學等生命科學研究。該工具包整合了英偉達的加速模型、庫和微服務，包括Parabricks、RAPIDS-singlecell和nvMolKit，顯著提升計算速度。全球前20大藥企中有18家使用英偉達BioNeMo。Claude Science現已進入公開測試。

英偉達BioNeMo Agent Toolkit與Anthropic的Claude Science集成，提供加速的AI工作流
工具包包含Parabricks、RAPIDS-singlecell和nvMolKit等加速工具，可大幅縮短計算時間

Anthropic推出Claude Science：專為科研打造的AI工作台

2026-07-01 01:00 UTC+8

Anthropic於週二推出Claude Science，這是一款面向科學家的新應用，可在macOS和Linux上本地運行或遠程使用。該工具旨在整合科研人員常用的數據庫和工具，如PubMed、Jupyter、R和終端，提供一站式研究環境。目前處於測試階段，主要面向生命科學領域，但未來計劃擴展。Claude Science基於標準Claude模型，通過協調代理訪問超過60個數據庫，並利用Nvidia BioNeMo工具包連接生命科學模型。它還能生成可視化內容（如3D蛋白質結構），並與高性能計算集羣或Modal賬户集成，處理大規模計算任務。

Anthropic推出Claude Science，一個集多種工具於一體的AI科研工作台，目前處於測試階段。
主要面向生命科學研究者，但可通過Claude付費計劃（Pro、Max、Team、Enterprise）使用。

NVIDIA 推理軟件堆棧如何實現最低令牌成本

2026-06-30 23:00 UTC+8

NVIDIA 的推理軟件堆棧通過與 GPU、CPU、網絡和系統的協同設計，並藉助開源生態系統，持續提升硬件性能。在 Blackwell 平台上，該軟件堆棧在一個月內將 DeepSeek V4 模型的令牌成本降低了 5 倍。文章詳細介紹了軟件優化如何通過生產運營、應用加速和基礎設施訪問三個層次，將單個優化轉化為系統級性能提升，從而降低每令牌成本。

NVIDIA 全棧推理軟件通過協同設計，在 Blackwell 平台上一個月內將令牌成本降低 5 倍。
Baseten、Cognition 等公司利用 TensorRT-LLM 和 Dynamo 框架實現了顯著性能提升。

賈維爾·辛格如何助力機器人——以及開發者——更快前進

2026-06-30 23:00 UTC+8

賈維爾·辛格是NVIDIA Isaac ROS團隊的負責人，致力於為物理AI時代構建基礎設施。他的工作基於開源ROS 2框架，提供CUDA加速庫和AI模型，支持自主移動機器人、操控系統和人形機器人。從少年時期的LEGO Mindstorms起步，辛格在伯克利學習後加入NVIDIA，其實習項目最終演變為Isaac ROS。他強調開源的重要性，認為它能給開發者信心，並加速機器人領域的未來。

賈維爾·辛格領導NVIDIA Isaac ROS團隊，專注於機器人軟件基礎設施。
Isaac ROS基於開源ROS 2，提供模塊化的CUDA加速包，可靈活組合。

進入Omniverse：通過合成數據和微調提高視覺AI代理準確性的三種工作流程

2026-06-30 21:00 UTC+8

視覺AI代理正成為將物理世界視頻數據轉化為工廠、城市等環境運營智能的實用方式，但面臨數據缺口、微調專業知識和複雜組裝等挑戰。NVIDIA Metropolis代理技能和藍圖結合Omniverse的OpenUSD模擬和合成數據生成，提供可重用工作流。文章通過康寧、Linker Vision和Foxconn三個案例展示瞭如何生成缺陷數據、擴展場景覆蓋並部署視頻分析代理。

視覺AI代理面臨數據缺口、微調專業知識缺乏和組裝複雜等挑戰。
NVIDIA Metropolis技能和藍圖結合Omniverse OpenUSD模擬提供可重用工作流。

戳破GPU泡沫：Moondream的流水線解碼技術

2026-06-30 13:14 UTC+8

Moondream的推理引擎Photon通過流水線解碼技術，將GPU空閒時間降至最低，在NVIDIA B200上實現了約33ms的近實時視覺語言模型推理，解碼吞吐量提升高達35%。該技術通過重疊CPU和GPU工作，消除了傳統逐令牌解碼中的“GPU泡沫”。

Photon引擎利用流水線解碼技術隱藏GPU空閒時間，提高推理效率。
通過乒乓槽位、先前饋後採樣和殭屍機制三種關鍵技術實現流水線。

NVIDIA BioNeMo Agent Toolkit：將生物分子模型轉化為AI智能體的可調用技能，助力藥物發現

2026-06-30 03:06 UTC+8

NVIDIA開源了BioNeMo Agent Toolkit，將OpenFold3、DiffDock、GenMol等生物分子模型封裝為AI智能體可調用的技能。每個技能描述模型用途、輸入、輸出和失敗模式，智能體可自主選擇、運行和解釋結果。在Codex CLI和GPT-5.5 fast基準測試中，技能將任務完成率從57.1%提升至100%，代幣效率翻倍。

BioNeMo Agent Toolkit將NVIDIA生物分子模型打包為文檔化的可調用智能體技能。
技能涵蓋蛋白質摺疊、分子對接、生成化學、基因組學和蛋白質設計。

Claude 遇見 Blackwell Ultra：Anthropic 模型現已在 Azure 上搭載 NVIDIA GB300 運行

2026-06-30 01:00 UTC+8

Anthropic 的 Claude 模型在 Microsoft Foundry 中——託管於 Microsoft Azure 並運行在 NVIDIA GB300 Blackwell Ultra GPU 上——現已普遍可用，為 Azure 原生企業構建自主且特定領域的 AI 代理提供了強大新方式。

Anthropic Claude 模型在 Azure 上通過 NVIDIA GB300 GPU 加速，現已在 Microsoft Foundry 中全面推出。
該集成支持企業構建和運行更強大的自主 AI 代理系統，包括跨業務領域的專業子代理。

全新遊戲GPU挑戰者：Bolt Graphics瞄準Nvidia

2026-06-30 00:22 UTC+8

Bolt Graphics推出新款遊戲GPU，旨在與Nvidia競爭。該視頻展示了其技術特點和市場定位。

Bolt Graphics發佈新遊戲GPU，挑戰Nvidia地位。
視頻介紹其性能和創新技術。

螢火蟲航空首次在月球軌道運行NVIDIA Jetson

2026-06-29 23:00 UTC+8

螢火蟲航空的藍色幽靈2號任務將在月球軌道上使用NVIDIA Jetson邊緣AI平台，實現直接在太空進行AI推理，大幅減少數據傳輸延遲。該任務搭載Ocula月球成像服務，用於繪製着陸點、探測礦物組成等，支持未來人類和機器人探索。

螢火蟲航空將在藍色幽靈2號任務中首次在月球軌道運行NVIDIA Jetson邊緣AI平台。
Ocula服務利用Jetson在軌處理圖像數據，僅回傳關鍵信息，減少延遲和帶寬需求。

Import AI 463：自我改進的機器人、10K GPU集羣以及人類時代的輓歌

2026-06-29 21:03 UTC+8

本期Import AI涵蓋NVIDIA的ENPIRE系統實現機器人自主改進、人類預測技術發展的歷史性失敗、騰訊用於調試萬卡GPU集羣的ARGUS系統、關於人工智能導致人類失權的哲學文章，以及LOCUS地方法規語料庫的發佈。

NVIDIA的ENPIRE框架使機器人能夠通過閉環系統自主改進策略，在真實世界任務中達到99%成功率。
歷史表明，專家們一貫低估或誤判重大技術創新的可能性及其社會影響。