NVIDIA

來源分布

NVIDIA Blog13
Hacker News AI12
MarkTechPost10
SiliconANGLE AI3
AWS Machine Learning Blog2
Hugging Face Blog2
LangChain Blog2
Latent Space2

主題分布

晶片50
Agent37
模型15
研究5
創業融資3
政策3

日期線

2026-06-307
2026-07-017
2026-07-087
2026-07-105
2026-07-024
2026-07-074
2026-07-094
2026-07-033

最新動態

NVIDIA 基於 Tile 的 GPU 程式設計編碼指南：從 cuTile 和 Triton 核心到 Flash Attention

2026-07-12 08:01 UTC+8

本教程透過 TileGym 探索 NVIDIA 的基於 tile 的 GPU 程式設計，構建一個可在不同硬體上執行的 Colab 工作流程。我們探測 CUDA 環境，嘗試真實的 cuTile 後端，並在標準 Colab GPU 缺乏 cuTile 堆疊時回退到 Triton。我們學習核心 tile 思想：對整個資料塊進行操作，而不是單個執行緒，然後載入、計算和儲存它們。我們實現了向量加法、融合 GELU、行級 softmax、分塊矩陣乘法和 flash attention，並將每個結果與 PyTorch 進行比較。

介紹 NVIDIA 的 tile 程式設計模型，將操作應用於資料塊而非單個執行緒。
提供可執行的 Colab 指令碼，支援 cuTile 和 Triton 後端。

使用 Amazon SageMaker AI 無伺服器模型定製微調 NVIDIA Nemotron 3 模型

2026-07-10 23:35 UTC+8

本文介紹了 NVIDIA Nemotron 3 模型的獨特架構，包括混合 Mamba-Transformer MoE 設計和支援高達 1M token 的上下文長度。亞馬遜 SageMaker AI 現在推出針對 Nemotron 3 的無伺服器模型定製服務，支援監督微調（SFT）、基於可驗證獎勵的強化學習（RLVR）和基於 AI 反饋的強化學習（RLAIF）三種技術。文章詳細說明了如何透過 SageMaker Studio 控制台或 Python SDK 準備資料、啟動定製任務、監控訓練進度和評估模型，幫助企業將通用模型轉化為領域專用資產。

NVIDIA Nemotron 3 採用 Mamba-Transformer 混合 MoE 架構，僅啟用部分引數即可高效執行，支援超長上下文。
Amazon SageMaker AI 為 Nemotron 3 提供無伺服器模型定製，使用者無需管理基礎設施即可進行微調。

AI能否回答3萬億美元的問題？

2026-07-10 14:22 UTC+8

紅杉資本合夥人David Cahn三年前首次計算了矽谷AI基礎設施鉅額支出的財務影響，他根據Nvidia的GPU收入推匯出需要2000億美元的收入才能收回前期投資。

David Cahn三年前開始計算AI基礎設施投資的回報要求
他基於Nvidia年收入500億美元的資料推算出2000億美元收入門檻

揭開Nemotron Labs 3 Puzzle 75B A9B的面紗：壓縮混合MoE大語言模型實現2.03倍伺服器吞吐量

2026-07-10 03:31 UTC+8

NVIDIA釋出了Nemotron-Labs-3-Puzzle-75B-A9B，這是Nemotron-3-Super的壓縮變體，透過迭代式Puzzle壓縮技術，將總引數量從120.7B降至75.3B，活躍引數從12.8B降至9.3B。在單個8xB200節點上，吞吐量提升至原模型的2.03倍（100 tok/s每使用者）；在單塊H100上，1M token併發數從1提升至8。該模型在多項基準測試中保持高精度，但指令跟隨和智慧體評估略有下降。

NVIDIA釋出壓縮版MoE模型Nemotron-Labs-3-Puzzle-75B-A9B，引數量減少約38%，活躍引數減少27%。
在8xB200節點上實現2.03倍吞吐量提升，在單H100上實現8倍併發請求處理能力。

快速令牌生成成為關鍵差異點，異構推理逐漸普及

2026-07-10 03:14 UTC+8

隨著代理型AI用例增多，即時互動需求推動推理基礎設施重構。d-Matrix與NVIDIA合作推出異構計算解決方案，透過堆疊DRAM和邏輯晶片提升記憶體頻寬，實現低延遲快速令牌生成，開啟新的營收層級。

快速令牌生成是AI推理的關鍵差異點，其價格可達標準令牌的10倍。
d-Matrix的Corsair加速器與NVIDIA GPU結合，構成商業級異構推理方案。

DDN瞄準GPU效率：AI資料基礎設施成為成敗關鍵層

2026-07-10 02:56 UTC+8

DDN執行長Alex Bouzari在RAISE峰會上表示，AI資料基礎設施決定了GPU投資能否獲得回報。全球正在分化成高效利用GPU和閒置GPU的兩類組織。DDN參與了12個主權AI專案，其技術使Salesforce的GPU生產力提升了70%，並得到NVIDIA長期使用驗證。DDN的Infinidat平臺旨在連線分散式邊緣到核心的AI架構，解決多資料中心和多雲的整合難題。

DDN CEO指出，AI資料基礎設施是區分GPU投資成敗的關鍵，高效利用GPU的組織獲得財務回報，而其他組織則浪費資本。
資料主權推動各國建設自主AI工廠，DDN正在參與12個主權AI專案。

NVIDIA釋出Nemotron-Labs-3-Puzzle-75B-A9B：一種壓縮混合MoE大模型，在相同使用者吞吐量下實現2.03倍伺服器吞吐量

2026-07-09 16:47 UTC+8

NVIDIA釋出了Nemotron-Labs-3-Puzzle-75B-A9B，這是Nemotron-3-Super的壓縮變體。透過迭代式Puzzle壓縮，模型引數從120.7B總/12.8B活躍降至75.3B總/9.3B活躍。在單個8xB200節點上，使用者吞吐量達到100 tok/s時，總吞吐量提升至Super的2.03倍；在單個H100上，1M令牌併發數從1提升至8。

引數壓縮：總引數從120.7B降至75.3B，活躍引數從12.8B降至9.3B。
吞吐量提升：8xB200節點上，在匹配使用者吞吐量下總吞吐量提升1.60x至2.14x。

1.3億美元A輪融資，構建開放超級智慧堆疊

2026-07-09 15:48 UTC+8

Prime Intellect 宣佈完成1.3億美元A輪融資，由Radical Ventures領投，NVIDIA、英特爾、戴爾等參投，總融資額超1.5億美元。公司旨在構建開放超級智慧堆疊，利用強化學習（RL）使企業能夠擁有自己的模型最佳化迴圈，而非依賴少數封閉實驗室。其平臺涵蓋訓練、部署和持續改進模型的完整工具鏈，已擁有超6000家客戶，年化收入超1億美元。未來將聚焦長時程代理、遞迴語言模型、自動化科研和持續學習等前沿方向。

Prime Intellect 獲1.3億美元A輪融資，領投方為Radical Ventures，總融資超1.5億美元。
公司構建開放超級智慧堆疊，使企業可透過強化學習擁有自己的模型最佳化閉環。

OpenClaw基金會正式成立

2026-07-09 14:10 UTC+8

OpenClaw從一個週末專案成長為全球性開源運動，每週新增450萬使用者，成為GitHub史上增長最快的倉庫。如今，它正式成立501(c)(3)非營利基金會，旨在保持專案開放、獨立，並由社群驅動。基金會將提供治理、穩定資金，並僱傭全職團隊。合作伙伴包括OpenAI、NVIDIA、微軟、密歇根大學等，共同推動個人AI代理的發展。

OpenClaw從個人專案成長為全球性開源運動，每週新增450萬使用者。
成立501(c)(3)非營利基金會，確保專案長期開放、獨立。

智慧體的資料

2026-07-09 01:16 UTC+8

NVIDIA 透過開放資料和合成資料推動智慧體 AI 發展，強調資料質量、可檢查性和信任。

NVIDIA 釋出了 Nemotron 系列開放資料集，包括預訓練和後訓練樣本。
合成資料有助於在保護公司機密的同時共享有用訊號。

LangChain與NVIDIA聯合釋出NemoClaw深度代理藍圖

2026-07-08 23:04 UTC+8

LangChain與NVIDIA合作推出NemoClaw深度代理藍圖，結合LangChain深度代理程式碼、NVIDIA Nemotron 3 Ultra和OpenShell，為企業構建開放、受治理的代理系統。該藍圖在代理評估中實現了領先效能，且推理成本降低約10倍。

NemoClaw深度代理藍圖整合了LangChain的代理框架、NVIDIA的開放模型Nemotron 3 Ultra以及安全執行時OpenShell。
該藍圖在LangChain代理評估套件中達到0.86的綜合得分，成本僅為4.48美元，相比競爭對手的43.48美元，推理成本降低約10倍。

NVIDIA Nemotron 藉助 LangChain 深度代理框架實現基準領先效能

2026-07-08 23:00 UTC+8

NVIDIA Nemotron 3 Ultra 與 LangChain 深度代理框架結合，在開放模型中取得最高準確率，同時以比頂級封閉模型低 10 倍的推理成本完成更多工。該成果無需重新訓練模型，而是透過最佳化模型周圍環境實現。Abridge、Amdocs、Box 等企業正在將專業代理嵌入其平臺，EY 等系統整合商則基於此開放棧為客戶構建定製化代理。

LangChain 為 NVIDIA Nemotron 3 Ultra 調優的深度代理框架在開放模型中取得最高準確率，任務量更大且成本僅為封閉模型的 1/10。
所有效能提升均來自工程最佳化而非模型重新訓練，調整包括系統提示、工具描述和中介軟體。

在NVIDIA NemoClaw上執行Deep Agents Code：為最敏感程式碼設計的治理藍圖

2026-07-08 23:00 UTC+8

Deep Agents Code現在可作為NVIDIA NemoClaw的治理藍圖執行，使用開放模型Nemotron 3 Ultra，提供預設拒絕網路、人工審批和完整審計日誌，適用於敏感程式碼現代化。

Deep Agents Code (dcode) 作為NemoClaw藍圖，執行開放模型Nemotron 3 Ultra，確保程式碼、模型和審計軌跡自主可控。
預設拒絕網路、人工審批和完整審計軌跡為監管團隊提供所需控制。

ZML釋出免費產品，加速跨AI晶片推理

2026-07-08 16:18 UTC+8

法國AI初創公司ZML在被譽為圖靈獎得主Yann LeCun的支援下，推出了一款免費軟體，旨在使多種開源大型語言模型能夠在包括Nvidia、AMD、Google TPU、Apple Metal和Intel Arc在內的多種晶片上高效執行。

ZML獲得Yann LeCun背書，釋出免費推理加速軟體
支援多種AI晶片，打破Nvidia壟斷格局

NVIDIA的Cosmos-Framework教程：用全模態混合Transformer設計Colab友好的Cosmos 3世界模型微型版

2026-07-08 15:15 UTC+8

本教程從Colab實際操作角度探索NVIDIA的Cosmos框架，誠實地評估真實Cosmos 3檢查點所需的硬體條件。我們檢測執行時環境，基於框架的真實結構、CLI介面和輸入模式，構建並訓練了一個緊湊的全模態混合Transformer模型，該模型共享跨模態注意力，同時將每種模態路由到各自的專家網路。使用合成物理世界資料和自迴歸滾動，展示了模型如何跨文本、視覺和動作模態預測未來潛在狀態。

教程從硬體探測開始，說明為何標準Colab無法執行完整的Cosmos 3 16B+模型
基於NVIDIA cosmos-framework的真實結構，構建了一個約400萬引數的微型全模態混合Transformer

[AINews] Lilian Weng總結35篇關於RSI的套件工程論文

2026-07-08 10:20 UTC+8

本期AINews涵蓋了2026年7月6日至7日的廣泛AI發展。亮點包括Lilian Weng對遞迴自我改進中套件工程深入分析、Meta推出Muse Image和預覽Muse Video（具有代理生成迴圈）、以及Anthropic、LangChain和Google在代理平臺上的重大產品更新。其他值得注意的內容：NVIDIA的Audex音訊模型、Cohere的阿拉伯語ASR、與Hugging Face和NVIDIA的機器人整合、Liquid AI的Antidoom方法減少推理迴圈失敗、以及Anthropic有爭議的J-space可解釋性研究。還涵蓋了代理和法律AI的基準測試、研究自動化和推理效率進展。

Lilian Weng的博文將遞迴自我改進重新聚焦於套件工程而非直接權重修改，強調套件工程對於指定目標和上下文至關重要。
Meta的Muse Image和Muse Video展示了具有規劃、工具使用和自我細化的代理生成，迅速登上公共排行榜高位。

NVIDIA釋出Audex（Nemotron-Labs-Audex-30B-A3B）：統一音訊-文本LLM，保留骨幹網路的文本智慧

2026-07-08 08:50 UTC+8

NVIDIA釋出了Audex，一個統一的音訊-文本大語言模型，採用MoE架構（30B總引數，3B啟用），基於Nemotron-Cascade-2骨幹網路。該模型能處理音訊理解、語音識別、翻譯、TTS和音訊生成，且在多階段SFT和文本RL訓練後，文本效能幾乎無退化。在語音識別上領先開源模型（OpenASR WER 6.82），並能生成通用音訊。模型以非商業許可釋出。

Audex是一個統一的音訊-文本模型，支援多種音訊任務，文本效能保留骨幹網路水平。
採用MoE架構，總引數30B，每token啟用3B引數，設計簡潔，相容標準LLM框架。

AI創新者採用NVIDIA Vera——為何大規模最大單執行緒CPU至關重要

2026-07-07 23:00 UTC+8

NVIDIA Vera是一種專為AI代理時代設計的新型CPU，強調大規模下的最大單執行緒效能。它基於自研Olympus核心，相比前代Grace效能提升50%，並配備高頻寬記憶體與低功耗設計。在代理工作負載中，Vera相比x86 CPU提供1.8倍的持續單核效能，並在真實測試中展現出1.5至1.9倍的速度提升。Vera整合了從工具呼叫到資料處理的全部工作，使AI工廠能最大化GPU利用率。

NVIDIA Vera是一款專為代理AI設計的大規模最大單執行緒CPU。
其Olympus核心相比Grace效能提升50%，並支援高達1.2TB/s記憶體頻寬。

NVIDIA與Hugging Face為開放機器人社群帶來新模型和框架至LeRobot

2026-07-07 14:00 UTC+8

NVIDIA和Hugging Face合作，將NVIDIA Isaac GR00T 1.7模型和Isaac Teleop框架整合到Hugging Face的開源機器人庫LeRobot中，並計劃引入NVIDIA Cosmos 3。這些整合為開發者提供了更易訪問和標準化的機器人開發路徑，推動開放機器人社群的創新。

NVIDIA和Hugging Face合作，將Isaac GR00T 1.7模型和Isaac Teleop框架引入LeRobot。
LeRobot獲得NVIDIA物理AI能力，包括資料收集、模型訓練和模擬工具。

主權AI診斷登上黃金時段

2026-07-07 02:34 UTC+8

Palantir執行長Alex Karp在CNBC上猛烈抨擊AI行業，稱其“瘋狂”，並指責OpenAI和Anthropic對美國企業徵收“財富稅”。然而，他實際上強調了主權AI的重要性，即企業應擁有自己的計算、模型和資料。Palantir與Nvidia合作推出了主權AI OS參考架構，允許客戶在安全、隔離的環境中部署Nvidia的Nemotron模型，這使股價上漲了9%。

Alex Karp在CNBC上批評AI行業，稱其“瘋狂”，並指責AI公司對美國企業徵收“財富稅”。
Karp強調企業應控制自己的計算、模型和資料，即主權AI理念。

開放模型如何推動AI研究

2026-07-07 00:00 UTC+8

在2026年國際機器學習大會（ICML）上，超過2000篇論文引用了NVIDIA GPU，Nemotron、Cosmos和BioNeMo等開放模型成為機器人、生命科學和合成資料生成等AI研究的基礎。NVIDIA有74篇論文被收錄，突出了視覺、強化學習和智慧體訓練等趨勢。

開放前沿模型和基礎設施現已成為AI研究的基礎。
NVIDIA的Nemotron系列被用作推理、資料整理和安全推斷的研究堆疊。

各國如何部署AI以服務於戰略優先事項

2026-07-06 23:00 UTC+8

各國正在投資國內AI基礎設施，包括AI工廠、基於本地資料訓練的基礎模型以及人才培養，以定製化AI滿足本地需求，這一趨勢由生成式和代理式AI驅動。來自歐洲、亞洲和拉丁美洲的案例展示了社會效益。

AI正在重塑經濟和社會，促使各國構建本土AI能力。
AI工廠——下一代資料中心——正成為AI生產的關鍵基礎設施。

AI資料中心

2026-07-06 21:42 UTC+8

Epoch AI的獨立資料庫覆蓋全球67個大型AI資料中心，透過衛星影像、許可證等公開資料追蹤其建設時間線。最大的設施是SpaceXAI在孟菲斯的Colossus 2，IT功率達946 MW，計算能力相當於111.2萬塊H100 GPU。美國集中了大部分資料中心，尤其在得克薩斯、俄亥俄等州。總IT功率容量達10.8 GW，加上冷卻等基礎設施後總設施功率達14 GW，超過紐約市峰值需求。硬體以NVIDIA H100、H200、B200 GPU為主，Google和Amazon也使用自研晶片。

Epoch AI資料庫收錄67個AI資料中心，最大的是SpaceXAI的Colossus 2。
美國擁有最多大型AI資料中心，集中在得克薩斯、俄亥俄等州。

Nvidia悄無聲息地成為AI熱潮背後的銀行

2026-07-05 07:59 UTC+8

Nvidia正在資助購買了其GPU的neocloud公司，透過回租閒置容量和收入分成，逐步從硬體公司轉變為類似銀行的角色。

Nvidia透過融資模式支援neocloud公司購買其GPU
Nvidia回租閒置容量並分享雲收入

Anthropic 推出 Claude Science 測試版：一個用於可重複基因組學、蛋白質組學和化學資訊學管道的多智慧體 AI 工作臺

2026-07-05 00:21 UTC+8

Anthropic 於 2026 年 6 月 30 日釋出了 Claude Science 測試版。該應用基於現有 Claude 模型，採用多智慧體架構：一個協調智慧體將任務分配給領域專家智慧體，一個審查智慧體標記並糾正引文和數字，每個圖表附帶其確切程式碼、環境和完整訊息歷史。它管理本地機器、透過 SSH 的 HPC 以及 Modal 上的計算，並連線 60 多個資料庫和 NVIDIA BioNeMo 技能。

Claude Science 是一個面向科學家的 AI 工作臺，可執行多步驟研究並記錄每個結果的生成過程。
採用多智慧體架構：協調智慧體、領域專家智慧體和審查智慧體協同工作。

NVIDIA HORIZON：一種免手動代理框架，利用Git工作樹實現RTL基準測試100%完成率

2026-07-05 00:04 UTC+8

NVIDIA Research推出HORIZON，一種免手動代理框架，將硬體設計視為基於Git工作樹的倉庫級程式碼演化。該框架在所有評估的RTL基準測試中達到100%透過率，但團隊指出代理式硬體設計尚未完全解決。

HORIZON將設計問題託管為版本控制的Git倉庫，迭代演化程式碼。
使用結構化Markdown框架，包含目標、方向、評估器和驗收謂詞。

NVIDIA AI推出ASPIRE：一種自我改進的機器人框架，在LIBERO-Pro長任務上達到31%零樣本率

2026-07-04 14:32 UTC+8

NVIDIA與多所大學團隊提出ASPIRE框架，透過編寫和除錯機器人程式，將驗證過的修復轉化為可複用的技能庫。在LIBERO-Pro上提升高達77分，並零樣本遷移到未見過的長時域任務。

ASPIRE透過每個原語的軌跡定位故障，而非依賴粗粒度的任務級反饋
技能庫儲存可複用的修復策略，實現跨任務的知識積累

NVCF：大規模部署和路由 GPU 加速 AI 工作負載

2026-07-03 16:18 UTC+8

NVIDIA Cloud Functions (NVCF) 是一個用於大規模部署、管理和執行 GPU 加速工作負載的開源平臺。它支援長期執行的函式和非同步任務，利用 Kubernetes 進行編排，並提供統一控制平面、負載均衡路由、多叢集自動縮放等功能。本文介紹了 NVCF 的架構、工作負載型別、核心能力以及如何使用 Bazel 構建。

NVCF 是 NVIDIA 開源的 GPU 工作負載平臺，支援推理、流處理和批處理。
架構包括控制平面、呼叫平面和計算平面，透過 Kubernetes 管理。

DGX工作站與“前沿”模型：深度調查本地AI的真相

2026-07-03 11:48 UTC+8

本文深入調查NVIDIA DGX工作站的實際能力，揭露其748GB統一記憶體中僅252GB為高速HBM3e，其餘為低速LPDDR5X。透過Cornell、Snowflake等使用案例和GLM-5.2等基準測試，探討其能否承載本地前沿模型推理。

DGX工作站擁有748GB統一記憶體，但僅252GB為高速HBM3e（7.1TB/s），496GB為低速LPDDR5X（396GB/s），NVLink-C2C實測未達標稱900GB/s。
售價約10萬美元，與多GPU RTX PRO 6000、雲推理及Mac Studio等方案競爭，買家需評估是否值得。

Show HN: AI基礎設施知識庫

2026-07-03 01:11 UTC+8

一個面向系統管理員、GPU伺服器工程師、平臺工程師、SRE和MLOps工程師的實用、可引用的知識庫，涵蓋從物理資料中心和InfiniBand網路到Kubernetes、Slurm、Ray、分散式訓練、強化學習後訓練和大規模LLM推理服務的GPU叢集部署、運維和最佳化。涵蓋NVIDIA全系列產品（Ampere、Hopper、Blackwell資料中心GPU，RTX消費級和工作站卡，DGX系統包括DGX Spark），當前以Blackwell Ultra（B300/GB300 NVL72）為重點更新至2026年中。

為運營GPU叢集的工程師提供可引用的實踐指南。
涵蓋硬體、構建、叢集技術、訓練、推理和服務運維全棧。

NVIDIA BioNeMo 加速 Anthropic Claude 科學研究

2026-07-02 22:38 UTC+8

Anthropic 推出了 Claude Science 公開測試版，整合了 NVIDIA BioNeMo Agent Toolkit，使科學家能夠使用自然語言直接與數字代理對話，執行端到端的研究工作流程，加速計算生命科學研究。

Claude Science 與 NVIDIA BioNeMo Agent Toolkit 整合，支援自然語言驅動的科研工作流。
NVIDIA 提供 GPU 加速模型、庫和微服務，大幅提升計算效率。

[AINews] 今天沒發生太多事

2026-07-02 15:10 UTC+8

本期涵蓋Anthropic的Fable 5重新上線並配備安全兜底，生態系統轉向多模型編排。開源模型如GLM-5.2透過ZCode和基準測試取得進展。智慧體基礎設施引入維基記憶和結構化組合模式，Devin Security Swarm展示基於智慧體的漏洞發現。架構進展包括NVIDIA TwoTower和端側推理突破。

Anthropic重新上線Fable 5，附帶安全兜底措施，工具生態迅速整合，使用者轉向多模型編排。
Z.ai推出GLM-5.2的ZCode IDE，基準測試顯示開源模型編碼差距縮小，推理最佳化加速。

NVIDIA 大規模解鎖 AI 算力，邀請資本合作伙伴助力 AI 基礎設施建設

2026-07-02 11:34 UTC+8

隨著 AI 從模型開發轉向生產推理，計算需求加速並轉向持續執行的 AI 工廠。NVIDIA 推出新戰略，透過收入分成和信用支援模式，讓初創企業、模型構建者等獲得大規模加速計算資源。Sharon AI 和 Firmus 等公司已率先部署。

AI 計算需求從開發轉向推理，需要大規模多租戶加速計算
NVIDIA 透過收入分成模式開放計算訪問，降低資本門檻

在 AWS GovCloud（美國）上透過 Amazon Bedrock 執行 NVIDIA Nemotron 和 OpenAI GPT OSS 模型

2026-07-02 02:14 UTC+8

AWS GovCloud（美國）區域新增對 OpenAI 開源 GPT OSS 模型（120B 和 20B）及 NVIDIA Nemotron 系列模型（Nano 9B v2、Nano 12B v2、Nano 30B、Super 120B）的支援，透過 Amazon Bedrock 提供統一的 API 訪問，推理過程完全在美國境內由美國公民運營的基礎設施上進行，滿足 FedRAMP、DoD SRG 等合規要求。

Amazon Bedrock 現支援 OpenAI GPT OSS（120B/20B）和 NVIDIA Nemotron（多個尺寸）模型。
所有推理均在 AWS GovCloud（美國）隔離邊界內進行，資料不離開美國。

NVIDIA 與合作伙伴在美國為美國建設

2026-07-01 21:00 UTC+8

NVIDIA 及其合作伙伴正在投資美國製造業、供應鏈、電網和熟練勞動力，以便美國能夠生產更好的醫療、突破性科學發現、更強的工業生產力以及全球技術領導地位所需的基礎設施。

NVIDIA 與合作伙伴在43個州建設AI基礎設施，計劃在美國生產高達5000億美元的AI基礎設施。
2026年，NVIDIA驅動的AI需求將為美國GDP貢獻4850億美元，並支援超過10萬個就業崗位。

NVIDIA釋出Nemotron-Labs-TwoTower：基於凍結自迴歸骨幹網路的開放權重擴散語言模型

2026-07-01 16:10 UTC+8

NVIDIA釋出了Nemotron-Labs-TwoTower擴散語言模型，該模型採用雙塔架構，在凍結的自迴歸骨幹網路上新增訓練過的去噪器，實現了2.42倍的生成吞吐量提升，同時保留了98.7%的基準質量。模型以開放權重形式釋出，支援擴散、模擬自迴歸和自迴歸三種推理模式。

TwoTower將擴散過程拆分為凍結的AR上下文塔和訓練過的去噪器塔。
在預設配置下，吞吐量提升2.42倍，質量保留98.7%。

在Jetson上透過持久流服務本地AI

2026-07-01 09:00 UTC+8

作者使用NVIDIA Jetson Orin Nano Super和Kokoro-82M模型構建了一個本地文本轉語音應用StreamTTS，利用持久流（S2）而非傳統請求-響應架構，實現了可共享、可重放的即時音訊生成，並解決了慢推理、多使用者公平排程和去重等問題。

使用Jetson Orin Nano Super和Kokoro-82M模型自託管TTS服務。
採用S2持久流架構，支援輸出流的即時追加和重放。

Hugging Face 與 Cerebras 攜手將 Gemma 4 引入即時語音 AI

2026-07-01 08:00 UTC+8

Hugging Face 與 Cerebras 合作，利用 Gemma 4 模型打造即時語音 AI 系統，透過開放模組化架構顯著降低延遲，實現更自然的對話體驗。該系統整合 Nvidia 的語音識別、Cerebras 的推理加速和 Alibaba 的語音合成，已在 9000 多臺 Reachy Mini 機器人中應用。

Hugging Face 和 Cerebras 推出基於 Gemma 4 的即時語音 AI 演示，延遲極低。
系統採用開放的級聯架構：語音輸入→語音識別→模型推理→語音合成→語音輸出。

宣佈8億美元C輪融資：加速向開源AI的轉變

2026-07-01 08:00 UTC+8

Together AI完成8億美元C輪融資，由Aramco Ventures、NVIDIA、Vista Equity等領投，旨在加速開源AI的普及。公司強調，閉源模型的成本無法規模化，而開源模型結合全棧最佳化可實現6-20倍成本降低。Together AI已推出FlashAttention-4、Together Megakernel等創新，成為全球最大的AI token生產商之一。

Together AI完成8億美元C輪融資，用於加速開源AI發展
公司認為閉源模型的成本在規模化應用中不可持續

輝達BioNeMo Agent Toolkit助力生命科學研究人員，與Claude Science整合加速AI應用

2026-07-01 01:00 UTC+8

輝達釋出了BioNeMo Agent Toolkit，與Anthropic的Claude Science整合，使科學家能透過自然語言與AI代理互動，加速藥物發現、基因組學等生命科學研究。該工具包整合了輝達的加速模型、庫和微服務，包括Parabricks、RAPIDS-singlecell和nvMolKit，顯著提升計算速度。全球前20大藥企中有18家使用輝達BioNeMo。Claude Science現已進入公開測試。

輝達BioNeMo Agent Toolkit與Anthropic的Claude Science整合，提供加速的AI工作流
工具包包含Parabricks、RAPIDS-singlecell和nvMolKit等加速工具，可大幅縮短計算時間

Anthropic推出Claude Science：專為科研打造的AI工作臺

2026-07-01 01:00 UTC+8

Anthropic於週二推出Claude Science，這是一款面向科學家的新應用，可在macOS和Linux上本地執行或遠端使用。該工具旨在整合科研人員常用的資料庫和工具，如PubMed、Jupyter、R和終端，提供一站式研究環境。目前處於測試階段，主要面向生命科學領域，但未來計劃擴充套件。Claude Science基於標準Claude模型，透過協調代理訪問超過60個資料庫，並利用Nvidia BioNeMo工具包連線生命科學模型。它還能生成視覺化內容（如3D蛋白質結構），並與高效能運算叢集或Modal賬戶整合，處理大規模計算任務。

Anthropic推出Claude Science，一個集多種工具於一體的AI科研工作臺，目前處於測試階段。
主要面向生命科學研究者，但可透過Claude付費計劃（Pro、Max、Team、Enterprise）使用。

NVIDIA 推理軟體堆疊如何實現最低令牌成本

2026-06-30 23:00 UTC+8

NVIDIA 的推理軟體堆疊透過與 GPU、CPU、網路和系統的協同設計，並藉助開源生態系統，持續提升硬體效能。在 Blackwell 平臺上，該軟體堆疊在一個月內將 DeepSeek V4 模型的令牌成本降低了 5 倍。文章詳細介紹了軟體最佳化如何透過生產運營、應用加速和基礎設施訪問三個層次，將單個最佳化轉化為系統級效能提升，從而降低每令牌成本。

NVIDIA 全棧推理軟體透過協同設計，在 Blackwell 平臺上一個月內將令牌成本降低 5 倍。
Baseten、Cognition 等公司利用 TensorRT-LLM 和 Dynamo 框架實現了顯著效能提升。

賈維爾·辛格如何助力機器人——以及開發者——更快前進

2026-06-30 23:00 UTC+8

賈維爾·辛格是NVIDIA Isaac ROS團隊的負責人，致力於為物理AI時代構建基礎設施。他的工作基於開源ROS 2框架，提供CUDA加速庫和AI模型，支援自主移動機器人、操控系統和人形機器人。從少年時期的LEGO Mindstorms起步，辛格在伯克利學習後加入NVIDIA，其實習專案最終演變為Isaac ROS。他強調開源的重要性，認為它能給開發者信心，並加速機器人領域的未來。

賈維爾·辛格領導NVIDIA Isaac ROS團隊，專注於機器人軟體基礎設施。
Isaac ROS基於開源ROS 2，提供模組化的CUDA加速包，可靈活組合。

進入Omniverse：透過合成資料和微調提高視覺AI代理準確性的三種工作流程

2026-06-30 21:00 UTC+8

視覺AI代理正成為將物理世界影片資料轉化為工廠、城市等環境運營智慧的實用方式，但面臨資料缺口、微調專業知識和複雜組裝等挑戰。NVIDIA Metropolis代理技能和藍圖結合Omniverse的OpenUSD模擬和合成資料生成，提供可重用工作流。文章透過康寧、Linker Vision和Foxconn三個案例展示瞭如何生成缺陷資料、擴充套件場景覆蓋並部署影片分析代理。

視覺AI代理面臨資料缺口、微調專業知識缺乏和組裝複雜等挑戰。
NVIDIA Metropolis技能和藍圖結合Omniverse OpenUSD模擬提供可重用工作流。

戳破GPU泡沫：Moondream的流水線解碼技術

2026-06-30 13:14 UTC+8

Moondream的推理引擎Photon透過流水線解碼技術，將GPU空閒時間降至最低，在NVIDIA B200上實現了約33ms的近即時視覺語言模型推理，解碼吞吐量提升高達35%。該技術透過重疊CPU和GPU工作，消除了傳統逐令牌解碼中的“GPU泡沫”。

Photon引擎利用流水線解碼技術隱藏GPU空閒時間，提高推理效率。
透過乒乓槽位、先前饋後取樣和殭屍機制三種關鍵技術實現流水線。

NVIDIA BioNeMo Agent Toolkit：將生物分子模型轉化為AI智慧體的可呼叫技能，助力藥物發現

2026-06-30 03:06 UTC+8

NVIDIA開源了BioNeMo Agent Toolkit，將OpenFold3、DiffDock、GenMol等生物分子模型封裝為AI智慧體可呼叫的技能。每個技能描述模型用途、輸入、輸出和失敗模式，智慧體可自主選擇、執行和解釋結果。在Codex CLI和GPT-5.5 fast基準測試中，技能將任務完成率從57.1%提升至100%，代幣效率翻倍。

BioNeMo Agent Toolkit將NVIDIA生物分子模型打包為文件化的可呼叫智慧體技能。
技能涵蓋蛋白質摺疊、分子對接、生成化學、基因組學和蛋白質設計。

Claude 遇見 Blackwell Ultra：Anthropic 模型現已在 Azure 上搭載 NVIDIA GB300 執行

2026-06-30 01:00 UTC+8

Anthropic 的 Claude 模型在 Microsoft Foundry 中——託管於 Microsoft Azure 並執行在 NVIDIA GB300 Blackwell Ultra GPU 上——現已普遍可用，為 Azure 原生企業構建自主且特定領域的 AI 代理提供了強大新方式。

Anthropic Claude 模型在 Azure 上透過 NVIDIA GB300 GPU 加速，現已在 Microsoft Foundry 中全面推出。
該整合支援企業構建和執行更強大的自主 AI 代理系統，包括跨業務領域的專業子代理。

全新遊戲GPU挑戰者：Bolt Graphics瞄準Nvidia

2026-06-30 00:22 UTC+8

Bolt Graphics推出新款遊戲GPU，旨在與Nvidia競爭。該影片展示了其技術特點和市場定位。

Bolt Graphics釋出新遊戲GPU，挑戰Nvidia地位。
影片介紹其效能和創新技術。

螢火蟲航空首次在月球軌道執行NVIDIA Jetson

2026-06-29 23:00 UTC+8

螢火蟲航空的藍色幽靈2號任務將在月球軌道上使用NVIDIA Jetson邊緣AI平臺，實現直接在太空進行AI推理，大幅減少資料傳輸延遲。該任務搭載Ocula月球成像服務，用於繪製著陸點、探測礦物組成等，支援未來人類和機器人探索。

螢火蟲航空將在藍色幽靈2號任務中首次在月球軌道執行NVIDIA Jetson邊緣AI平臺。
Ocula服務利用Jetson在軌處理影像資料，僅回傳關鍵資訊，減少延遲和頻寬需求。

Import AI 463：自我改進的機器人、10K GPU叢集以及人類時代的輓歌

2026-06-29 21:03 UTC+8

本期Import AI涵蓋NVIDIA的ENPIRE系統實現機器人自主改進、人類預測技術發展的歷史性失敗、騰訊用於除錯萬卡GPU叢集的ARGUS系統、關於人工智慧導致人類失權的哲學文章，以及LOCUS地方法規語料庫的釋出。

NVIDIA的ENPIRE框架使機器人能夠透過閉環系統自主改進策略，在真實世界任務中達到99%成功率。
歷史表明，專家們一貫低估或誤判重大技術創新的可能性及其社會影響。