GPU 基礎設施 AI News

GPU 基礎設施動態

AMD Advancing AI 2026：與AMD的Alan Smith探討CDNA5架構

2026-07-28 05:17 UTC+8

在AMD Advancing AI 2026活動上，AMD公司研究員兼資料中心GPU首席架構師Alan Smith詳細介紹了全新CDNA5架構。該架構從傳統的GCN基礎遷移至RDNA，採用分離式計算小晶片設計，分別最佳化HPC（雙精度）和AI（張量）工作負載。此外，CDNA5淘汰了Wave64支援，轉而使用四個SIMD32單元執行Wave32指令，並將每波前可訪問的向量暫存器（VGPR）數量從256提升至1024。快取系統也進行了重構，採用每基礎晶片的客戶端L2快取，替代了此前的Infinity Cache，以提升全域性原子操作頻寬和能效。

CDNA5從GCN架構遷移至RDNA，實現現代計算效率。
採用雙計算小晶片設計：一個面向HPC（雙精度），另一個面向AI（張量）。

開放安全AI聯盟旨在開源AI安全防禦

2026-07-28 02:34 UTC+8

由Nvidia、Hugging Face等公司組成的開放安全AI聯盟（Open Secure AI Alliance）主張透過開源AI模型和工具提升安全性，認為開放權重和框架能讓防禦者獲得更大的控制權和可見性，而非依賴單一閉源供應商。聯盟貢獻了多個開源專案，包括Nvidia的NOOA代理框架、Hugging Face的Safetensors格式等。該倡議旨在影響政策制定者，呼籲不要預設限制開放模型。

聯盟認為開放模型和工具鏈能增強防禦能力，閉源反而將風險隱藏在供應商控制之後。
Nvidia貢獻了NOOA開源代理框架，用於追蹤、審計和治理AI代理行為。

Show HN：KBlip – 將來自100個來源的AI/LLM新聞轉化為每日摘要

2026-07-28 00:41 UTC+8

KBlip是一個新工具，它彙總來自100個來源的AI/LLM新聞，並生成每日摘要執行緒。本文總結了當天的大量AI釋出，包括新模型（如Kimi K3、Nemotron 3 Embed）、新工具（如WISP流引擎、Krasis執行時、Open WebUI v0.11.0）以及代理框架和基準測試。重點包括：AI編碼代理在3天內自主重構了75萬行應用且零缺陷；WISP引擎可在消費級硬體上執行2T+引數的MoE模型；以及社群將SGLang移植到V100 GPU。

KBlip從100個來源聚合AI/LLM新聞並生成每日摘要執行緒。
當天亮點包括AI編碼代理零缺陷重構大型應用、WISP流引擎使巨量模型可在消費級硬體執行。

行業領袖聯合成立開放安全AI聯盟，致力於AI安全與保障

2026-07-27 17:00 UTC+8

開放安全AI聯盟基於Linux基金會的Akrites和OpenSSF專案，聯合眾多科技巨頭開發開放的AI網路安全工具。聯盟強調開放模型對於防禦者檢查、適應和部署AI至關重要，並引用Hugging Face事件中開放權重GLM 5.2模型成功防禦的案例。主要貢獻包括NVIDIA的NOOA框架、HPE的零信任身份、Hugging Face的Safetensors、IBM/Red Hat的Lightwell、微軟的MDASH以及SpaceXAI的Grok Build。

開放安全AI聯盟旨在提供開放的AI安全工具，涉及NVIDIA、微軟、IBM等主要公司。
聯盟強調開放AI模型對於防禦者擁有透明和可定製的網路安全能力至關重要。

Nvidia、Palantir、Hugging Face等33家機構聯合成立開放安全AI聯盟，抵禦開源AI網路安全威脅

2026-07-27 17:00 UTC+8

由Nvidia、Palantir、Hugging Face等33家技術巨頭組成的開放安全AI聯盟於週一成立，旨在開發技術和工具，透過快速識別和修補漏洞來保護開源權重AI模型。該聯盟的建立反映了業界對於開源AI安全性的關注，同時也暴露了當前監管框架在應對去中心化開源模型方面的不足。

33家合作伙伴成立開放安全AI聯盟，致力於保護開源AI模型免受網路威脅。
聯盟成員包括Nvidia、Adobe、Cisco、IBM、Microsoft等技術巨頭，但OpenAI和Anthropic缺席。

NVIDIA利用Vera CPU加速下一代CPU和GPU的設計

2026-07-27 08:45 UTC+8

NVIDIA與Cadence和Synopsys合作，最佳化用於Vera CPU的電子設計自動化（EDA）應用，以加速其下一代晶片設計。透過部署Vera到EDA工作流，NVIDIA展示了高效能CPU架構如何提升模擬、驗證和實現等關鍵設計環節的效率。初步測試顯示，Cadence Jasper和Synopsys VCS等工具在選定工作負載上效能提升高達1.5倍。

NVIDIA與Cadence、Synopsys合作，最佳化面向Vera CPU的EDA工具。
Vera叢集已部署到NVIDIA的EDA流程中，用於設計下一代CPU和GPU。

The Sequence Radar #901：上週AI動態：更智慧的模型、物理機器與擴充套件中的AI棧

2026-07-26 20:02 UTC+8

Anthropic釋出Opus 5，提升了長期推理和代理編碼能力；Travis Kalanick的Atoms公司融資17億美元，專注於物理AI；Poolside推出Laguna S 2.1開源模型；OpenAI模型在測試中突破安全限制；Alphabet和AMD展示了AI基礎設施的鉅額投資；OpenRouter可能被收購，凸顯分發層的價值。

Anthropic的Opus 5在長期推理和代理編碼方面取得進展。
Atoms融資17億美元，押注物理AI。

George Hotz 在 AMD Advancing AI 2026 上的演講 [影片]

2026-07-26 08:20 UTC+8

George Hotz 在 AMD Advancing AI 2026 活動上發表演講，影片已上線。

George Hotz 在 AMD Advancing AI 2026 發表演講。
演講影片可在 YouTube 觀看。

AMD釋出機器可讀ISA，讓前沿模型為其編寫GPU核心

2026-07-26 05:21 UTC+8

AMD在舊金山舉行的Advancing AI活動中釋出了ROCm.AI，利用前沿AI模型自動最佳化GPU核心和推理效能，透過釋出機器可讀ISA使模型能夠原生程式設計AMD硬體，從而繞過CUDA護城河。

AMD推出ROCm.AI，允許使用者透過程式碼助手自動最佳化GPU核心。
AMD釋出機器可讀ISA，使前沿模型能夠直接為AMD硬體程式設計。

NVLink、NVSwitch及相關技術詳解

2026-07-26 04:03 UTC+8

本文深入探討了NVIDIA的NVLink和NVSwitch技術，從物理層訊號傳輸原理出發，解釋了SerDes、PAM4調變、前向糾錯等關鍵概念，並系統回顧了從P100到B200的歷代演進，最後展望了Vera Rubin、Rubin Ultra NVL576和Feynman等未來路線圖。

NVLink是一種scale-up架構，旨在將多個GPU緊密連線，如同單個巨型GPU。
物理層採用SerDes、PAM4訊號和前向糾錯，在功耗和距離間權衡。

認識 Open Dreamer：基於 JAX/Flax 復現 Dreamer 4 世界模型管道，完整訓練配方已釋出

2026-07-26 02:59 UTC+8

Open Dreamer 是 Dreamer 4 世界模型管道的開源實現，使用 JAX 和 Flax NNX 編寫。它包括訓練管道和推理程式碼，並提供了 Minecraft 的即時演示。該實現使用了 1.6B 引數的動態模型，在 B200 上實現了 57-58% 的模型 FLOPs 利用率。穩定性是最大的挑戰，研究團隊記錄了六種關鍵的穩定性修復方法。

Open Dreamer 在 JAX/Flax NNX 中復現了 Dreamer 4 管道，包含訓練程式碼和 Minecraft 演示。
動態模型為 1.6B 引數，30 層，d_model 1920，使用 Muon 最佳化器訓練 200K 步。

使用TileLang設計高效能GPU核心：張量核心GEMM、融合Softmax、FlashAttention與自動調優

2026-07-26 02:08 UTC+8

本教程介紹了TileLang，一種用於設計高效能GPU核心的高階Python領域特定語言。透過逐步實現向量加法、分塊張量核心矩陣乘法、融合偏置和GELU的GEMM、行式Softmax以及FlashAttention，展示瞭如何利用編譯器處理執行緒對映、記憶體佈局和底層CUDA指令生成。同時對比了與PyTorch和cuBLAS的效能，並進行了自動調優。

TileLang是一種基於TVM的高階Python DSL，簡化了GPU核心的設計與編譯。
逐步實現了從簡單向量加法到複雜的FlashAttention核心。

Datalab Marker v2 vs MinerU、Docling 和 Liteparse：基準測試對比

2026-07-25 12:42 UTC+8

Datalab 釋出了 Marker 2，這是一個完全重寫的開源文件轉換管道。在 olmOCR-bench 基準測試中，平衡模式得分 76.0%，單塊 B200 GPU 上吞吐量達 2.9 頁/秒，是 MinerU 管道後端的 5 倍以上，同時準確率和速度均超過 Docling。本文詳細對比了 Marker 2 與 MinerU、Docling 和 LiteParse 的效能、許可證和適用場景。

Marker 2 平衡模式在 olmOCR-bench 上得分 76.0%，吞吐量 2.9 頁/秒，是 MinerU 的 5.4 倍。
Marker 2 在準確率和速度上均優於 Docling：76.0% vs 50.3%，2.9 頁/秒 vs 2.1 頁/秒。

Datalab的Marker 2與MinerU、Docling和LiteParse對比：在olmOCR基準測試中得分76.0，吞吐量達MinerU的5倍

2026-07-25 10:14 UTC+8

Datalab釋出了Marker 2，這是一個完全重寫的開源文件轉換管道。在olmOCR-bench基準測試中，其平衡模式得分76.0%，在單個B200 GPU上達到每秒2.9頁的吞吐量，是MinerU管道後端的5倍以上，同時在準確性和速度上均超越Docling。文章還對比了Marker 2與MinerU、Docling和LiteParse在效能、許可和用例方面的差異。

Marker 2平衡模式在olmOCR-bench上得分76.0%，吞吐量2.9頁/秒，是MinerU的5.4倍。
Marker 2在準確性和速度上均超越Docling（76.0% vs 50.3%，2.9 vs 2.1頁/秒）。

如何使用百度的Unlimited-OCR構建高解析度影像和多頁PDF的端到端OCR流水線

2026-07-24 13:16 UTC+8

本教程將指導您使用百度的Unlimited-OCR模型，構建一個完整的文件影像和多頁PDF OCR流水線。從配置GPU環境到比較高細節平鋪Gundam推理與更快的Base模式，您將學習如何處理密集佈局、表格和跨頁內容，並實現可重複的端到端流水線。

配置GPU環境並安裝百度的Unlimited-OCR依賴項。
生成帶有表格和腳註的結構化示例文件。

AI峰會上，韓國與輝達及合作伙伴描繪AI未來

2026-07-24 12:34 UTC+8

在舊金山AI峰會上，韓國總統李在明與頂級商業領袖和研究人員會晤輝達及生態系統合作伙伴，共同規劃韓國AI發展藍圖。雙方宣佈成立輝達與韓國科學技術院（KAIST）聯合AI研究實驗室，並深化與SK集團的合作，推動韓國成為全球AI創新中心。

韓國總統李在明在舊金山AI峰會上與輝達及合作伙伴會晤，推進韓國AI戰略。
輝達與KAIST宣佈成立首個聯合AI研究實驗室，專注於代理型AI。

GPU的成本遠不止AI資料中心

2026-07-24 10:35 UTC+8

文章探討AI所用GPU從製造到廢棄的環境影響，並與遊戲等行業比較，質疑AI好處是否值得代價。

GPU製造和運營導致汙染、水消耗和電子垃圾。
AI資料中心在美國迅速擴張，引發社群擔憂。

Nvidia將40億引數世界模型部署到機器人上【每週物理AI綜述】

2026-07-24 06:58 UTC+8

Nvidia在SIGGRAPH上釋出了Cosmos 3 Edge，一個40億引數的世界基礎模型，可在Jetson Thor上以約15Hz執行。同時，本週多篇研究論文和工業動態展示了機器人AI領域的快速發展，包括Xiaomi-Robotics-1、RoboTTT等。

Nvidia推出Cosmos 3 Edge，40億引數的世界模型，可在邊緣裝置執行。
Xiaomi-Robotics-1展示了基於10萬小時真實軌跡的VLA模型。

4523個AI投資預測揭示了模型之間的分歧

2026-07-24 04:31 UTC+8

iPulse AI創始人Russlan Ramdowar分享了一項大規模市場分析：4523個模型-資產評級顯示76.9%的資產存在正反觀點分歧，97.2%的中性訊號實際上包含對立意見。文章強調，分歧本身是重要訊號，而非噪聲，並呼籲投資工具應展示內部爭論而非僅給出單一結論。

分析涵蓋377個資產，共4523個AI模型評級，76.9%的資產包含正反兩種觀點。
中性訊號中97.2%實際包含對立評級，說明"中性"常隱藏激烈分歧。

施耐德電氣與AMD釋出AI工廠部署藍圖

2026-07-24 03:11 UTC+8

施耐德電氣和AMD聯合釋出了一項針對AI工廠部署的藍圖，其設計支援高達246kW的AI機架。

施耐德電氣與AMD合作推出AI工廠部署藍圖。
該藍圖設計支援高達246kW的AI機架。

2026年7月：LangChain 新聞通訊 — NemoClaw 藍圖、OpenWiki Brains 等

2026-07-24 02:39 UTC+8

本期內容包括：Jensen Huang 與 Harrison 探討開放代理系統的未來，釋出 NVIDIA NemoClaw for LangChain Deep Agents 藍圖；LangSmith Sandboxes 免費試用、Fleet Slack 整合、語音追蹤；開源專案 OpenWiki Brains、Deep Agents 與 Harbor 統一評估棧、RLMs 動態子代理；新課程《Deep Agents 入門》；以及多場線下活動和客戶案例。

Jensen Huang 和 Harrison 強調開放代理系統的重要性，並推出 NemoClaw 藍圖。
LangSmith 推出 Sandboxes 免費試用、Slack 整合和語音追蹤功能。

“我們喜歡兩種模型都能使用的世界”：NVIDIA如何看待本地模型與前沿模型

2026-07-24 02:12 UTC+8

NVIDIA高階總監Joey Conway表示，本地小型模型與前沿大模型正協同工作，透過路由器分配任務，企業可藉此降低成本、提高效率。NVIDIA推出DGX Spark等硬體支援本地執行大模型，並強調資料控制與安全性。

NVIDIA提倡本地模型與前沿模型相結合，透過路由器分配簡單與複雜任務。
企業可使用DGX Spark等裝置本地執行高達2000億引數的模型，完全控制資料。

推進AI 2026 – 與AMD共建未來 [影片]

2026-07-24 01:08 UTC+8

AMD在AI領域的佈局與未來展望，聚焦2026年的技術突破與產品路線圖。

AMD釋出AI加速器與晶片路線圖
強調開放軟體生態與開發者支援

一塊GPU能容納多少開發者？

2026-07-23 21:22 UTC+8

本文探討了自建AI編碼代理推理基礎設施的成本與權衡。由於API token消耗激增，許多組織開始考慮自託管GPU。文章分析了token使用模式、硬體選項（從DGX Spark到8×B200）以及併發使用者對任務完成時間的影響，提供了決策參考。

Token成本波動大：90百分位使用者年花費約$7,300，99百分位接近$90,000。
自託管GPU需24/7支付，利用率是關鍵，平均僅15-22%。

The Sequence Opinion #900：超越GPU：谷歌是唯一能與輝達抗衡的全棧競爭對手嗎？

2026-07-23 19:03 UTC+8

一個關於無人談論的最大AI競爭對手關係的論點。

輝達的成功不僅是GPU硬體，而是整個工業系統。
谷歌是唯一在晶片、互連、伺服器、編譯器、框架、雲服務、前沿模型和應用方面全面對標輝達的公司。

AMD擬向Anthropic投資50億美元，達成AI基礎設施協議

2026-07-23 18:00 UTC+8

AMD與Anthropic簽署基礎設施協議，計劃投資高達50億美元，Anthropic將部署多達2吉瓦使用AMD Instinct MI450系列加速器的AI系統，首批1吉瓦部署將於2027年上半年開始。這項投資與部署里程碑掛鉤，同時還包括多年代工程合作，利用Claude最佳化AMD硬體工作負載。

AMD向Anthropic投資50億美元，用於AI基礎設施部署
Anthropic將部署高達2吉瓦的AMD Instinct MI450系列加速器，首批1吉瓦2027年上半年啟動

Gigatoken：一款 Rust BPE 分詞器，編碼速度高達 24.53 GB/s，比 HuggingFace Tokenizers 快 989 倍

2026-07-23 16:01 UTC+8

Gigatoken 是斯坦福博士生 Marcel Rød 開發的一款 MIT 許可的 Rust BPE 分詞器，在 144 核 AMD EPYC 9565 上以 24.53 GB/s 的速度對 GPT-2 進行分詞，比 HuggingFace tokenizers 快 989 倍，比 tiktoken 快 681 倍。其速度提升並非來自更快的 BPE 合併迴圈，而是來自手寫的 SWAR 預分詞器和預分詞快取。支援 23 種分詞器家族，但 SentencePiece 詞彙表的速度提升僅為 7–22 倍。相容模式可保持精確輸出一致，但速度約為 200–300 倍。

Gigatoken 在 144 核 AMD EPYC 9565 上達到 24.53 GB/s，比 HuggingFace tokenizers 快 989 倍，比 tiktoken 快 681 倍。
速度提升來自手寫 SWAR 預分詞器和預分詞快取，而非更快的 BPE 合併迴圈。

原生多維亞二次運算元：透過輸入依賴的長卷積實現

2026-07-23 12:00 UTC+8

論文提出HyenaND，一種直接對多維資料原生幾何結構進行操作的亞二次、全域性、輸入依賴運算元。它透過隱式引數化的全域性多維卷積核實現，避免了傳統注意力或迴圈模型中的結構破壞問題。CUDA實現nSubQ融合FFT卷積路徑，實現O(L log L)縮放加速。在長上下文基因組學、計算機視覺、醫學影像和PDE建模中，純HyenaND堆疊匹配強注意力基線，混合配置超越純注意力和強迴圈混合模型。

HyenaND是一種新型亞二次運算元，可直接處理多維資料原生幾何結構，無需光柵化。
採用隱式引數化的全域性多維卷積核，實現輸入依賴性。

基於Intel TDX的NVIDIA H100機密GPU推理效能基準測試

2026-07-23 12:00 UTC+8

一項新研究評估了在NVIDIA H100 GPU上啟用機密計算對大型語言模型推理效能的影響。測試使用Mistral-7B和Qwen3-30B-A3B模型，發現機密模式使首令牌延遲平均增加21.8%-27.8%，全域性令牌吞吐量下降17.7%-21.1%，且較大模型更早達到飽和。結果表明機密GPU推理在負載下仍可保持可用吞吐量，但容量規劃需考慮效能損失和早期飽和現象。

機密計算正成為AI推理部署的實際需求，但效能成本因工作負載而異。
在Intel TDX機密例項中，使用NVIDIA H100 GPU測試了兩種模型的機密與非機密模式。

NVIDIA AI超級計算機在海軍研究生院上線

2026-07-23 10:00 UTC+8

輝達創始人兼CEO黃仁勳在加州蒙特雷的海軍研究生院（NPS）為一臺NVIDIA DGX GB300系統舉行了上線儀式，將全球最強大的AI平臺之一提供給該校超過1500名學生和600名教職員工使用。該系統用於天氣預測、網路安全、災害韌性等領域的模型訓練和推理，標誌著NPS與輝達在AI教育與應用合作的最新進展。

黃仁勳主持了DGX GB300超級計算機的上線儀式，該系統專為軍事教育機構設計。
系統將支援NPS的AI研究，涵蓋天氣預報、網路安全和災害響應。

展示 HN：AgentNest —— AI 代理的自託管沙箱

2026-07-23 09:54 UTC+8

AgentNest 是一個開源執行時，用於在安全、可丟棄的沙箱中執行 AI 代理程式碼。它支援 Python、shell 命令、檔案、包、瀏覽器、GPU 和 Git，具有精細的網路策略、有狀態的會話和可分支狀態。自託管且可擴充套件，與 LangChain、MCP 等整合。

自託管沙箱，具有安全預設和出口白名單
有狀態的 Python 會話和可分支沙箱，適合代理工作流

AMD與Anthropic達成50億美元AI基礎設施合作

2026-07-22 22:44 UTC+8

AMD宣佈向Anthropic投資高達50億美元，並提供計算能力支援。Anthropic將部署高達2吉瓦的AMD Instinct MI450 AI GPU，計劃於2027年上半年部署首個吉瓦。雙方還將開展多年工程合作，AMD在其軟體開發中使用Anthropic的Claude模型。

AMD向Anthropic投資50億美元並擴大其計算能力
Anthropic將部署2吉瓦AMD Instinct MI450 GPU，首批2027年上半年上線

NVIDIA 開源首個 GPU 加速的醫學物理模擬框架

2026-07-22 21:00 UTC+8

NVIDIA 宣佈開源其 GPU 加速的醫學物理模擬框架，用於醫療保健機器人。該框架可模擬解剖結構與器械的互動，生成邊緣案例場景，並在模擬環境中訓練機器人。作為 Isaac for Healthcare 的一部分，它利用 CUDA 和生成式 AI 並行執行數千個模擬，將訓練時間從數小時縮短至兩分鐘以內。早期採用者包括 CMR Surgical、強生醫療科技和美敦力。

NVIDIA 開源 GPU 加速的醫學物理模擬框架，助力醫療機器人開發。
模擬血管解剖、導管等柔性器械以及 X 射線成像。

從畫素到預後：卷積與GLCM特徵融合實現白內障四類嚴重度自動分級

2026-07-22 12:00 UTC+8

研究提出一種低成本自動白內障嚴重度分級系統，透過融合卷積神經網路（CNN）深度特徵與五種手工設計的灰度共生矩陣（GLCM）及強度描述符，使用支援向量機（SVM）對標準消費級眼部照片進行四類分級。在300張臨床影像上達到95.0%準確率，無需GPU或專用相機，適合資源有限環境下的初級醫療與遠端醫療。

融合CNN深度特徵與GLCM紋理特徵實現四類白內障分級，準確率95.0%。
無需GPU加速或專用相機，適用於初級醫療和遠端醫療。

硬體機制動態限制AI效能

2026-07-22 09:01 UTC+8

隨著AI模型融入關鍵系統，現有軟體安全措施存在被繞過的風險。研究人員提出一組微架構旋鈕，透過動態控制GPU記憶體子系統的資源（如L2快取大小、延遲、頻寬和共享記憶體埠訪問率），實現對AI效能的細粒度執行時限制，最高可削減80%效能，且實現成本極低。

軟體安全措施可能被足夠智慧的AI模型繞過，硬體級安全至關重要。
提出四個微架構旋鈕：L2大小、延遲、頻寬和共享記憶體埠訪問率。

智慧體叢集對本地AI大有益處

2026-07-22 08:43 UTC+8

本文分析了本地AI開發的成本困境，指出單個智慧體執行時效能有限且成本高昂。然而，透過使用智慧體叢集（agent swarms），可以並行處理大量任務，充分利用本地GPU資源，從而大幅降低每Token的成本。文章透過具體資料對比，展示了在本地硬體上執行叢集相比API服務的顯著成本優勢，並預測隨著智慧體模式的流行，本地AI將迎來新的發展機遇。

本地AI執行大型模型需要昂貴硬體，單智慧體效能受限。
智慧體叢集透過並行處理大量任務，顯著提高GPU利用率。

Poolside 釋出 Laguna S 2.1：開源權重代理編碼模型，在 SWE-Bench Multilingual 上表現超越同類

2026-07-22 08:01 UTC+8

Poolside 釋出了 Laguna S 2.1，一款 118B 引數的開源權重混合專家（MoE）編碼模型，每 token 僅啟用 8B 引數，支援 1M token 上下文視窗。該模型在代理編碼基準測試中擊敗了多個體積數倍於它的模型，並以 4-bit 量化可在單個 NVIDIA DGX Spark 上執行。訓練耗時不到九周，使用 4096 塊 H200 GPU。模型提供兩種思考模式，預設“最大思考”模式帶來顯著效能提升，但 token 消耗也更高。

Laguna S 2.1 是 118B 引數（8B 啟用）的 MoE 編碼模型，上下文視窗達 1M token，採用 OpenMDW-1.1 開源許可證。
在 Terminal-Bench 2.1 和 SWE-Bench Multilingual 上分別取得 70.2% 和 78.5% 的分數，領先同類開源模型。

在沃斯堡製造：緯創資通開設先進製造工廠，生產輝達AI系統

2026-07-22 06:35 UTC+8

緯創資通在德克薩斯州沃斯堡開設其首家美國製造工廠，生產輝達GB300 Grace Blackwell Ultra和Vera Rubin超級晶片，投資7億美元，創造超500個就業崗位，並利用數字孿生技術進行虛擬模擬。

緯創資通在沃斯堡開設32.4萬平方英尺的先進製造工廠，生產輝達AI超級晶片。
工廠投資7億美元，計劃年底前創造1000個就業崗位。

我測試了System76 Thelio Mira：它是我夢想中的定製Linux桌上型電腦

2026-07-22 06:30 UTC+8

System76 Thelio Mira Custom是一款幾乎無聲的'精品'Linux工作站，實際上感覺非常實用。它搭載AMD Ryzen 9000處理器和Nvidia RTX 5070，支援液冷和PCIe 5.0，為AI工作負載和創意任務提供了強勁效能。

高效能AMD Ryzen 9000系列處理器和Nvidia RTX 5070顯示卡，支援液冷和PCIe 5.0。
專為AI工作負載設計，支援GPU切換和CUDA工具包。

使用 NVIDIA srt-slurm、SLURM 配方、引數掃描和帕累託分析驗證分散式 LLM 服務基準測試

2026-07-22 00:29 UTC+8

本教程探討了 NVIDIA 的 srt-slurm 框架，學習如何使用 srtctl 將宣告式 YAML 配置轉換為可重複的 SLURM 基準測試工作流，用於分散式 LLM 服務。在 Google Colab 中設定專案，檢查內部架構，定義叢集配置，試執行內建和自定義配方，併為 DeepSeek-R1 建模分離的預填充和解碼部署。還生成引數掃描，與型別化 Python API 互動，驗證擴充套件配置，並透過吞吐量與延遲的帕累託前沿分析模擬的基準測試結果。

srtctl 將 YAML 配置轉化為 SLURM 基準測試工作流
支援分離的預填充和解碼部署

NVIDIA Vera Rubin：每瓦效能領先，為全球合作伙伴提供最低令牌成本

2026-07-21 23:36 UTC+8

NVIDIA Vera Rubin NVL72 正加速生產，與 CoreWeave、Google Cloud、Microsoft Azure 和 Oracle Cloud Infrastructure 等合作伙伴共同部署。該平臺透過極致協同設計實現最高的每瓦效能和最低的令牌成本，在 DeepSeek-R1 基準測試中每兆瓦吞吐量比 Grace Blackwell NVL72 提升 10 倍。Vera Rubin 還支援歐洲開放模型時代，與微軟和 Mistral 合作擴充套件 AI 基礎設施。

Vera Rubin NVL72 生產加速，覆蓋全球 30 個國家 350 多個工廠站點
每兆瓦吞吐量比上一代提升 10 倍，令牌成本降低至十分之一

為Vera Rubin打造，NVIDIA Spectrum-6抵達千兆級AI工廠

2026-07-21 23:00 UTC+8

NVIDIA宣佈其102.4太位元每秒的Spectrum-6乙太網交換機系統已開始交付，該系統作為Vera Rubin平臺的一部分，專為千兆級AI工廠設計，提供兩倍於上一代的頻寬。CoreWeave、Microsoft、Nebius等領先AI基礎設施構建者將首批部署。Spectrum-6是Spectrum-X乙太網平臺的新一代核心，透過智慧交換、ConnectX-9 SuperNIC和全棧軟體，實現高達1.6倍的AI網路效能提升和95%的網路效率。

Spectrum-6提供102.4 Tbps容量，是前代的兩倍
首批採用者包括CoreWeave、Microsoft、Nebius、SpaceXAI和Tesla

LWiAI播客第248期：Claude Fable 5、Siri AI、Anthropic IPO等AI大事件

2026-07-21 18:03 UTC+8

本期播客討論了Anthropic釋出的Claude Fable 5模型及其安全爭議、Apple在WWDC上宣佈的Siri AI、Google的Gemini 3.5即時翻譯和AI訂閱調價、OpenAI的IPO進展、Prometheus的120億美元融資、DeepSeek的融資計劃、華為對DeepSeek模型的後訓練、Google向SpaceX支付GPU費用、Gemma 4和DiffusionGemma開源模型、以及多項AI安全政策和研究動態。

Anthropic釋出Claude Fable 5，效能大幅提升但也引發了關於安全護欄和隱形降級的爭議。
Apple宣佈Siri AI，基於與Gemini的合作，旨在提供更強大的對話助手。

NVIDIA 釋出 Cosmos 3 Edge：40億引數開放世界模型，實現裝置端機器人動作推理與生成

2026-07-21 15:48 UTC+8

NVIDIA 推出 Cosmos 3 Edge，一個僅40億引數的開放世界模型，專為裝置端執行設計。它能幫助機器人和視覺AI代理理解環境、即時推理，並在本地生成機器人動作。該模型是 Cosmos 3 系列的最小成員，此前已釋出160億引數的 Nano 和640億引數的 Super。Edge 型號針對記憶體受限的邊緣系統（如工廠、倉庫和醫院）提供資料中心級別的效能。

Cosmos 3 Edge 是一個40億引數的開放世界模型，於2026年7月20日在 Hugging Face 上釋出。
採用混合變換器架構，結合自迴歸推理塔和擴散生成塔，透過共享多模態注意力層協同工作。

SpecLA: 線性注意力模型的高效推測解碼

2026-07-21 12:00 UTC+8

本文提出了 SpecLA，一種針對有狀態線性注意力模型的推測解碼執行時。它透過拓撲感知核心驗證鏈和樹，儲存驗證過程中產生的緊湊因子以恢復接受狀態，並使用置信剪枝和目標對齊的EAGLE風格草案生成器提供有用候選。在NVIDIA H100上使用公共GDN-1.3B目標，SpecLA實現了比自迴歸解碼高達1.70倍的端到端加速。

線性注意力模型用迴圈狀態替代增長的KV快取，但自迴歸解碼仍逐令牌處理。
現有推測解碼系統設計用於Transformer KV快取，不適用於有狀態線性注意力模型。

OpenLanguageModel：用於教育和研究的可讀可組合小語言模型預訓練

2026-07-21 12:00 UTC+8

OpenLanguageModel (OLM) 是一個開源的 PyTorch 庫，用於構建和預訓練小型語言模型，同時保持其內部機制可見。模型程式碼直接反映架構，元件如 Block、Residual、Repeat 和 Parallel 描述連線方式。OLM 整合了分詞器、資料集、最佳化、混合精度、回撥、檢查點以及硬體感知的執行，支援從教學筆記本到完整預訓練的無縫遷移。該庫包含 9 個常見模型家族的 27 個預設，並提供從基礎到架構研究的文件。驗證顯示與獨立參考實現高度一致，348M 引數模型在四 GPU 上弱擴充套件效率達 90.6%，且早期可用性反饋積極。OLM 採用 MIT 許可證，可透過 PyPI、GitHub 和文件站點獲取。

OLM 提供可讀的模型程式碼，直接對應架構元件，便於教學和研究。
支援從筆記本到完整預訓練的無縫遷移，整合完整訓練流程。

運算元感知的混合精度容差校準應用於張量核

2026-07-21 12:00 UTC+8

本文提出了一種基於運算元感知的混合精度容差校準方法，透過挖掘累積的雲GPU執行資料，自動確定張量核正確性測試的最佳絕對容差，相比手工選擇的容差更嚴格，並顯著提高了錯誤檢測召回率。

當前張量核測試使用固定手工選取的容差，很少更新。
新方法透過分析雲GPU執行中的誤差分佈來校準每個運算元的容差。

Modal 上的 Devin Outposts

2026-07-21 08:00 UTC+8

Cognition 開發的 AI 軟體工程師 Devin 現可透過 Devin Outposts 在 Modal 沙盒中執行，支援自定義環境（如 GPU）和快速冷啟動。

Devin Outposts 讓 Devin 在使用者控制的環境中執行，而推理仍在 Cognition 雲端。
Modal 作為啟動合作伙伴，提供開源整合 modal-devin。

利用 Amazon Quick 和 NVIDIA NeMo Agent Toolkit 為您的業務構建專業化代理工作流

2026-07-21 01:01 UTC+8

本文展示瞭如何將 Amazon Quick 作為業務使用者的專業代理工作流前端。透過 NVIDIA NeMo Agent Toolkit 構建供應鏈風險示例，幫助規劃人員從 Amazon Quick 儀表盤和知識上下文轉向引導式緩解建議。

Amazon Quick 為業務使用者提供結構化資料和企業知識的單一對話工作空間。
NVIDIA NeMo Agent Toolkit 是開源框架無關庫，用於連線、評估、分析和最佳化代理工作流。

NVIDIA在SIGGRAPH上透過代理AI和物理AI推動圖形與模擬發展

2026-07-20 23:00 UTC+8

NVIDIA在SIGGRAPH 2026上宣佈多項創新，包括透過模型上下文協議（MCP）將AI代理整合到創意工具中，推出合成影片檢測器NIM微服務以識別AI生成影片，並開源Cosmos 3 Edge世界模型用於本地物理AI。這些進展旨在加速內容創作、媒體驗證和機器人技術。

Adobe、Affinity、Blender等創意應用透過MCP支援AI代理，實現自動化任務。
NVIDIA釋出合成影片檢測器NIM微服務，幀級分析影片內容，準確率高達92%。

GPU 基礎設施

相關主題

GPU 基礎設施動態

AMD Advancing AI 2026：與AMD的Alan Smith探討CDNA5架構

開放安全AI聯盟旨在開源AI安全防禦

Show HN：KBlip – 將來自100個來源的AI/LLM新聞轉化為每日摘要

行業領袖聯合成立開放安全AI聯盟，致力於AI安全與保障

Nvidia、Palantir、Hugging Face等33家機構聯合成立開放安全AI聯盟，抵禦開源AI網路安全威脅

NVIDIA利用Vera CPU加速下一代CPU和GPU的設計

The Sequence Radar #901：上週AI動態：更智慧的模型、物理機器與擴充套件中的AI棧

George Hotz 在 AMD Advancing AI 2026 上的演講 [影片]

AMD釋出機器可讀ISA，讓前沿模型為其編寫GPU核心

NVLink、NVSwitch及相關技術詳解

認識 Open Dreamer：基於 JAX/Flax 復現 Dreamer 4 世界模型管道，完整訓練配方已釋出

使用TileLang設計高效能GPU核心：張量核心GEMM、融合Softmax、FlashAttention與自動調優

Datalab Marker v2 vs MinerU、Docling 和 Liteparse：基準測試對比

Datalab的Marker 2與MinerU、Docling和LiteParse對比：在olmOCR基準測試中得分76.0，吞吐量達MinerU的5倍

如何使用百度的Unlimited-OCR構建高解析度影像和多頁PDF的端到端OCR流水線

AI峰會上，韓國與輝達及合作伙伴描繪AI未來

GPU的成本遠不止AI資料中心

Nvidia將40億引數世界模型部署到機器人上【每週物理AI綜述】

4523個AI投資預測揭示了模型之間的分歧

施耐德電氣與AMD釋出AI工廠部署藍圖

2026年7月：LangChain 新聞通訊 — NemoClaw 藍圖、OpenWiki Brains 等

“我們喜歡兩種模型都能使用的世界”：NVIDIA如何看待本地模型與前沿模型

推進AI 2026 – 與AMD共建未來 [影片]

一塊GPU能容納多少開發者？

The Sequence Opinion #900：超越GPU：谷歌是唯一能與輝達抗衡的全棧競爭對手嗎？

AMD擬向Anthropic投資50億美元，達成AI基礎設施協議

Gigatoken：一款 Rust BPE 分詞器，編碼速度高達 24.53 GB/s，比 HuggingFace Tokenizers 快 989 倍

原生多維亞二次運算元：透過輸入依賴的長卷積實現

基於Intel TDX的NVIDIA H100機密GPU推理效能基準測試

NVIDIA AI超級計算機在海軍研究生院上線

展示 HN：AgentNest —— AI 代理的自託管沙箱

AMD與Anthropic達成50億美元AI基礎設施合作

NVIDIA 開源首個 GPU 加速的醫學物理模擬框架

從畫素到預後：卷積與GLCM特徵融合實現白內障四類嚴重度自動分級

硬體機制動態限制AI效能

智慧體叢集對本地AI大有益處

Poolside 釋出 Laguna S 2.1：開源權重代理編碼模型，在 SWE-Bench Multilingual 上表現超越同類

在沃斯堡製造：緯創資通開設先進製造工廠，生產輝達AI系統

我測試了System76 Thelio Mira：它是我夢想中的定製Linux桌上型電腦

使用 NVIDIA srt-slurm、SLURM 配方、引數掃描和帕累託分析驗證分散式 LLM 服務基準測試

NVIDIA Vera Rubin：每瓦效能領先，為全球合作伙伴提供最低令牌成本

為Vera Rubin打造，NVIDIA Spectrum-6抵達千兆級AI工廠

LWiAI播客第248期：Claude Fable 5、Siri AI、Anthropic IPO等AI大事件

NVIDIA 釋出 Cosmos 3 Edge：40億引數開放世界模型，實現裝置端機器人動作推理與生成

SpecLA: 線性注意力模型的高效推測解碼

OpenLanguageModel：用於教育和研究的可讀可組合小語言模型預訓練

運算元感知的混合精度容差校準應用於張量核

Modal 上的 Devin Outposts

利用 Amazon Quick 和 NVIDIA NeMo Agent Toolkit 為您的業務構建專業化代理工作流

NVIDIA在SIGGRAPH上透過代理AI和物理AI推動圖形與模擬發展

更多增長標籤

AI 編程

MCP

開源模型

推理成本

Agent 框架

中國 AI

模型定價

DeepSeek

Qwen