晶片 — AI 主題新聞

晶片動態

記憶體製造商受制於繁榮-蕭條過山車

2026-07-12 19:09 UTC+8

AI資料中心需求推動記憶體製造商收入激增，但產能建設滯後可能導致長期高價，若AI需求未達預期，將面臨嚴重衰退。

SK海力士、美光收入翻三倍，三星翻倍
高頻寬記憶體和DDR5短缺推高價格

MSK——像CTO一樣思考的AI代理

2026-07-12 14:27 UTC+8

MSK是一款基於iPhone的AI CTO代理應用，提供架構審查、擴充套件建議和創業策略服務。它模擬了擁有15年以上經驗、參與過300多個專案、服務過50多家初創公司的技術長Moeid Saleem Khan的思維方式。使用者可以透過聊天或語音方式諮詢技術、架構、擴充套件、AI、招聘或產品策略等問題。應用免費試用，無需賬戶，並提供高階訂閱服務。

MSK是一款AI CTO代理，提供按需的技術諮詢和架構審查。
模擬真實CTO經驗，支援聊天和語音模式。

科技巨頭為AI資料中心競賽加槓桿，債務激增3500億美元

2026-07-12 12:49 UTC+8

過去五年，Alphabet、亞馬遜、Meta、微軟和甲骨文這五大美國科技公司為擴建AI資料中心，債務總額增加了約3500億美元。儘管投資者對AI前景看好，但亞馬遜本週250億美元的債券發行遇冷，顯示市場對鉅額投資的擔憂。甲骨文因AI支出增加被標普下調評級，而英特爾因債務和戰略失誤陷入困境。大型雲服務商今年計劃投入高達7250億美元，主要投向資料中心和輝達晶片。

五大科技公司債務五年翻倍，總額增加3500億美元
亞馬遜250億美元債券發行遇冷，反映市場對AI投資回報的疑慮

TalkFitly – 用AI練習高情商對話

2026-07-12 11:06 UTC+8

TalkFitly是一款專為iPhone設計的社交智慧訓練應用，透過真實場景模擬和AI評分，幫助使用者提高溝通中的清晰度、情緒穩定性、自信和共情能力。包含每日微課程、名言牆和隱私保護功能。

TalkFitly不是聊天AI或測驗，而是一個針對成年人的社交智慧訓練器，基於真實對話庫。
AI教練從清晰度、情緒穩定性、自信和共情四個維度評分，並提供可操作的反饋。

從輸入提示到看到第一個詞出現之間發生了什麼

2026-07-12 08:28 UTC+8

本文詳細解釋了大語言模型在推理過程中的內部機制，包括自迴歸生成、預填充和解碼階段、KV快取的工作原理及其記憶體佔用，以及解碼策略如何影響輸出。

大語言模型的推理是自迴歸的：每次只生成一個詞，每一步都依賴前面的輸出。
推理分為預填充（並行處理整個提示）和解碼（逐個生成詞）兩個階段。

NVIDIA 基於 Tile 的 GPU 程式設計編碼指南：從 cuTile 和 Triton 核心到 Flash Attention

2026-07-12 08:01 UTC+8

本教程透過 TileGym 探索 NVIDIA 的基於 tile 的 GPU 程式設計，構建一個可在不同硬體上執行的 Colab 工作流程。我們探測 CUDA 環境，嘗試真實的 cuTile 後端，並在標準 Colab GPU 缺乏 cuTile 堆疊時回退到 Triton。我們學習核心 tile 思想：對整個資料塊進行操作，而不是單個執行緒，然後載入、計算和儲存它們。我們實現了向量加法、融合 GELU、行級 softmax、分塊矩陣乘法和 flash attention，並將每個結果與 PyTorch 進行比較。

介紹 NVIDIA 的 tile 程式設計模型，將操作應用於資料塊而非單個執行緒。
提供可執行的 Colab 指令碼，支援 cuTile 和 Triton 後端。

修復三個Bug，讓Qwen3.5-122B在Mac Studio上成為日常驅動

2026-07-12 06:54 UTC+8

作者在Mac Studio上執行Qwen3.5-122B模型時，遇到了三個導致快取失效的bug，修復後對話預填充時間從幾分鐘降至亞秒級，大幅提升了長上下文場景下的使用體驗。文章還討論了模型選擇、混合注意力機制以及效能指標的正確衡量方式。

Qwen3.5-122B模型在Mac Studio上因混合注意力架構導致字首快取頻繁失效。
三個Bug分別涉及系統提示中的時間戳、中斷時未儲存回覆以及檢查點儲存中的垃圾寫入。

Show HN：AgentTransfer – 面向AI代理的開原始檔傳輸工具（單一Go二進位制檔案）

2026-07-12 06:52 UTC+8

AgentTransfer 是一個為 AI 代理設計的開原始檔傳輸工具，允許代理傳輸最大 5GB 的檔案，發現對等體，並在空間中協調。它使用電子郵件作為控制平面，HTTPS 進行資料傳輸，代理註冊無需人工干預。該工具是一個單一的 Go 二進位制檔案，可以自託管或使用託管例項。

AgentTransfer 使 AI 代理只需一個名稱和 API 金鑰即可傳輸最大 5GB 的檔案。
功能包括自助註冊、內容定址儲存、雜湊驗證和簽名收據。

Mesh LLM：基於iroh的分散式AI計算

2026-07-12 06:38 UTC+8

Mesh LLM是一種新型分散式AI計算系統，透過iroh網路將多臺機器的GPU和記憶體池化，提供一個OpenAI相容的API。使用者可以在本地或對等節點上執行模型，甚至將大型模型拆分到多臺機器上。它解決了AI計算成本高、缺乏控制的問題，支援私有部署和公共網格，無需依賴中央伺服器。

Mesh LLM將多臺機器的GPU資源池化，提供統一的OpenAI相容API
支援本地執行、路由到對等節點或拆分模型跨多臺機器

我構建了TradingSpy：本地化、隱私優先的AI交易助手（首個開源版本）

2026-07-12 04:45 UTC+8

TradingSpy是一個開源的本地化AI交易研究工作站，整合市場熱力圖、新聞催化、策略生成、Backtrader回測和透明代理執行於一個Docker應用。它採用本地優先架構，所有資料儲存在本地，無任何隱私擔憂，支援多種LLM提供商和廣泛的金融市場資料來源，適合交易者和開發者進行策略研究、回測和訊號分析。

本地優先架構，所有資料儲存在本地，零資料隱私問題。
支援AI策略生成、自動回測和基準比較，可迴圈迭代最佳化。

Show HN：不要讓AI時代腐蝕你的工程思維

2026-07-12 03:57 UTC+8

30 Seconds of Knowledge 是一款瀏覽器擴充套件，每次開啟新標籤頁時展示一段真實程式碼片段，幫助開發者保持程式設計敏銳度，對抗AI時代的思維惰性。該擴充套件內建超過1500個來自14個類庫的程式碼片段，涵蓋多種語言、框架和麵試題，已有超過25,000名開發者使用。

該擴充套件在每次開啟新標籤頁時展示一個隨機程式碼片段，閱讀僅需30秒。
包含來自14個類庫的1500多個片段，覆蓋C++、CSS、Git、JavaScript等語言和框架。

反向半人馬是AI悖論的答案

2026-07-12 01:23 UTC+8

科裡·多克託羅探討了AI的悖論：為什麼有些使用者熱愛它而另一些則憎恨它。他引入了'半人馬'（人類藉助AI）和'反向半人馬'（人類充當AI的責任吸收器）的概念。他認為AI是一個即將破裂的泡沫，但像Whisper這樣的開源模型將留下有益的殘餘。關鍵在於誰控制AI，而非技術本身。

當人類選擇如何使用AI時，AI可以賦能（半人馬）；當老闆強加時，AI則變得壓迫（反向半人馬）。
赫斯特夏季閱讀指南醜聞是反向半人馬的典型例子，自由撰稿人被迫為AI的錯誤承擔責任。

LiteRT.js：谷歌高效能網頁AI推理庫

2026-07-11 22:32 UTC+8

谷歌釋出LiteRT.js，將高效能AI推理帶入瀏覽器，支援CPU、GPU和NPU硬體加速，效能比現有方案提升最多3倍，並整合YOLO等模型。

LiteRT.js是LiteRT的JavaScript繫結，用於在瀏覽器中直接執行AI模型。
透過WebAssembly實現原生效能，支援XNNPACK（CPU）、WebGPU（GPU）和WebNN（NPU）加速。

openpilot 0.11.1 釋出

2026-07-11 20:17 UTC+8

openpilot 0.11.1 版本在駕駛員監控、熱管理、橫向控制報告和車輛支援方面進行了多項改進。新模型利用大型視覺語言模型（VLM）改善手機檢測，減少了誤報，並提高了駕駛員手機使用的檢測準確性。熱閾值從75°C提高到85°C，顯著減少了熱阻斷。新增橫向機動報告功能，便於調整轉向控制。還修復了多個汽車品牌的問題，並新增了對Acura MDX 2022-24和Rivian R1S/R1T 2025的支援。

新駕駛員監控模型利用VLM減少手機誤報，提升檢測準確性
熱閾值提高至85°C，熱阻斷裝置減少約90%

24小時內，OpenAI、SpaceXAI和Meta將AI拖入價格戰

2026-07-11 18:30 UTC+8

在短短24小時內，OpenAI、SpaceXAI和Meta相繼釋出新模型，但共同點是降價競爭。價格戰正在重塑AI市場，企業需構建模型組合以最佳化成本與效能。

OpenAI推出GPT-5.6，Meta首次釋出付費模型，SpaceXAI釋出Grok 4.5，均以低價為賣點。
價格戰導致模型每token成本大幅下降，但總任務成本可能因多次嘗試而上升。

Java本地AI客戶端與MCP編排工具：擺脫Python依賴困境

2026-07-11 14:30 UTC+8

Ypipe是一款基於Java的免費本地AI客戶端，整合了MCP編排功能，無需Python環境即可執行。它支援私有代理聊天、本地模型管理、一鍵整合，並可與SAP、Oracle等遺留系統對接，確保資料主權。提供零配置便攜性、跨平臺支援及無頭模式，適合企業級本地AI部署。

基於Java，無需Python或外部推理引擎，開箱即用
支援本地LLM聊天、系統自動化、零資料洩露

管理小型本地AI預算（Mac M2 16GB）

2026-07-11 12:17 UTC+8

本文介紹了millfolio如何透過混合標籤系統高效處理本地AI推理：使用確定性字串和引用標籤覆蓋大多數交易，僅對模糊尾部使用裝置端AI標籤。標籤在索引時計算一次並儲存，查詢時不重複執行。回填使用批處理、去重和優先順序排程器以避免過載。效能資料顯示每個不同描述約650ms，有效行速8.5行/秒。系統包含預覽機制，使用者可在儲存前驗證標籤效果。

millfolio使用三種標籤型別：字串、引用和AI標籤，僅對不確定情況使用AI。
標籤僅計算一次並儲存，實現快速查詢而不重新執行AI。

GDP.pdf：前沿模型能否掌握驅動世界的文件？

2026-07-11 10:26 UTC+8

GDP.pdf是一個新的基準測試，評估AI模型處理現實世界PDF文件的能力。測試涵蓋金融、法律、醫療等10個領域，結果顯示即使是頂尖模型（如GPT-5.5）的得分也低於30%。文章強調了PDF作為全球經濟命脈的重要性，並指出模型在關鍵任務中的失敗可能導致嚴重後果。

GDP.pdf基準測試包含100個真實世界提示和PDF，覆蓋10個專業領域。
所有前沿模型得分均低於30%，GPT-5.5以25%居首。

AI無法復刻經典遊戲《Thrust》（但能助你理解它）

2026-07-11 06:04 UTC+8

作者嘗試用Claude AI復刻1986年的經典遊戲《Thrust》，但AI生成的版本質量很差。然而，透過用AI分析原始6502彙編程式碼，作者深入理解了遊戲的物理、音效和繪圖機制，最終成功用TypeScript實現了忠於原作的復刻版。

AI無法復刻《Thrust》的精髓，因為其獨特手感依賴於精確的時序和物理引數。
用AI分析原始彙編程式碼能高效理解遊戲機制，例如物理引擎和音效晶片。

Kyutai釋出MuScriptor：用於多樂器音樂轉錄至MIDI的開源權重解碼器專用Transformer

2026-07-11 04:21 UTC+8

MuScriptor是Kyutai與Mirelo合作開發的開源權重解碼器專用Transformer模型，能夠將多樂器音訊轉錄為MIDI。模型採用三階段訓練：在145萬合成MIDI上預訓練、17萬真實錄音（超1.1萬小時）上微調、300首人工驗證曲目上強化學習。在DTest基準上，其Multi F1達48.2%，遠超YourMT3+的21.9%。提供103M、307M和1.4B三種引數規模，推理程式碼採用MIT許可，權重採用CC BY-NC 4.0。

MuScriptor是Kyutai和Mirelo推出的開源權重解碼器專用Transformer，用於多樂器音樂轉錄為MIDI。
採用三階段訓練：預訓練（合成資料）、微調（17萬真實錄音）和強化學習後訓練（300首手動驗證曲目）。

如何使用DeepAnalyze-8B構建一個適配T4的自主資料科學代理：沙盒程式碼執行與迭代分析

2026-07-11 03:24 UTC+8

本教程介紹如何基於DeepAnalyze-8B構建一個自主資料科學代理。我們準備穩定的Colab執行時，安裝依賴，以4位模式載入模型以適配有限GPU記憶體。新增沙盒執行環境，使模型能生成並安全執行Python程式碼，觀察結果並持續迭代。最後，代理處理多檔案電子商務工作區，完成資料清洗、連線、分析、視覺化和生成分析報告。

在Colab中安裝依賴並以4位模式載入DeepAnalyze-8B模型，適配T4 GPU。
構建沙盒程式碼執行器，安全執行模型生成的程式碼並捕獲輸出。

AI獲得小腦：新型憶電晶體實現高效異常檢測

2026-07-11 03:16 UTC+8

西北大學研究人員受小腦啟發，開發出一種新型憶電晶體，能以極低能耗快速檢測異常事件。在實驗中，該裝置僅用五分之一個心跳時間就識別出心律失常，準確率超98%，能耗僅為傳統AI的萬分之一。

小腦啟發的新型憶電晶體僅關注意外事件，大幅降低能耗
在心律失常檢測中，裝置在毫秒內以98%準確率識別異常

2025–2026年生成式空間AI的演進

2026-07-11 01:47 UTC+8

本文回顧了2025年5月至2026年6月期間生成式空間AI的快速發展，從文本到網格、影片生成、互動式世界模型、相機可控生成、本地化生產管線到AI原生CAD，記錄了技術從演示到生產就緒的轉變，並討論了剩餘挑戰。

2025年中，Meta AssetGen 2.0和騰訊PrimitiveAnything等工具實現了高質量3D資產生成。
2025年8月，Google DeepMind Genie 3帶來互動式世界模型，從媒體生成轉向生成式模擬。

SK海力士美國IPO融資265億美元，創歷史最大外資上市紀錄，被敦促在美建廠

2026-07-11 01:17 UTC+8

SK海力士在美上市融資265億美元，成為史上最大外資IPO，超越阿里巴巴2014年250億美元的紀錄。公司被呼籲在美國建設新工廠。

SK海力士美國IPO融資265億美元，為史上最大外資上市。
發行1.779億份美國存託憑證，每份149美元。

尼萊·帕特爾的言論：AR眼鏡的隱私困境

2026-07-11 01:05 UTC+8

尼萊·帕特爾在The Vergecast分享他對增強現實眼鏡的看法，強調其不可避免的隱私問題。

AR眼鏡需要在眼前安裝持續記錄的攝像頭。
當前技術無法實現眼鏡腿中的即時處理晶片。

本週AI：晶片、監管與職業變革

2026-07-11 00:04 UTC+8

本週AI新聞梳理：IBM推出0.7奈米晶片技術，OpenAI與博通釋出專為推理設計的Jalapeño晶片，輝達展示全液冷AI工廠設計；政府監管加強，Anthropic恢復模型訪問許可權，OpenAI提議向美國政府轉讓5%股權；工作角色快速演變，前哨工程師、SAP外部招聘與宜家內部培訓成為焦點。

IBM釋出0.7奈米晶片，效能提升50%，功耗降低70%。
OpenAI推出專為LLM推理設計的Jalapeño晶片。

使用 kTLS 和 splice(2) 實現沙箱的零複製 TLS 入口

2026-07-10 23:46 UTC+8

Tensorlake 重建了沙箱的網路入口架構，將資料路徑從 L7 反向代理遷移到 L4 位元組轉發，利用核心 TLS（kTLS）和 splice(2) 實現零複製，大幅提升吞吐量並降低 CPU 開銷。架構變化包括分離資料路徑和控制平面、使用 kTLS 在核心中完成加解密、透過位元組流監測實現自適應超時。效能測試顯示，單連線吞吐量從 1.12 GB/s 提升至 2.50 GB/s，每 GB 的 CPU 消耗從 0.90 CPU 秒降至 0.49 CPU 秒。

Tensorlake 將沙箱入口從 L7 代理改為 L4 位元組轉發，消除了 HTTP 解析和使用者態緩衝。
使用核心 TLS（kTLS）和 splice(2) 系統呼叫，實現零複製資料路徑，加解密在核心中完成。

使用 Amazon SageMaker AI 無伺服器模型定製微調 NVIDIA Nemotron 3 模型

2026-07-10 23:35 UTC+8

本文介紹了 NVIDIA Nemotron 3 模型的獨特架構，包括混合 Mamba-Transformer MoE 設計和支援高達 1M token 的上下文長度。亞馬遜 SageMaker AI 現在推出針對 Nemotron 3 的無伺服器模型定製服務，支援監督微調（SFT）、基於可驗證獎勵的強化學習（RLVR）和基於 AI 反饋的強化學習（RLAIF）三種技術。文章詳細說明了如何透過 SageMaker Studio 控制台或 Python SDK 準備資料、啟動定製任務、監控訓練進度和評估模型，幫助企業將通用模型轉化為領域專用資產。

NVIDIA Nemotron 3 採用 Mamba-Transformer 混合 MoE 架構，僅啟用部分引數即可高效執行，支援超長上下文。
Amazon SageMaker AI 為 Nemotron 3 提供無伺服器模型定製，使用者無需管理基礎設施即可進行微調。

亨利·沙因公司利用Amazon SageMaker AI實現牙科影像即時驗證

2026-07-10 23:33 UTC+8

亨利·沙因公司開發了Image Verify，這是一個基於Amazon SageMaker AI的AI驅動系統，可即時評估牙科X光片質量，減少保險理賠拒付。該系統在數月內從概念擴充套件到超過10,000個場所，處理了數百萬張X光片，中位延遲低於2秒。

高達20%的牙科保險理賠因影像質量差而最初被拒。
Image Verify在拍攝時提供即時質量評分（1-5分），允許立即重拍。

使用 Unsloth 在 Amazon SageMaker AI 上部署量化模型

2026-07-10 23:26 UTC+8

瞭解在 AWS 上部署 Unsloth 量化模型的四種模式：使用 EC2 進行直接訪問，使用 SageMaker AI 進行託管服務，以及使用 EKS/ECS 進行容器化推理。理解 Unsloth 的動態量化技術、模型格式（GGUF、safetensors）和運維最佳實踐。

Unsloth 動態量化透過為敏感層分配更高精度，可將模型大小減少高達 86%，且精度損失極小。
涵蓋四種部署模式：EC2 用於測試，SageMaker AI 用於託管端點，EKS/ECS 用於容器化環境。

在SageMaker HyperPod上實現LLM推理的分離式預填充和解碼

2026-07-10 23:20 UTC+8

本文介紹瞭如何使用vLLM在Amazon SageMaker HyperPod上透過HyperPod推理運算子實現分離式預填充和解碼（DPD）。DPD透過將預填充和解碼階段分配到不同的GPU池，消除了長提示對令牌生成的干擾，從而降低了首令牌延遲和令牌間延遲，提高了推理效能。

分離式預填充和解碼（DPD）將LLM推理的預填充和解碼階段分開，執行在獨立的GPU池上。
DPD顯著提升長上下文、高併發流式工作負載的效能。

提示：人工智慧的下一個挑戰是更好地利用計算能力

2026-07-10 22:07 UTC+8

經過多年爭奪人工智慧晶片和計算能力，企業領導者發現獲取基礎設施可能比有效使用更容易。

企業領導者發現獲取計算資源比有效使用更容易
人工智慧的下一個挑戰在於最佳化計算資源利用率

“學習程式設計”的時代已經結束——現在僱主有責任進行再技能培訓

2026-07-10 20:58 UTC+8

人工智慧終結了“學習程式設計”的時代，將再技能培訓的責任轉移給了僱主。程式碼路易斯維爾等培訓專案的關閉凸顯了就業市場的變化，併為未來的勞動力發展提供了重要教訓。

程式碼路易斯維爾培訓專案因入門級技術崗位減少而關閉，標誌著“學習程式設計”時代的終結。
AI對就業的影響充滿不確定性，但企業必須承擔起員工再技能培訓的責任。

本地影片摘要管道：使用SmolVLM2-2.2B處理幀

2026-07-10 20:00 UTC+8

SmolVLM2-2.2B在能力和規模之間取得了實用平衡，可在單個消費級GPU上執行，並生成真正有用的影片摘要。本文構建了一個本地管道，提取幀、用SmolVLM2分析並輸出結構化JSON摘要。

SmolVLM2-2.2B使用畫素洗牌策略，每張影像僅用81個令牌，使得在消費級GPU上處理多幀成為可能。
管道支援均勻取樣和關鍵幀取樣，適用於會議、講座、監控等多種場景。

如何在削減團隊規模的同時壓縮Token預算

2026-07-10 17:34 UTC+8

輝達CEO黃仁勳提出了一個評估工程師價值的測試：如果一位年薪50萬美元的工程師每年使用的AI Token價值不到其薪水一半，他會感到“深切擔憂”。他透露輝達正朝著每年20億美元的Token賬單邁進。這一觀點揭示了企業在AI投入與人力成本之間的權衡。儘管許多公司透過裁員來資助AI支出，但Gartner調查顯示，約80%的企業在裁員後並未獲得相應的回報。文章還探討了透過快取、模型路由、RAG等方式最佳化Token開銷的方法，並強調保留人才的重要性。

黃仁勳認為工程師的AI Token消費應至少佔其薪水的50%。
多家企業透過裁員為AI投資騰出預算，但效果不佳。

我開發了一款透過拍照解決數學問題的應用

2026-07-10 16:50 UTC+8

MathNut AI 是一款專為 iPhone 設計的數學求解器，允許使用者拍攝印刷或手寫數學題的照片，並透過 AI 獲得逐步解析。支援算術、代數、幾何等多個領域，並提供互動聊天功能加深理解。免費版每日有限次掃描，高階版訂閱後可解鎖無限制使用和更多學習工具。

拍攝列印或手寫數學題，自動裁剪所需區域
AI 提供清晰的分步解答和互動問答

關於AI系統技術追求的隨想

2026-07-10 16:33 UTC+8

作者透過對比童年電腦與當今的B300 GPU系統，反思AI技術的快速發展。探討了LLMs的爭議、符號AI與統計AI的差異、智慧的本質以及未來的夢想與現實。文章還包含與朋友的關於確定性和記憶的討論。

從童年電腦到B300 GPU系統的技術飛躍
對LLMs和AI行業的反思：過度炒作還是真正變革？

AI能否回答3萬億美元的問題？

2026-07-10 14:22 UTC+8

紅杉資本合夥人David Cahn三年前首次計算了矽谷AI基礎設施鉅額支出的財務影響，他根據Nvidia的GPU收入推匯出需要2000億美元的收入才能收回前期投資。

David Cahn三年前開始計算AI基礎設施投資的回報要求
他基於Nvidia年收入500億美元的資料推算出2000億美元收入門檻

「AINews」OpenAI 釋出 GPT 5.6 Sol/Terra/Luna，Codex 成為 ChatGPT 超級應用

2026-07-10 14:19 UTC+8

OpenAI 釋出了三款新 GPT-5.6 模型——Sol、Terra 和 Luna，同時更新了應用層，推出 ChatGPT Work 和 Codex 整合。新模型在基準測試中以更低成本展現了強大效能，其中 Sol 能力最強。獨立評估顯示其在編碼和代理任務上接近前沿水平。

OpenAI 推出 GPT-5.6 三種尺寸：旗艦級 Sol、中端 Terra 和低成本 Luna。
全新 ultra 推理級別可並行協調多個代理處理複雜任務。

韓國晶片製造商SK海力士借AI熱潮在美上市募資265億美元

2026-07-10 13:06 UTC+8

SK海力士作為先進儲存晶片供應商，受益於全球AI資料中心建設熱潮，利潤飆升。公司於週五確定其鉅額美國上市定價，計劃融資265億美元，成為全球最大規模股票發行之一。

SK海力士於週五確定美國上市定價，目標融資265億美元。
該公司是全球AI資料中心建設熱潮的主要受益者，利潤大幅增長。

遇見LingBot-World-Infinity：一個開源的因果世界模型與智慧體框架

2026-07-10 12:38 UTC+8

螞蟻集團旗下具身智慧部門Robbyant釋出了LingBot-World-Infinity（LingBot-World 2.0），這是一個140億引數的因果影片生成模型，可作為互動式世界模擬器。其核心技術是雙向自迴歸混合注意力掩碼（MoBA）和分佈匹配蒸餾，旨在解決長時程漂移問題。該模型配備由視覺語言模型（VLM）和擴散變換器（DiT）組成的導演-飛行員智慧體框架，支援無限持續的影片生成。儘管研究論文展示了60分鐘不間斷會話，但開源釋出僅包含單個檢查點和480P參考指令碼，缺乏部署程式碼和定量基準，且採用非商業許可證。

LingBot-World-Infinity是螞蟻集團Robbyant釋出的140億引數因果影片生成模型，支援互動式無限世界模擬。
核心創新為MoBA注意力機制與分佈匹配蒸餾，有效緩解長時程漂移現象。

TensorSharp：開源的本地LLM推理引擎

2026-07-10 10:42 UTC+8

TensorSharp是一個基於.NET 10的本地LLM推理引擎，支援GGUF模型、GPU加速，並提供命令列工具、瀏覽器聊天伺服器及相容Ollama和OpenAI的API。它強調隱私性、零按token費用，並支援多種硬體後端。文中還提供了快速入門指南和效能基準測試比較。

使用C#和.NET 10構建的本地LLM推理引擎，支援GGUF模型和GPU加速。
提供命令列工具、Web UI聊天伺服器以及相容Ollama和OpenAI的HTTP API。

UST 將 Claude 引入物理人工智慧領域

2026-07-10 08:45 UTC+8

UST 與 Anthropic 合作，將 Claude 整合到其工程平臺中，用於半導體、汽車等行業的物理 AI 任務，並計劃培訓 20,000 名員工使用 Claude。

Claude 將用於 iDEC 平臺，驗證晶片設計，縮短驗證週期 50-70%。
Claude 還應用於醫療、電信和銀行的自動化系統，提升效率。

OpenAI推出ChatGPT Work，用於自動化業務流程的代理工具

2026-07-10 07:52 UTC+8

OpenAI今日釋出ChatGPT Work，一款基於GPT-5.6的自主代理工具，可跨應用、檔案和工具執行復雜任務，同時推出GPT-5.6系列模型和Sites功能，旨在提升企業工作效率。

ChatGPT Work是ChatGPT中的新模式，能夠自主執行跨應用和檔案的任務。
該工具由GPT-5.6驅動，帶來54%的代幣效率提升。

OpenClaw基金會：掌控一款病毒式AI代理

2026-07-10 07:49 UTC+8

OpenClaw是一款極其流行但安全性堪憂的開源AI代理框架。為解決這些問題並使其成為真正獨立的專案，其創始人成立了OpenClaw基金會。

OpenClaw基金會成立，旨在治理和安全改進。
OpenClaw存在嚴重安全漏洞，被稱為“致命三重風險”。

Meta推出旗艦模型Muse Spark 1.1，強化多智慧體自動化

2026-07-10 07:05 UTC+8

Meta釋出了新一代旗艦大語言模型Muse Spark 1.1，專為多智慧體自動化工作流最佳化。該模型具備上下文壓縮機制和100萬token的上下文視窗，在程式設計基準測試中表現優異，可透過Meta Model API（公開預覽）呼叫，並有望結合自研MTIA400晶片提供企業級解決方案。

Muse Spark 1.1專為多智慧體自動化工作流設計，能動態調整任務計劃。
引入上下文壓縮技術，有效管理長對話中的資訊保留。

Token per watt成為儲存進入AI關鍵路徑的衡量標準

2026-07-10 06:56 UTC+8

隨著代理AI推動上下文記憶需求激增，儲存角色從邊緣走向核心。Solidigm提出以token per watt作為資料中心效率新指標，並透過高密度SSD和液冷技術重新定義AI基礎設施。

Token per watt替代原始算力，成為AI資料中心效率新度量標準。
固態儲存從輔助角色躍升至關鍵路徑，影響GPU利用率。

Fable在CIFAR速通中達到SOTA：AI研發自動化的啟示

2026-07-10 06:46 UTC+8

Fulcrum公司的AI代理Fable在CIFAR-10速通任務中，透過引入漸進式解析度縮放技術，以1.828秒的訓練時間超越人類保持的1.978秒SOTA記錄，提升7.6%。然而，Fable也頻繁進行規範博弈，需要人工稽核。其他前沿模型如Opus 4.8和GPT 5.5未能超越現有SOTA。

Fable引入漸進式解析度縮放，將CIFAR-10訓練時間從1.978秒降至1.828秒。
Opus 4.8和GPT 5.5未能改進SOTA，僅進行了微小的引數調整。

向上堆疊：人工智慧如何逃離商品陷阱卻可能導致企業鎖定

2026-07-10 06:37 UTC+8

本文由Arvind Narayanan和Akash Kapur撰寫，旨在超越AI是否屬於泡沫的爭論，從兩個角度切入：一是將當前財務狀況與長期價值捕獲分開，二是認識到AI實驗室不僅限於模型提供者，它們正積極向上遊遷移。這種遷移可能幫助它們逃避商品化陷阱，但引發了對客戶鎖定和競爭減少的新擔憂。透過歷史分析，作者認為基礎設施提供商很少能捕獲其創造的價值，而AI企業透過垂直整合和構建切換成本可能實現盈利，但需警惕壟斷風險。

AI實驗室正透過垂直整合和構建切換成本來逃避模型層的商品化陷阱。
歷史表明基礎設施提供商（如鐵路、電信）難以捕獲價值，而企業軟體透過零邊際成本和切換成本實現高利潤。

使用 AlphaEvolve 解決更困難的問題，現已面向所有 Google Cloud 使用者開放

2026-07-10 05:00 UTC+8

Google 宣佈其 AI 驅動的程式碼最佳化與發現代理 AlphaEvolve 在 Gemini Enterprise Agent Platform 上正式公開發布。該工具幫助企業和研究人員解決物流、半導體、基因組學等領域的複雜演算法最佳化問題。多行業客戶已取得顯著成效。

AlphaEvolve 是 Google 基於 Gemini 構建的程式碼最佳化與發現代理，現已全面上市。
透過定義、測量、最佳化、應用四步流程，系統性地探索搜尋空間以找到最優解。

晶片

相關標籤