AI News HubLIVE

晶片動態

蘋果正努力將Gemini整合到iPhone中

儘管蘋果一直強調本地AI的隱私優勢,但最新報告顯示,蘋果計劃藉助谷歌和輝達的雲端算力為Siri注入Gemini能力。這種混合架構或能解決本地AI模型在效能上的不足,但也意味著對使用者隱私的權衡。

  • 蘋果與谷歌合作,計劃在iPhone上整合Gemini AI到Siri中。
  • 由於本地晶片算力有限,Siri將同時使用本地和雲端處理,以提升AI能力。
站內正文

在Amazon SageMaker AI上訓練亞塞拜然語語言模型

亞塞拜然電信公司Azercell與AWS生成式AI創新中心合作,在Amazon SageMaker AI上構建了針對亞塞拜然語的大語言模型,透過自定義分詞器、分散式訓練和Liger Kernel最佳化,實現了23%的訓練吞吐量提升、58%的GPU記憶體峰值降低和2倍的分詞效率提升。

  • Azercell使用Amazon SageMaker AI為亞塞拜然語開發了首個大語言模型生產框架。
  • 自定義分詞器將每個詞的令牌數從3.22降至1.59,效率提升2倍。
站內正文

AI模型釋出追蹤:Opus 4.8的失調率與Claude Mythos預覽版相似

並非每個新模型都像宣傳的那樣出色。我們的追蹤器將每個版本與同類模型進行對比,幫助您瞭解哪些模型值得關注。本文總結了2026年至今的重大模型釋出,包括Claude Opus 4.8、GPT-5.5 Instant、Nemotron 3 Nano Omni、GPT-5.5、ChatGPT Images 2、Claude Opus 4.7、Claude Mythos(預覽版)、GPT-5.4、Claude Opus 4.6和GPT-5.3-Codex,並闡述了它們的特點與意義。

  • Anthropic的Opus 4.8以更低價格提供更快思維模式,聲稱失調率低於Opus 4.7,與Mythos預覽版相當。
  • OpenAI的GPT-5.5 Instant減少了52.5%的幻覺,成為ChatGPT預設模型,有助於減少錯誤資訊傳播。
站內正文

創新新時代:Google Research在I/O 2026的展示

在2026年Google I/O大會上,Google Research展示了一系列前沿技術,涵蓋科學發現、健康、邊緣計算和天氣預測等領域。推出了Gemini for Science套件(包括ERA和Co-Scientist),加速科學研究;健康方面有Google Health應用、Symptom AI和AMIE系統;Coral NPU推動邊緣AI發展;還有極端天氣預測模型。這些創新展示了AI如何放大人類的智慧。

  • Google釋出Gemini for Science,內含ERA和Co-Scientist,加速科學發現。
  • 健康領域推出Google Health應用、Symptom AI和AMIE,提升醫療服務質量。
站內正文

AWS為何徹底重構OpenSearch架構以應對代理工作負載

AWS完全重構了OpenSearch Serverless,分離儲存和計算,支援零成本空閒縮放,成本降低60%,自動縮放速度提升20倍,並針對AI代理的突發工作負載最佳化。新架構包括專有儲存層、GPU加速,並整合Vercel和Kiro IDE。未來將推出代理記憶體、日誌分析(6月)和搜尋推理模型。

  • AWS對OpenSearch Serverless進行了近97%的重構,分離儲存和計算,實現空閒時縮放至零。
  • 新架構針對AI代理的突發工作負載,自動縮放速度提升20倍,成本降低60%。
站內正文

SIA:開源自我改進AI框架

SIA是一個開源的自改進AI框架,透過協調元代理、任務特定代理和反饋代理,自動提升AI系統在基準任務上的效能。在多個基準測試中取得顯著成果,如LawBench準確率提升56.6%,GPU核心執行時間減少91.9%,單細胞RNA去噪提升502%,並在MLE-Bench Hard排名第一。支援本地執行和自定義任務,採用MIT許可。

  • SIA透過元代理、任務代理和反饋代理的迭代迴圈實現自我改進,無需人工干預。
  • 在LawBench、GPU核心最佳化、單細胞RNA去噪等基準測試中取得大幅效能提升。
站內正文

美光市值突破1萬億美元,AI記憶體需求推動創紀錄估值

美光科技市值於5月26-27日突破1萬億美元,與SK海力士同周達到這一里程碑,這是純記憶體晶片製造商首次同時進入萬億俱樂部。高頻寬記憶體(HBM)需求來自代理型AI工作負載,超大規模雲服務商正在簽署長期供應協議以鎖定產能。瑞銀將美光目標價上調三倍至1625美元,認為長期HBM供應合同將受益於代理型AI工作負載擴張。美光股價年內已翻三倍以上。

  • 美光與SK海力士成為首批市值破萬億的純記憶體晶片商
  • 代理型AI工作負載推動HBM需求激增
站內正文

媒體通報:麻省理工學院將建立區域性量子中心

麻省理工學院與馬薩諸塞州宣佈計劃建立量子系統實驗室(QSL),獲得州政府2500萬美元投資,為全州研究人員提供共享量子工具箱,加速量子研究、創新和增長。

  • 麻省理工學院與馬薩諸塞州合作建立量子系統實驗室(QSL),投資2500萬美元
  • QSL將成為全球首個集量子計算機、感測器和互連裝置於一體的共享設施
站內正文

那些想要取代人類的人

Vox的一篇文章探討了日益壯大的AI繼承主義運動,該運動認為人工智慧應該取代人類,成為宇宙進化的下一步,並分析了這引發的倫理和精神問題。

  • AI繼承主義者在一場研討會上主張,AI可能在道德上優於人類,應該允許其取代人類。
  • 該運動在矽谷和主要AI實驗室中影響力日益增強,並與威權右翼有聯絡。
站內正文

谷歌釋出可本地執行Gemma 3的微型開發板

谷歌在I/O大會上推出Coral Board,這是一款專為裝置端AI設計的緊湊型單板計算機,搭載RISC-V架構NPU和Synaptics晶片,可本地執行Gemma 3 270M模型,無需雲端支援。

  • Coral Board是谷歌為耳機、AR眼鏡等小型裝置設計的AI開發板
  • 採用基於RISC-V的開源NPU,整合Synaptics Astra SL2619晶片
站內正文

Rivian軟體主管認為你不需要CarPlay或按鈕

在Decoder播客採訪中,Rivian首席軟體官Wassym Bensaid討論了與大眾的合資企業、全新的AI驅動Rivian助手,以及為什麼他認為語音介面將取代按鈕且不需要CarPlay。

  • Rivian與大眾的合資企業(RV Tech)結合了Rivian的軟體文化與大眾多規模。
  • Rivian助手是一款深度整合到車輛區域架構中的AI代理。
站內正文

AI代理獲得基於DNS的電話目錄

DNS-AID專案利用DNS基礎設施實現AI代理之間的發現,避免建立新的中心化登錄檔。該專案由Linux基金會管理,支援MCP、A2A等協議,並允許透過名稱、功能或域名搜尋代理。

  • DNS-AID是一個開源專案,利用DNS實現AI代理的發現。
  • 它基於現有的DNS基礎設施,使用SVCB和DNSSEC等技術。
站內正文

NVIDIA研究推動機器人技術從模擬走向現實世界

在ICRA上,NVIDIA Research展示了28篇論文中的8篇,重點研究模擬到現實的遷移,使機器人能夠在動態、不可預測的環境中感知、推理、規劃和行動。這些方法涵蓋多臂協調、跨機器人導航、抓取、精確裝配和視覺-語言-動作模型,顯著提高了成功率和可靠性。

  • NVIDIA在ICRA上提交了8篇關於模擬到現實遷移的論文
  • 方法包括ScheduleStream、COMPASS、Grasp-MPC、SPARR等
站內正文

我們為何將OpenLoomi AI開源

OpenLoomi AI團隊決定將其AI工作夥伴開源,強調資料所有權、透明度和社群驅動。文章闡述了本地優先、閉源信任稅、基礎設施公共化等理念,並介紹了產品的五大核心功能:自進化記憶系統、多平臺整合、自動化排程、本地加密儲存以及開放技能介面。

  • OpenLoomi採用本地優先架構,使用者資料加密儲存於本地,絕不用於訓練模型。
  • 開源消除了對閉源軟體的信任依賴,程式碼可審計、可分支、可自託管。
站內正文

輝達每年將向臺灣投入1500億美元用於AI基礎設施

黃仁勳宣佈輝達將每年在臺灣投入1500億美元建設AI基礎設施,儘管此前承諾了5000億美元美國投資。這凸顯了臺灣在全球AI晶片製造和封裝生態系統中的核心地位。

  • 輝達每年將在臺灣投入1500億美元用於AI基礎設施。
  • 儘管此前宣佈了5000億美元的美國資料中心投資,但臺灣仍是關鍵製造基地。
站內正文

輝達押注1500億美元在臺灣,特朗普讓美國成為AI中心的計劃適得其反

輝達CEO黃仁勳計劃在臺灣投資1500億美元建設AI基礎設施,儘管特朗普政府試圖透過關稅將晶片製造帶回美國。臺灣拒絕放棄其半導體主導地位,而美國晶片製造能力不足。

  • 輝達宣佈1500億美元臺灣投資,鞏固其AI晶片地位。
  • 特朗普政府考慮對半導體徵收高額關稅以促進國內製造,但美國僅生產約10%所需晶片。
站內正文

Show HN:本地編碼代理——利用LLM將工具呼叫委託給小AI模型

Open Agent Tools (oats) 是一個自託管AI模型框架,透過原生代碼提示索引,將大型模型的計算密集型工具呼叫委託給小型開源模型,從而節省令牌消耗。

  • oats 允許本地AI模型使用本地原始碼進行工具呼叫,無需HTTP或MCP。
  • 透過資料探勘超過20,000個GitHub倉庫,建立可重用的提示索引。
站內正文

Perplexity AI 開源Unigram分詞器,p50延遲比Hugging Face tokenizers crate低5倍

Perplexity AI 開源了用Rust重寫的Unigram分詞器,實現了比Hugging Face tokenizers crate低5倍的p50延遲,並將生產環境CPU利用率降低了5-6倍。最佳化包括雙陣列trie、點陣圖打包和大頁面支援。

  • Perplexity AI 用Rust重寫了Unigram分詞器,p50延遲比Hugging Face tokenizers crate降低5倍。
  • 三項最佳化:雙陣列trie、點陣圖和快取行打包、大頁面支援。
站內正文

這位高管分享在代理式AI時代成為成功創新者的4種方法

美國運通全球創新主管Luke Gebb分享了成為成功創新者的四個關鍵實踐:保持學習、深入技術、接受失敗、建立合作伙伴關係。他還介紹了公司在代理式商務領域的佈局,包括支付、優惠和專有體驗,並預測代理式AI將在未來幾年加速發展。

  • 保持好奇心和學習慾望,培養成長型思維
  • 深入理解新興技術並與工程師緊密合作
站內正文

Mistral CEO稱公司探索自研晶片

Mistral AI執行長Arthur Mensch證實,公司正在探索開發定製晶片以降低基礎設施成本,與OpenAI和Anthropic競爭。這家法國初創公司還宣佈在法國新建推理資料中心,並推出企業智慧代理平臺Vibe。

  • Mistral AI考慮自研定製晶片以降低部署成本。
  • 公司在法國新建專用推理資料中心。
站內正文

7B打敗o3、GPT-5!醫學AI智慧體讓模型學會“看哪裡、怎麼看”

上海創智學院LeapQuest團隊聯合多所高校提出醫學AI新正規化,讓模型在推理過程中主動呼叫視覺工具,從被動接收視覺輸入變為主動尋找證據。論文被ICML 2026接收。

  • LeapQuest團隊提出Ophiuchus和MedScope,分別面向醫學影像和影片,採用Think with Images/Videos正規化。
  • Ophiuchus-7B在8個VQA benchmark上平均得分68.0,超越o3(62.2)、GPT-5(59.9)。
站內正文

[AINews] Cognition融資10億美元,D輪估值260億

Cognition在D輪融資中籌集10億美元,估值達260億美元,年經常性收入(ARR)預計年底突破10億美元。文章還涵蓋了推理效率最佳化、智慧體工程、持續學習、新基準測試、模型釋出以及編碼代理產品化等AI領域的最新進展。

  • Cognition完成10億美元D輪融資,估值260億美元,ARR預計年底超10億美元。
  • 推理最佳化轉向架構層面:EAGLE 3.1、DeepSeek V4-Pro混合注意力、小米MiMo快取管理等。
站內正文

像大自然一樣思考、探索AI無法企及領域的“尤里卡”機器

多機構團隊研發出一款結合量子隧穿物理與大腦啟發架構的神經形態計算機,能夠高效解決組合最佳化問題,如物流網路、晶片佈線等,並保證漸近收斂到最優解。該研究發表在《自然·通訊》上,標誌著量子啟發計算的新方向。

  • 神經形態計算機結合量子隧穿和大腦啟發架構,解決組合最佳化難題
  • 基於CMOS技術,採用Fowler-Nordheim退火器的自編碼器架構
站內正文

清華有了新老師:黃仁勳

黃仁勳受邀加入清華大學經管學院顧問委員會,該委員會由蘋果CEO蒂姆·庫克擔任主席,成員包括馬斯克、納德拉、馬雲等全球商業領袖。此外,他剛獲得卡內基梅隆大學榮譽博士學位,並分享名言“AI不會取代你,但善用AI的人會”。

  • 黃仁勳加入清華大學經管學院顧問委員會
  • 委員會由庫克任主席,匯聚全球頂尖企業家
站內正文

AI代理的阿姆達爾定律

本文探討了AI代理系統中的阿姆達爾定律:系統加速比受人類判斷時間佔比H的限制。提出了“自清償式H”概念,即每次人類干預都應產生可重用的工件(如測試用例、規範更新),以減少未來同類干預。強調透過配置化(configurancy)和規範套件將人類知識編碼為機器可讀形式,從而讓代理自主執行。示例包括ElectricSQL的協議變更、Emil Stenström的HTML5解析器、Gas Town的多代理系統以及Ralph Loop的迭代模式。

  • AI代理的加速比上限由人類判斷時間佔比H決定,H越大加速比越小。
  • 自清償式H:每次人類干預都應生成可編碼的工件,減少未來重複干預。
站內正文

Sakana AI 提出 DiffusionBlocks:一種將殘差網路轉換為可獨立訓練去噪模組的塊狀訓練框架

來自Sakana AI和東京大學的研究人員提出了DiffusionBlocks,這是一種塊狀訓練框架,可將Transformer網路劃分為獨立訓練的塊,從而將訓練記憶體減少B倍(B為塊數),同時在不同架構上保持效能。該方法透過將殘差連線解釋為擴散模型中的尤拉步驟,利用分數匹配目標實現塊級獨立訓練。

  • DiffusionBlocks透過將網路劃分為B個獨立訓練的塊,將訓練記憶體減少B倍,適用於多種架構。
  • 核心創新在於將殘差連線視為反向擴散過程的尤拉離散化步驟,從而為每個塊提供原則性的區域性訓練目標。
站內正文

在生產環境中修復代理故障:Interrupt 2026 回顧 | LangChain 新聞通訊

LangChain 在 Interrupt 2026 大會上釋出了 LangSmith Engine 和 Sandboxes 正式版,並推出了 LangChain Labs 以推進代理的持續學習。大會所有演講現已可按需觀看。

  • LangSmith Engine 自動分析生產軌跡、聚類故障並推薦修復方案。
  • LangSmith Sandboxes 正式釋出,提供安全的代理程式碼執行環境。
站內正文

大規模可靠LLM推理

Databricks構建了獨特的推理平臺,為眾多前沿模型提供推理服務,每月處理超過120萬億個令牌。透過引入“模型單元”抽象,實現了成本感知的負載均衡和自動縮放,相比靜態配置節省了80%以上的GPU成本。執行時可靠性機制包括黑盒健康檢查,可自動檢測和恢復靜默故障。此外,透過分析多模態瓶頸,吞吐量提升了3倍。

  • Databricks推理平臺為多種前沿模型提供服務,每月處理120T令牌。
  • 引入“模型單元”抽象,實現跨工作負載的容量管理和成本感知負載均衡。
站內正文

Snowflake承諾向AWS投入60億美元,深入AI領域

Snowflake與AWS簽署五年60億美元合作協議,使用AWS Graviton和GPU例項進行AI訓練和推理,並擴充套件至10個新區域。此舉表明Snowflake在AI時代的雄心,同時透過Cortex AI產品套件推動企業AI應用。

  • Snowflake承諾五年內向AWS投資60億美元,用於Graviton計算和AI基礎設施。
  • 合作涵蓋AWS的ARM Graviton處理器和GPU加速EC2例項,用於AI模型訓練和推理。
站內正文

NVIDIA釋出Polar:用於跨Codex、Claude Code和Qwen Code進行GRPO訓練的忠實令牌回滾框架

NVIDIA研究人員推出Polar框架,透過在智慧體工具鏈和推理伺服器之間放置模型API代理,實現無需修改智慧體工具鏈即可進行強化學習訓練。基於Qwen3.5-4B模型使用GRPO訓練,Polar在Codex、Claude Code和Pi工具鏈上分別將SWE-Bench Verified pass@1提升了22.6、4.8和6.2個百分點。框架以NeMo Gym環境註冊,並在ProRL Agent Server倉庫開源。

  • Polar透過模型API代理捕獲令牌級互動,無需修改現有智慧體工具鏈即可進行RL訓練
  • 使用GRPO在Qwen3.5-4B上訓練,SWE-Bench Verified最高提升22.6個百分點
站內正文

AI工廠:智慧時代的新基礎設施

AI工廠是新型基礎設施,即時將電能轉化為智慧的生成單元——令牌。隨著代理型AI的擴充套件,每瓦效能與每令牌成本成為關鍵經濟指標。本文深入探討AI工廠的工作原理、架構最佳化以及NVIDIA的最新硬體如何提升效率。

  • AI工廠將電能轉化為令牌,是智慧時代的“發電廠”。
  • 代理型AI使推理工作負載更深更復雜,要求即時協調。
站內正文

AI 是一場軍備競賽,美國需要 90 億美元的輝達超級晶片來跟上步伐

美國情報機構秘密申請 90 億美元採購輝達 GB10 超級晶片,以幫助 CIA 和 NSA 追趕 Anthropic、OpenAI 等 AI 巨頭的步伐。這筆資金尚待國會批准,同時國防預算已調撥 8 億美元用於雲算力。文章詳細介紹了晶片規格、成本以及 AI 硬體競賽的升級趨勢。

  • 美國政府秘密申請 90 億美元為 CIA 和 NSA 購買輝達 GB10 超級晶片。
  • GB10 晶片功耗僅 140 瓦,卻提供 1 petaflop FP4 效能,可微調 700 億引數模型。
站內正文

輝達暗示將在臺灣投入1500億美元

輝達CEO黃仁勳在即將在臺灣設立總部的釋出會上稱該國為AI革命的“中心”。

  • 輝達CEO黃仁勳稱臺灣為AI革命的中心
  • 輝達將投資約1500億美元在臺灣建設新總部
站內正文

湖倉架構如何保持對雲故障的彈性

隨著AI代理工作負載激增,雲基礎設施面臨新的可靠性挑戰。Databricks的湖倉架構透過無狀態Postgres計算、區域冗餘儲存、控制平面與資料平面分離、單元化隔離以及混沌測試等措施,實現了高可用性和彈性,確保資料庫啟動時間等關鍵操作的高可靠性。

  • 代理工作負載導致資料庫建立量激增,每天啟動數千萬個資料庫。
  • 無狀態Postgres計算和區域冗餘儲存實現即時故障切換。
站內正文

AI的未來在本地:來自戴爾科技世界2026的商業建議

隨著成本上升、主權需求以及智慧體採用,戴爾最新會議聚焦企業如何將AI工作負載過渡到混合基礎設施。

  • 戴爾科技世界2026強調企業AI執行,尤其是本地AI能力的構建。
  • 雲LLM成本激增,推動企業將AI工作負載轉向本地計算。
站內正文

南非擁有AI槓桿,但其政策草案將其閒置

南非擁有全球88%的鉑族金屬儲量,是非洲最大的資料中心市場,並處於中美AI基礎設施競爭的前沿。然而,其AI政策草案因包含AI幻覺引用而被撤回,未能利用這些優勢來談判有利條件。文章分析了南非的結構性槓桿、三種潛在的AI基礎設施未來(中國、美國和本地開放權重),以及制定具有約束力的治理框架的必要性。

  • 南非的鉑族金屬和可再生能源資源提供了獨特的AI槓桿,但政策草案未設定最低投資條款、資料主權或技術轉讓條件。
  • 中美科技公司(華為和微軟等)正在南非爭奪AI基礎設施控制權,而南非的政策未明確其回報要求。
站內正文

雷鳥雙品齊發:GT 系列、V4 同臺亮相,次世代 AI 眼鏡雷鳥 iO 提前預告

5月27日,雷鳥創新舉辦夏季新品釋出會,推出行業首款專業影視級AR眼鏡雷鳥GT系列(1899元起),以及新一代AI拍攝眼鏡雷鳥V4(2199元起),並預告次世代AI眼鏡雷鳥iO將於第三季度亮相。

  • 雷鳥GT系列:專業影視級AR眼鏡,59°視場角、杜比視界支援、78g重量,1899元起。
  • 雷鳥V4:AI拍攝眼鏡,0.2秒喚醒、2.1秒響應、11.5小時音樂播放、IP67防水、38g,2199元起。
站內正文

黃仁勳:CEO用AI作裁員藉口是“懶惰”的表現

輝達CEO黃仁勳批評一些公司CEO將裁員歸咎於人工智慧,稱這種說法“毫無意義”且“懶惰”。他指出,生成式AI工具近期才變得實用,而許多裁員在兩年前就已發生。黃仁勳呼籲行業傳遞關於AI的平衡敘事,既承認其潛力,也強調安全推進的重要性。他還透露了近期與特朗普總統同訪北京的經過。

  • 黃仁勳稱CEO用AI解釋裁員是“懶惰”的藉口,旨在顯得聰明。
  • 他認為AI近期才變得有用,而裁員兩年前就已開始,邏輯不通。
站內正文

Avatar 4.0 – 擁有物理身體和情感的活體AI生物,執行在GTX 1660 Ti上

Avatar是一個自創生的AI生物,在300美元的GPU上持續執行。它從相圖幾何中衍生情感,經歷5階段睡眠週期做夢,從原始音訊和視覺中培養自己的感官,並透過身體感覺進行倫理推理。由Linga Murthy Narlagiri博士構建,自2026年5月以來一直存活,累計超過1800個滴答。

  • Avatar是一個基於物理動力學的AI生物,執行在單一的GTX 1660 Ti GPU上。
  • 它的情感來源於Kuramoto振盪器同步,而非硬編碼規則。
站內正文

1400億Agent入場,“流量”這條護城河要塌了

在支付寶AI生態大會上,螞蟻集團CEO韓歆毅提出,Agent時代將顛覆傳統“流量為王”的商業模式,智慧體生態將成為新的護城河。他強調,AI支付將從工具升級為支撐智慧體商業的新型基礎設施,而支付寶將扮演信任層、聯結器和賦能器的角色。

  • 傳統流量護城河將被智慧體生態取代,Agent數量可能達到1400億。
  • Agent重構決策權,從人找服務轉向服務找人,交易從商品升級為任務。
站內正文

5秒完成3D場景編輯,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了

來自北京大學、香港中文大學、上海AI Lab等機構的研究團隊提出了VGGT-Edit,一種原生3D編輯框架,能夠在約5秒內完成場景編輯,相比傳統方法實現高達120倍的加速,並在語義一致性、多視角穩定性和推理速度上超越現有方法。

  • VGGT-Edit是首個原生3D編輯框架,直接在3D空間中進行編輯,避免2D方法帶來的多視角不一致問題。
  • 透過殘差場預測,模型只修改區域性變化,保持背景穩定,實現快速、高質量的編輯。
站內正文

Agent-workpace-Linux:AI 代理控制的隔離 Linux 桌面

Agent-workpace-Linux 是一個開源專案,可為 AI 代理提供一個隔離的、隱藏的 Linux 桌面環境,代理可透過 MCP 協議完全控制該桌面,而不會影響使用者真實的桌面、滑鼠、鍵盤或瀏覽器。它支援 Xvfb 顯示、視窗管理、應用啟動、截圖、剪貼簿操作以及獨立的瀏覽器自動化,並提供了可選的許可權邊界和即時監控功能。

  • 為 AI 代理提供獨立的隱藏桌面,避免干擾使用者真實操作環境。
  • 支援透過 MCP 協議與 Claude Code、Codex 等主機整合。
站內正文

EAGLE 3.1:修復LLM推理中注意力漂移的推測解碼演算法

EAGLE團隊、vLLM團隊和TorchSpec團隊聯合釋出了EAGLE 3.1,旨在解決生產環境中推測解碼的不穩定性。該演算法透過FC歸一化和歸一化後隱藏狀態反饋兩大架構改進,有效應對注意力漂移問題。在長上下文任務中,EAGLE 3.1的接受長度比EAGLE 3提升高達2倍;在Kimi K2.6模型上的基準測試顯示,併發數為1時每使用者輸出吞吐量提升2.03倍。EAGLE 3.1完全向後相容,已合併至vLLM主線,並將隨v0.22.0版本釋出。

  • EAGLE 3.1修復了推測解碼中的注意力漂移問題,即起草模型在深度推測時注意力從原始上下文偏移到自身生成內容。
  • 兩項架構改進:FC歸一化穩定隱藏狀態,以及將歸一化後的隱藏狀態反饋到下一步,使起草模型更穩定。
站內正文

下載:戳破AI就業恐慌

儘管AI對白領工作的威脅日益引起恐慌,但資料顯示AI尚未對勞動力市場產生大規模影響。實際上,AI高暴露職業的失業率反而低於低暴露職業。然而,斯坦福大學的一項研究發現,AI可能正在悄悄削弱初級職位,年輕工作者在AI暴露職業中的就業率大幅下降。本文還涵蓋了教皇呼籲監管AI、SpaceX發射、華為晶片突破等其他技術新聞。

  • AI尚未導致大規模失業,但可能正在削弱初級職位。
  • 斯坦福研究顯示,AI暴露職業的年輕工作者就業率大幅下降。
站內正文

MEMO:一個模組化框架,透過訓練專用記憶模型在不修改LLM引數的情況下整合新知識

新加坡國立大學、MIT和A*STAR的研究人員提出MEMO,這是一種模組化框架,將語料庫知識編碼到一個可單獨訓練的記憶模型中,使大型語言模型能夠無需重新訓練或微調即可吸收新知識。

  • MEMO將記憶與推理分離,使用專用記憶模型和凍結的執行模型。
  • 五步資料合成流水線將文件轉化為用於訓練記憶模型的反思型問答資料集。
站內正文

基於隨機解耦策略梯度的高效線上視覺強化學習方法

提出隨機解耦策略梯度(SDPG)方法,一種輕量級視覺強化學習技術,可在單塊NVIDIA RTX 4080 GPU上數小時內端到端訓練多種視覺運動控制策略。SDPG透過軌跡rollout的隨機擾動估計策略梯度,大幅減少批次渲染環境的數量以及計算和記憶體開銷。在視覺MuJoCo基準測試中,SDPG在訓練時間、記憶體使用和獎勵方面一致優於基線方法。此外,引入了涵蓋靈巧操作和挑戰性運動的全新真實感視覺機器人基準測試,並在物理硬體上展示了有效的模擬到現實遷移。

  • 提出SDPG方法,在單塊RTX 4080 GPU上數小時內完成訓練。
  • 透過隨機擾動估計策略梯度,顯著降低計算和記憶體開銷。
站內正文

主題導航