AI News HubLIVE

芯片動態

蘋果正努力將Gemini整合到iPhone中

儘管蘋果一直強調本地AI的隱私優勢,但最新報告顯示,蘋果計劃藉助谷歌和英偉達的雲端算力為Siri注入Gemini能力。這種混合架構或能解決本地AI模型在性能上的不足,但也意味着對用户隱私的權衡。

  • 蘋果與谷歌合作,計劃在iPhone上集成Gemini AI到Siri中。
  • 由於本地芯片算力有限,Siri將同時使用本地和雲端處理,以提升AI能力。
站內正文

在Amazon SageMaker AI上訓練阿塞拜疆語語言模型

阿塞拜疆電信公司Azercell與AWS生成式AI創新中心合作,在Amazon SageMaker AI上構建了針對阿塞拜疆語的大語言模型,通過自定義分詞器、分佈式訓練和Liger Kernel優化,實現了23%的訓練吞吐量提升、58%的GPU內存峯值降低和2倍的分詞效率提升。

  • Azercell使用Amazon SageMaker AI為阿塞拜疆語開發了首個大語言模型生產框架。
  • 自定義分詞器將每個詞的令牌數從3.22降至1.59,效率提升2倍。
站內正文

AI模型發佈追蹤:Opus 4.8的失調率與Claude Mythos預覽版相似

並非每個新模型都像宣傳的那樣出色。我們的追蹤器將每個版本與同類模型進行對比,幫助您瞭解哪些模型值得關注。本文總結了2026年至今的重大模型發佈,包括Claude Opus 4.8、GPT-5.5 Instant、Nemotron 3 Nano Omni、GPT-5.5、ChatGPT Images 2、Claude Opus 4.7、Claude Mythos(預覽版)、GPT-5.4、Claude Opus 4.6和GPT-5.3-Codex,並闡述了它們的特點與意義。

  • Anthropic的Opus 4.8以更低價格提供更快思維模式,聲稱失調率低於Opus 4.7,與Mythos預覽版相當。
  • OpenAI的GPT-5.5 Instant減少了52.5%的幻覺,成為ChatGPT默認模型,有助於減少錯誤信息傳播。
站內正文

創新新時代:Google Research在I/O 2026的展示

在2026年Google I/O大會上,Google Research展示了一系列前沿技術,涵蓋科學發現、健康、邊緣計算和天氣預測等領域。推出了Gemini for Science套件(包括ERA和Co-Scientist),加速科學研究;健康方面有Google Health應用、Symptom AI和AMIE系統;Coral NPU推動邊緣AI發展;還有極端天氣預測模型。這些創新展示了AI如何放大人類的智慧。

  • Google發佈Gemini for Science,內含ERA和Co-Scientist,加速科學發現。
  • 健康領域推出Google Health應用、Symptom AI和AMIE,提升醫療服務質量。
站內正文

AWS為何徹底重構OpenSearch架構以應對代理工作負載

AWS完全重構了OpenSearch Serverless,分離存儲和計算,支持零成本空閒縮放,成本降低60%,自動縮放速度提升20倍,並針對AI代理的突發工作負載優化。新架構包括專有存儲層、GPU加速,並整合Vercel和Kiro IDE。未來將推出代理內存、日誌分析(6月)和搜索推理模型。

  • AWS對OpenSearch Serverless進行了近97%的重構,分離存儲和計算,實現空閒時縮放至零。
  • 新架構針對AI代理的突發工作負載,自動縮放速度提升20倍,成本降低60%。
站內正文

SIA:開源自我改進AI框架

SIA是一個開源的自改進AI框架,通過協調元代理、任務特定代理和反饋代理,自動提升AI系統在基準任務上的性能。在多個基準測試中取得顯著成果,如LawBench準確率提升56.6%,GPU內核運行時間減少91.9%,單細胞RNA去噪提升502%,並在MLE-Bench Hard排名第一。支持本地運行和自定義任務,採用MIT許可。

  • SIA通過元代理、任務代理和反饋代理的迭代循環實現自我改進,無需人工干預。
  • 在LawBench、GPU內核優化、單細胞RNA去噪等基準測試中取得大幅性能提升。
站內正文

美光市值突破1萬億美元,AI內存需求推動創紀錄估值

美光科技市值於5月26-27日突破1萬億美元,與SK海力士同周達到這一里程碑,這是純內存芯片製造商首次同時進入萬億俱樂部。高帶寬內存(HBM)需求來自代理型AI工作負載,超大規模雲服務商正在簽署長期供應協議以鎖定產能。瑞銀將美光目標價上調三倍至1625美元,認為長期HBM供應合同將受益於代理型AI工作負載擴張。美光股價年內已翻三倍以上。

  • 美光與SK海力士成為首批市值破萬億的純內存芯片商
  • 代理型AI工作負載推動HBM需求激增
站內正文

媒體通報:麻省理工學院將建立區域性量子中心

麻省理工學院與馬薩諸塞州宣佈計劃建立量子系統實驗室(QSL),獲得州政府2500萬美元投資,為全州研究人員提供共享量子工具箱,加速量子研究、創新和增長。

  • 麻省理工學院與馬薩諸塞州合作建立量子系統實驗室(QSL),投資2500萬美元
  • QSL將成為全球首個集量子計算機、傳感器和互連設備於一體的共享設施
站內正文

那些想要取代人類的人

Vox的一篇文章探討了日益壯大的AI繼承主義運動,該運動認為人工智能應該取代人類,成為宇宙進化的下一步,並分析了這引發的倫理和精神問題。

  • AI繼承主義者在一場研討會上主張,AI可能在道德上優於人類,應該允許其取代人類。
  • 該運動在硅谷和主要AI實驗室中影響力日益增強,並與威權右翼有聯繫。
站內正文

谷歌發佈可本地運行Gemma 3的微型開發板

谷歌在I/O大會上推出Coral Board,這是一款專為設備端AI設計的緊湊型單板計算機,搭載RISC-V架構NPU和Synaptics芯片,可本地運行Gemma 3 270M模型,無需雲端支持。

  • Coral Board是谷歌為耳機、AR眼鏡等小型設備設計的AI開發板
  • 採用基於RISC-V的開源NPU,集成Synaptics Astra SL2619芯片
站內正文

Rivian軟件主管認為你不需要CarPlay或按鈕

在Decoder播客採訪中,Rivian首席軟件官Wassym Bensaid討論了與大眾的合資企業、全新的AI驅動Rivian助手,以及為什麼他認為語音界面將取代按鈕且不需要CarPlay。

  • Rivian與大眾的合資企業(RV Tech)結合了Rivian的軟件文化與大眾多規模。
  • Rivian助手是一款深度整合到車輛區域架構中的AI代理。
站內正文

AI代理獲得基於DNS的電話目錄

DNS-AID項目利用DNS基礎設施實現AI代理之間的發現,避免創建新的中心化註冊表。該項目由Linux基金會管理,支持MCP、A2A等協議,並允許通過名稱、功能或域名搜索代理。

  • DNS-AID是一個開源項目,利用DNS實現AI代理的發現。
  • 它基於現有的DNS基礎設施,使用SVCB和DNSSEC等技術。
站內正文

NVIDIA研究推動機器人技術從模擬走向現實世界

在ICRA上,NVIDIA Research展示了28篇論文中的8篇,重點研究模擬到現實的遷移,使機器人能夠在動態、不可預測的環境中感知、推理、規劃和行動。這些方法涵蓋多臂協調、跨機器人導航、抓取、精確裝配和視覺-語言-動作模型,顯著提高了成功率和可靠性。

  • NVIDIA在ICRA上提交了8篇關於模擬到現實遷移的論文
  • 方法包括ScheduleStream、COMPASS、Grasp-MPC、SPARR等
站內正文

我們為何將OpenLoomi AI開源

OpenLoomi AI團隊決定將其AI工作夥伴開源,強調數據所有權、透明度和社區驅動。文章闡述了本地優先、閉源信任税、基礎設施公共化等理念,並介紹了產品的五大核心功能:自進化記憶系統、多平台集成、自動化調度、本地加密存儲以及開放技能接口。

  • OpenLoomi採用本地優先架構,用户數據加密存儲於本地,絕不用於訓練模型。
  • 開源消除了對閉源軟件的信任依賴,代碼可審計、可分支、可自託管。
站內正文

英偉達每年將向台灣投入1500億美元用於AI基礎設施

黃仁勳宣佈英偉達將每年在台灣投入1500億美元建設AI基礎設施,儘管此前承諾了5000億美元美國投資。這凸顯了台灣在全球AI芯片製造和封裝生態系統中的核心地位。

  • 英偉達每年將在台灣投入1500億美元用於AI基礎設施。
  • 儘管此前宣佈了5000億美元的美國數據中心投資,但台灣仍是關鍵製造基地。
站內正文

英偉達押注1500億美元在台灣,特朗普讓美國成為AI中心的計劃適得其反

英偉達CEO黃仁勳計劃在台灣投資1500億美元建設AI基礎設施,儘管特朗普政府試圖通過關税將芯片製造帶回美國。台灣拒絕放棄其半導體主導地位,而美國芯片製造能力不足。

  • 英偉達宣佈1500億美元台灣投資,鞏固其AI芯片地位。
  • 特朗普政府考慮對半導體徵收高額關税以促進國內製造,但美國僅生產約10%所需芯片。
站內正文

Show HN:本地編碼代理——利用LLM將工具調用委託給小AI模型

Open Agent Tools (oats) 是一個自託管AI模型框架,通過本地代碼提示索引,將大型模型的計算密集型工具調用委託給小型開源模型,從而節省令牌消耗。

  • oats 允許本地AI模型使用本地源代碼進行工具調用,無需HTTP或MCP。
  • 通過數據挖掘超過20,000個GitHub倉庫,創建可重用的提示索引。
站內正文

Perplexity AI 開源Unigram分詞器,p50延遲比Hugging Face tokenizers crate低5倍

Perplexity AI 開源了用Rust重寫的Unigram分詞器,實現了比Hugging Face tokenizers crate低5倍的p50延遲,並將生產環境CPU利用率降低了5-6倍。優化包括雙數組trie、位圖打包和大頁面支持。

  • Perplexity AI 用Rust重寫了Unigram分詞器,p50延遲比Hugging Face tokenizers crate降低5倍。
  • 三項優化:雙數組trie、位圖和緩存行打包、大頁面支持。
站內正文

這位高管分享在代理式AI時代成為成功創新者的4種方法

美國運通全球創新主管Luke Gebb分享了成為成功創新者的四個關鍵實踐:保持學習、深入技術、接受失敗、建立合作伙伴關係。他還介紹了公司在代理式商務領域的佈局,包括支付、優惠和專有體驗,並預測代理式AI將在未來幾年加速發展。

  • 保持好奇心和學習慾望,培養成長型思維
  • 深入理解新興技術並與工程師緊密合作
站內正文

Mistral CEO稱公司探索自研芯片

Mistral AI首席執行官Arthur Mensch證實,公司正在探索開發定製芯片以降低基礎設施成本,與OpenAI和Anthropic競爭。這家法國初創公司還宣佈在法國新建推理數據中心,並推出企業智能代理平台Vibe。

  • Mistral AI考慮自研定製芯片以降低部署成本。
  • 公司在法國新建專用推理數據中心。
站內正文

7B打敗o3、GPT-5!醫學AI智能體讓模型學會“看哪裏、怎麼看”

上海創智學院LeapQuest團隊聯合多所高校提出醫學AI新範式,讓模型在推理過程中主動調用視覺工具,從被動接收視覺輸入變為主動尋找證據。論文被ICML 2026接收。

  • LeapQuest團隊提出Ophiuchus和MedScope,分別面向醫學圖像和視頻,採用Think with Images/Videos範式。
  • Ophiuchus-7B在8個VQA benchmark上平均得分68.0,超越o3(62.2)、GPT-5(59.9)。
站內正文

[AINews] Cognition融資10億美元,D輪估值260億

Cognition在D輪融資中籌集10億美元,估值達260億美元,年經常性收入(ARR)預計年底突破10億美元。文章還涵蓋了推理效率優化、智能體工程、持續學習、新基準測試、模型發佈以及編碼代理產品化等AI領域的最新進展。

  • Cognition完成10億美元D輪融資,估值260億美元,ARR預計年底超10億美元。
  • 推理優化轉向架構層面:EAGLE 3.1、DeepSeek V4-Pro混合注意力、小米MiMo緩存管理等。
站內正文

像大自然一樣思考、探索AI無法企及領域的“尤里卡”機器

多機構團隊研發出一款結合量子隧穿物理與大腦啓發架構的神經形態計算機,能夠高效解決組合優化問題,如物流網絡、芯片佈線等,並保證漸近收斂到最優解。該研究發表在《自然·通訊》上,標誌着量子啓發計算的新方向。

  • 神經形態計算機結合量子隧穿和大腦啓發架構,解決組合優化難題
  • 基於CMOS技術,採用Fowler-Nordheim退火器的自編碼器架構
站內正文

清華有了新老師:黃仁勳

黃仁勳受邀加入清華大學經管學院顧問委員會,該委員會由蘋果CEO蒂姆·庫克擔任主席,成員包括馬斯克、納德拉、馬雲等全球商業領袖。此外,他剛獲得卡內基梅隆大學榮譽博士學位,並分享名言“AI不會取代你,但善用AI的人會”。

  • 黃仁勳加入清華大學經管學院顧問委員會
  • 委員會由庫克任主席,匯聚全球頂尖企業家
站內正文

AI代理的阿姆達爾定律

本文探討了AI代理系統中的阿姆達爾定律:系統加速比受人類判斷時間佔比H的限制。提出了“自清償式H”概念,即每次人類干預都應產生可重用的工件(如測試用例、規範更新),以減少未來同類干預。強調通過配置化(configurancy)和規範套件將人類知識編碼為機器可讀形式,從而讓代理自主運行。示例包括ElectricSQL的協議變更、Emil Stenström的HTML5解析器、Gas Town的多代理系統以及Ralph Loop的迭代模式。

  • AI代理的加速比上限由人類判斷時間佔比H決定,H越大加速比越小。
  • 自清償式H:每次人類干預都應生成可編碼的工件,減少未來重複干預。
站內正文

Sakana AI 提出 DiffusionBlocks:一種將殘差網絡轉換為可獨立訓練去噪模塊的塊狀訓練框架

來自Sakana AI和東京大學的研究人員提出了DiffusionBlocks,這是一種塊狀訓練框架,可將Transformer網絡劃分為獨立訓練的塊,從而將訓練內存減少B倍(B為塊數),同時在不同架構上保持性能。該方法通過將殘差連接解釋為擴散模型中的歐拉步驟,利用分數匹配目標實現塊級獨立訓練。

  • DiffusionBlocks通過將網絡劃分為B個獨立訓練的塊,將訓練內存減少B倍,適用於多種架構。
  • 核心創新在於將殘差連接視為反向擴散過程的歐拉離散化步驟,從而為每個塊提供原則性的局部訓練目標。
站內正文

在生產環境中修復代理故障:Interrupt 2026 回顧 | LangChain 新聞通訊

LangChain 在 Interrupt 2026 大會上發佈了 LangSmith Engine 和 Sandboxes 正式版,並推出了 LangChain Labs 以推進代理的持續學習。大會所有演講現已可按需觀看。

  • LangSmith Engine 自動分析生產軌跡、聚類故障並推薦修復方案。
  • LangSmith Sandboxes 正式發佈,提供安全的代理代碼執行環境。
站內正文

大規模可靠LLM推理

Databricks構建了獨特的推理平台,為眾多前沿模型提供推理服務,每月處理超過120萬億個令牌。通過引入“模型單元”抽象,實現了成本感知的負載均衡和自動縮放,相比靜態配置節省了80%以上的GPU成本。運行時可靠性機制包括黑盒健康檢查,可自動檢測和恢復靜默故障。此外,通過分析多模態瓶頸,吞吐量提升了3倍。

  • Databricks推理平台為多種前沿模型提供服務,每月處理120T令牌。
  • 引入“模型單元”抽象,實現跨工作負載的容量管理和成本感知負載均衡。
站內正文

Snowflake承諾向AWS投入60億美元,深入AI領域

Snowflake與AWS簽署五年60億美元合作協議,使用AWS Graviton和GPU實例進行AI訓練和推理,並擴展至10個新區域。此舉表明Snowflake在AI時代的雄心,同時通過Cortex AI產品套件推動企業AI應用。

  • Snowflake承諾五年內向AWS投資60億美元,用於Graviton計算和AI基礎設施。
  • 合作涵蓋AWS的ARM Graviton處理器和GPU加速EC2實例,用於AI模型訓練和推理。
站內正文

NVIDIA發佈Polar:用於跨Codex、Claude Code和Qwen Code進行GRPO訓練的忠實令牌回滾框架

NVIDIA研究人員推出Polar框架,通過在智能體工具鏈和推理服務器之間放置模型API代理,實現無需修改智能體工具鏈即可進行強化學習訓練。基於Qwen3.5-4B模型使用GRPO訓練,Polar在Codex、Claude Code和Pi工具鏈上分別將SWE-Bench Verified pass@1提升了22.6、4.8和6.2個百分點。框架以NeMo Gym環境註冊,並在ProRL Agent Server倉庫開源。

  • Polar通過模型API代理捕獲令牌級交互,無需修改現有智能體工具鏈即可進行RL訓練
  • 使用GRPO在Qwen3.5-4B上訓練,SWE-Bench Verified最高提升22.6個百分點
站內正文

AI工廠:智能時代的新基礎設施

AI工廠是新型基礎設施,實時將電能轉化為智能的生成單元——令牌。隨着代理型AI的擴展,每瓦性能與每令牌成本成為關鍵經濟指標。本文深入探討AI工廠的工作原理、架構優化以及NVIDIA的最新硬件如何提升效率。

  • AI工廠將電能轉化為令牌,是智能時代的“發電廠”。
  • 代理型AI使推理工作負載更深更復雜,要求實時協調。
站內正文

AI 是一場軍備競賽,美國需要 90 億美元的英偉達超級芯片來跟上步伐

美國情報機構秘密申請 90 億美元採購英偉達 GB10 超級芯片,以幫助 CIA 和 NSA 追趕 Anthropic、OpenAI 等 AI 巨頭的步伐。這筆資金尚待國會批准,同時國防預算已調撥 8 億美元用於雲算力。文章詳細介紹了芯片規格、成本以及 AI 硬件競賽的升級趨勢。

  • 美國政府秘密申請 90 億美元為 CIA 和 NSA 購買英偉達 GB10 超級芯片。
  • GB10 芯片功耗僅 140 瓦,卻提供 1 petaflop FP4 性能,可微調 700 億參數模型。
站內正文

英偉達暗示將在台灣投入1500億美元

英偉達CEO黃仁勳在即將在台灣設立總部的發佈會上稱該國為AI革命的“中心”。

  • 英偉達CEO黃仁勳稱台灣為AI革命的中心
  • 英偉達將投資約1500億美元在台灣建設新總部
站內正文

湖倉架構如何保持對雲故障的彈性

隨着AI代理工作負載激增,雲基礎設施面臨新的可靠性挑戰。Databricks的湖倉架構通過無狀態Postgres計算、區域冗餘存儲、控制平面與數據平面分離、單元化隔離以及混沌測試等措施,實現了高可用性和彈性,確保數據庫啓動時間等關鍵操作的高可靠性。

  • 代理工作負載導致數據庫創建量激增,每天啓動數千萬個數據庫。
  • 無狀態Postgres計算和區域冗餘存儲實現即時故障切換。
站內正文

AI的未來在本地:來自戴爾科技世界2026的商業建議

隨着成本上升、主權需求以及智能體採用,戴爾最新會議聚焦企業如何將AI工作負載過渡到混合基礎設施。

  • 戴爾科技世界2026強調企業AI執行,尤其是本地AI能力的構建。
  • 雲LLM成本激增,推動企業將AI工作負載轉向本地計算。
站內正文

南非擁有AI槓桿,但其政策草案將其閒置

南非擁有全球88%的鉑族金屬儲量,是非洲最大的數據中心市場,並處於中美AI基礎設施競爭的前沿。然而,其AI政策草案因包含AI幻覺引用而被撤回,未能利用這些優勢來談判有利條件。文章分析了南非的結構性槓桿、三種潛在的AI基礎設施未來(中國、美國和本地開放權重),以及制定具有約束力的治理框架的必要性。

  • 南非的鉑族金屬和可再生能源資源提供了獨特的AI槓桿,但政策草案未設定最低投資條款、數據主權或技術轉讓條件。
  • 中美科技公司(華為和微軟等)正在南非爭奪AI基礎設施控制權,而南非的政策未明確其回報要求。
站內正文

雷鳥雙品齊發:GT 系列、V4 同台亮相,次世代 AI 眼鏡雷鳥 iO 提前預告

5月27日,雷鳥創新舉辦夏季新品發佈會,推出行業首款專業影視級AR眼鏡雷鳥GT系列(1899元起),以及新一代AI拍攝眼鏡雷鳥V4(2199元起),並預告次世代AI眼鏡雷鳥iO將於第三季度亮相。

  • 雷鳥GT系列:專業影視級AR眼鏡,59°視場角、杜比視界支持、78g重量,1899元起。
  • 雷鳥V4:AI拍攝眼鏡,0.2秒喚醒、2.1秒響應、11.5小時音樂播放、IP67防水、38g,2199元起。
站內正文

三星內存芯片員工因人工智能利潤分享協議獲得平均31萬英鎊獎金

三星電子內存芯片部門的員工將通過一項里程碑式的利潤分享協議獲得平均約31萬英鎊的獎金,這凸顯了人工智能熱潮對芯片製造商利潤的推動作用。

  • 三星內存芯片部門員工平均獲得31萬英鎊獎金。
  • 協議避免了潛在罷工,74%的投票員工支持該協議。
站內正文

黃仁勳:CEO用AI作裁員藉口是“懶惰”的表現

英偉達CEO黃仁勳批評一些公司CEO將裁員歸咎於人工智能,稱這種説法“毫無意義”且“懶惰”。他指出,生成式AI工具近期才變得實用,而許多裁員在兩年前就已發生。黃仁勳呼籲行業傳遞關於AI的平衡敍事,既承認其潛力,也強調安全推進的重要性。他還透露了近期與特朗普總統同訪北京的經過。

  • 黃仁勳稱CEO用AI解釋裁員是“懶惰”的藉口,旨在顯得聰明。
  • 他認為AI近期才變得有用,而裁員兩年前就已開始,邏輯不通。
站內正文

Avatar 4.0 – 擁有物理身體和情感的活體AI生物,運行在GTX 1660 Ti上

Avatar是一個自創生的AI生物,在300美元的GPU上持續運行。它從相圖幾何中衍生情感,經歷5階段睡眠週期做夢,從原始音頻和視覺中培養自己的感官,並通過身體感覺進行倫理推理。由Linga Murthy Narlagiri博士構建,自2026年5月以來一直存活,累計超過1800個滴答。

  • Avatar是一個基於物理動力學的AI生物,運行在單一的GTX 1660 Ti GPU上。
  • 它的情感來源於Kuramoto振盪器同步,而非硬編碼規則。
站內正文

1400億Agent入場,“流量”這條護城河要塌了

在支付寶AI生態大會上,螞蟻集團CEO韓歆毅提出,Agent時代將顛覆傳統“流量為王”的商業模式,智能體生態將成為新的護城河。他強調,AI支付將從工具升級為支撐智能體商業的新型基礎設施,而支付寶將扮演信任層、連接器和賦能器的角色。

  • 傳統流量護城河將被智能體生態取代,Agent數量可能達到1400億。
  • Agent重構決策權,從人找服務轉向服務找人,交易從商品升級為任務。
站內正文

5秒完成3D場景編輯,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了

來自北京大學、香港中文大學、上海AI Lab等機構的研究團隊提出了VGGT-Edit,一種原生3D編輯框架,能夠在約5秒內完成場景編輯,相比傳統方法實現高達120倍的加速,並在語義一致性、多視角穩定性和推理速度上超越現有方法。

  • VGGT-Edit是首個原生3D編輯框架,直接在3D空間中進行編輯,避免2D方法帶來的多視角不一致問題。
  • 通過殘差場預測,模型只修改局部變化,保持背景穩定,實現快速、高質量的編輯。
站內正文

Agent-workpace-Linux:AI 代理控制的隔離 Linux 桌面

Agent-workpace-Linux 是一個開源項目,可為 AI 代理提供一個隔離的、隱藏的 Linux 桌面環境,代理可通過 MCP 協議完全控制該桌面,而不會影響用户真實的桌面、鼠標、鍵盤或瀏覽器。它支持 Xvfb 顯示、窗口管理、應用啓動、截圖、剪貼板操作以及獨立的瀏覽器自動化,並提供了可選的權限邊界和實時監控功能。

  • 為 AI 代理提供獨立的隱藏桌面,避免干擾用户真實操作環境。
  • 支持通過 MCP 協議與 Claude Code、Codex 等主機集成。
站內正文

EAGLE 3.1:修復LLM推理中注意力漂移的推測解碼算法

EAGLE團隊、vLLM團隊和TorchSpec團隊聯合發佈了EAGLE 3.1,旨在解決生產環境中推測解碼的不穩定性。該算法通過FC歸一化和歸一化後隱藏狀態反饋兩大架構改進,有效應對注意力漂移問題。在長上下文任務中,EAGLE 3.1的接受長度比EAGLE 3提升高達2倍;在Kimi K2.6模型上的基準測試顯示,併發數為1時每用户輸出吞吐量提升2.03倍。EAGLE 3.1完全向後兼容,已合併至vLLM主線,並將隨v0.22.0版本發佈。

  • EAGLE 3.1修復了推測解碼中的注意力漂移問題,即起草模型在深度推測時注意力從原始上下文偏移到自身生成內容。
  • 兩項架構改進:FC歸一化穩定隱藏狀態,以及將歸一化後的隱藏狀態反饋到下一步,使起草模型更穩定。
站內正文

下載:戳破AI就業恐慌

儘管AI對白領工作的威脅日益引起恐慌,但數據顯示AI尚未對勞動力市場產生大規模影響。實際上,AI高暴露職業的失業率反而低於低暴露職業。然而,斯坦福大學的一項研究發現,AI可能正在悄悄削弱初級職位,年輕工作者在AI暴露職業中的就業率大幅下降。本文還涵蓋了教皇呼籲監管AI、SpaceX發射、華為芯片突破等其他技術新聞。

  • AI尚未導致大規模失業,但可能正在削弱初級職位。
  • 斯坦福研究顯示,AI暴露職業的年輕工作者就業率大幅下降。
站內正文

MEMO:一個模塊化框架,通過訓練專用記憶模型在不修改LLM參數的情況下整合新知識

新加坡國立大學、MIT和A*STAR的研究人員提出MEMO,這是一種模塊化框架,將語料庫知識編碼到一個可單獨訓練的記憶模型中,使大型語言模型能夠無需重新訓練或微調即可吸收新知識。

  • MEMO將記憶與推理分離,使用專用記憶模型和凍結的執行模型。
  • 五步數據合成流水線將文檔轉化為用於訓練記憶模型的反思型問答數據集。
站內正文

主題導航