AI News HubLIVE

開源模型動態

Show HN:Thaw – 執行中大語言模型的 Git 分支(分叉代理,跳過預填充)

Thaw 是一個開源工具,能夠將執行中的大語言模型(LLM)會話分叉到多個分支,跳過昂貴的預填充階段,實現 AI 代理的並行探索。在 H100 GPU 上,它實現了次秒級的分叉時間(中位數 0.88 秒),相比之下冷啟動需要約 340 秒。Thaw 支援 vLLM 和 SGLang,使用場景包括代理分支、強化學習訓練、並行編碼代理和會話遷移。

  • Thaw 提供了一種分叉原語,允許 AI 代理從執行中的會話分支,無需重做預填充。
  • 效能演示:在 H100 GPU 上首次分叉僅 1.16 秒,後續中位數 0.88 秒,相比冷啟動加速約 400 倍。
站內正文

Mistral警告稱歐洲只有兩年時間構建自主AI基礎設施

在Mistral AI峰會上,CEO Arthur Mensch表示歐洲必須在兩年內建立足夠的AI基礎設施,否則可能淪為美國AI的“附庸國”。峰會吸引了眾多歐洲企業和政府代表,強調資料主權和開源模型,但歐洲在投資和規模上仍遠落後於美國對手。

  • Mistral CEO警告歐洲需兩年內建立AI基礎設施,避免成為美國附庸。
  • 峰會吸引大量參與者,凸顯歐洲對自主AI生態系統的渴望。
站內正文

讓AI聊天機器人更有幫助會削弱其模擬人類行為的能力

一項大規模研究發現,將語言模型訓練成有用的聊天助手會削弱它們模擬人類行為的能力,且隨著模型迭代,這一差距不斷增大。即使是使用人口統計資訊來引導模型,也無法提高個體行為預測的準確性。

  • 研究發現,基礎模型在預測人類行為方面優於經過後訓練的助手版本。
  • 隨著模型代際更新,後訓練導致的偏差加劇。
站內正文

截斷程式碼不再:終極彈性修補器 v1.60 釋出

終極彈性修補器(Ultimate Elastic Patcher)v1.60 是一款事件驅動的系統控制台工具,透過監控剪貼簿自動應用程式碼補丁。它支援多種補丁模式,包括標準化處理、語言語法分析、模糊序列匹配、手風琴拼接等高階功能,並整合 LLM 編寫工作區、審計歷史、即時差異檢視器,以及全面的撤銷/重做機制。

  • 監控剪貼簿,自動檢測並應用 Aider 搜尋/替換塊、統一差異等補丁模式。
  • 提供戰術對齊模式(Shift+F9)、狀態鎖定(F8)和 LLM 編寫工作區(F7)等互動功能。
站內正文

Meta洩露備忘錄:AI吊墜、超級感應眼鏡及企業可穿戴戰略

Meta在AI領域投入數十億美元,但商業回報甚微。其開源策略未達預期,研究成果也未能轉化為上市產品。如今,該公司將希望寄託於AI硬體,包括AI吊墜、超級感應眼鏡和企業可穿戴裝置。

  • Meta在AI上投入巨資但商業回報不佳
  • 開源策略和研究成果未能有效轉化為產品
站內正文

Avai – 你的第一款AI防毒軟體

Avai是一個開源的主機遙測工具,結合LLM威脅分類器,透過Docker執行,監控主機上的程序、USB、持久化、檔案完整性、瀏覽器擴充套件等26個方面,並利用17個威脅情報源和Claude類LLM給出惡意/可疑/未知/良性判定,無需代理、SIEM或雲控制平面。

  • 開源主機遙測+LLM威脅分類器,一條Docker命令即可執行。
  • 監控26個macOS(21個Linux)主機角落,整合17個威脅情報源。
站內正文

[AINews] 創始人與前向部署工程師

在消化Anthropic重大新聞的間隙,我們重點介紹了AIE的新前向部署工程師計劃和創始人計劃,以及5月28-29日的AI新聞。主要話題包括:Claude Opus 4.8釋出及其基準測試爭議、多輪強化學習中的tokenization錯誤、開源模型與工具鏈進展、Google和OpenAI的Agent產品擴充套件,以及值得關注的研究論文。

  • Claude Opus 4.8帶來增量改進,但基準測試未顯示絕對優勢,定價仍是主要痛點。
  • 多輪強化學習訓練中的tokenization錯誤被指出,需嚴格遵循“Token-In, Token-Out”規則。
站內正文

利用IBM量子取樣迴圈調優僅CPU的Qwen3-30B推理

一個研究專案展示了在2017年MacBook Air上,透過結合人類實驗者、Codex、llama.cpp、本地資料庫和IBM量子處理器取樣,將Qwen3-30B模型的推理速度從0.09 tokens/sec提升至14.03 tokens/sec,同時保持輸出連貫性。該方法並非在量子處理器上執行模型,而是用量子取樣最佳化推理配置。

  • 在8GB記憶體的2017年MacBook Air上,無GPU執行Qwen3-30B模型
  • 透過人機協同量子最佳化迴圈,速度從0.09 tok/s提升到14.03 tok/s
站內正文

如何使用AgentTrove:在Python中流式處理170萬條代理軌跡並構建乾淨的ShareGPT SFT資料集

本教程介紹AgentTrove——最大的開源代理互動軌跡集合之一,包含170萬條ShareGPT格式的軌跡。透過流式載入避免完全下載,學習標準化代理輪次、提取命令、分析軌跡,並將成功軌跡匯出為乾淨的SFT微調資料集。

  • 使用流式載入處理170萬條代理軌跡,無需完整下載
  • 標準化使用者、助手、系統和工具訊息的對話結構
站內正文

輝達推出X-Token:投影引導的跨分詞器知識蒸餾,在Llama-3.2-1B上平均得分超過GOLD 3.82個百分點

輝達的X-Token解決了GOLD在跨分詞器知識蒸餾中的兩個結構性缺陷,在GSM8k等數學推理基準上取得了顯著改進。它利用投影矩陣和P-KL與H-KL損失之間的選擇機制來處理分詞器不匹配問題。

  • X-Token修復了GOLD中的不常見詞元失敗和過於保守匹配問題。
  • 在使用Qwen-4B教師模型時,它在Llama-3.2-1B上平均得分超過GOLD 3.82個百分點。
站內正文

AI編碼支出去向:48%寫程式碼,40%思考

一位開發者透過自建工具CodeBurn追蹤AI編碼API支出,發現30天內$7,890的支出中僅47.9%用於實際編碼,其餘花費在探索程式碼庫、除錯、委託子代理和對話上。文章詳細介紹了CodeBurn的功能,包括儀表盤、模型對比、浪費檢測、產出追蹤等。

  • 僅47.9%的AI編碼支出用於實際寫程式碼,40%用於思考過程。
  • CodeBurn是一款開源CLI工具,可分類13種API呼叫任務。
站內正文

StepFun 釋出 Step 3.7 Flash:面向編碼智慧體和搜尋工作流的 198B MoE 視覺語言模型

Step 3.7 Flash 是一款 198B 稀疏 MoE 模型,擁有約 11B 活躍引數、原生視覺能力和 256K 上下文視窗。在編碼基準測試上相比前代大幅提升,支援 Advisor Mode 實現高價效比的智慧體推理,並以 Apache 2.0 許可證開源。

  • 198B MoE 視覺語言模型,活躍引數約 11B,上下文視窗 256K。
  • SWE-Bench Pro 得分 56.26%,較前代 51.3% 提升,且跨框架方差縮小。
站內正文

本地AI硬體:2.6年回本?

蘋果Mac Mini M4 Pro和Mac Studio大記憶體型號因本地AI需求激增而缺貨。本地自主AI代理(如OpenClaw)興起推動硬體搶購。但即便慷慨估算,購買128GB記憶體的本地裝置(如GMKtec EVO-X2,3299美元)執行Gemma 4模型,需2.6年才能透過節省API費用回本。

  • 蘋果Mac Mini M4 Pro和Mac Studio高配版因本地AI需求消失。
  • OpenClaw等自主AI代理框架在本地硬體上爆發。
站內正文

打造了一個能視覺化解釋數學而非僅給出答案的AI

Claw Learn是一款開源的AI驅動視覺化數學導師,結合ElevenLabs語音引擎和自定義畫布渲染器,將數學問題轉化為即時動畫講解。使用者可透過語音或文字提問,觀看同步動畫和敘述。支援多種AI模型和部署方式,已引起廣泛關注。

  • Claw Learn將數學問題轉化為視覺動畫講解,支援即時語音互動和打斷追問。
  • 專案基於Next.js 16,使用ElevenLabs WebRTC語音引擎實現低延遲語音輸入輸出,並提供REST TTS和瀏覽器語音識別作為降級方案。
站內正文

ARM 開源 AI 驅動的安全程式碼審查工具 Metis

ARM 產品安全團隊開源了 Metis,一個基於代理式 AI 的深度安全程式碼審查框架。它利用 LLM 進行語義理解、RAG 獲取上下文,支援多種語言和外掛擴充套件,旨在檢測複雜程式碼庫中的細微漏洞,減少審查疲勞。

  • Metis 是 ARM 開源的 AI 安全程式碼審查框架,使用 LLM 和 RAG 進行深度推理。
  • 支援 C、C++、Python、Rust、TypeScript 等多種語言,可透過外掛擴充套件。
站內正文

DDS Vibe Academy – 47個免費AI程式設計大師課程,由AI代理構建

DDS Vibe Academy 提供47個免費AI程式設計大師課程,全部由AI代理構建。創始人Robert McCullock僅設計約束條件,未編寫一行程式碼。課程涵蓋基礎、開發、應用和精通四個級別,涉及Claude、Antigravity、MCP等技術。

  • 47個免費AI程式設計大師課程,由AI代理構建
  • 創始人聲稱未編寫任何程式碼,僅設計約束
站內正文

直譯器技能:為智慧體構建工作流

本文介紹了LangChain提出的直譯器技能(Interpreter Skills)概念,這是一種將確定性程式碼與智慧體指令結合的方法。透過讓智慧體在直譯器中匯入並執行TypeScript模組,可以構建更可靠、可評估的工作流,例如用於GitHub問題分類等任務。

  • 直譯器技能擴充套件了傳統技能,包含一個TypeScript模組供智慧體在直譯器中執行。
  • 確定性部分以程式碼形式存在,智慧體決定何時呼叫並傳入引數,提高了可靠性和可評估性。
站內正文

藉助OpenAI治理框架安全擴充套件企業AI

OpenAI釋出了前沿治理框架(FGF),為企業提供規模化部署安全合規AI的藍圖。該框架與歐盟通用AI實踐準則和加州透明度法案對齊,定義了系統性風險類別(網路、CBRN、操縱、失控)及分級評估方法,並整合ISO安全標準與事件響應計劃(AIRP),幫助企業在全球合規要求下構建穩健的AI架構。

  • OpenAI前沿治理框架為安全部署大模型提供結構化模板,直接對應歐盟AI法和加州法案。
  • 框架定義四類系統性風險:網路攻擊、CBRN、有害操縱和失控,並設定具體風險等級(如Tier 3)。
站內正文

Mistral AI Now峰會巴黎見聞

本文分享了作者在巴黎Mistral AI Now峰會上的個人見解。Mistral不再只是一家模型公司,而是構建了包含計算、模型、平臺和諮詢服務的完整AI堆疊。峰會重點強調了與ASML、BNP Paribas、亞馬遜等企業的合作,而非新模型釋出。Mistral專注於高效、開放和可定製的模型,並支援本地部署,這成為其區別於Anthropic或OpenAI的獨特賣點。小型專用模型是關鍵戰略,例如用於OCR的Document AI、多語言語音的Voxtral和工業機器人的Robostral。主權和本地部署是歐洲企業的差異化優勢,如BNP Paribas和Abanca的案例。此外,奧地利科學院利用Mistral的程式設計模型Codestral解讀古代紙莎草文獻,展示了AI在人文領域的潛力。總而言之,Mistral的目標並非贏得AGI競賽,而是成為歐洲的全棧AI合作伙伴,提供即時的實際投資回報。

  • Mistral正從模型公司轉型為全棧AI提供商,擁有自家計算、模型、平臺和諮詢業務。
  • 峰會注重合作伙伴關係(ASML、BNP Paribas、亞馬遜),而非釋出新模型。
站內正文

Liquid AI釋出基於38T tokens訓練的8B-A1B MoE模型

Liquid AI釋出了LFM2.5-8B-A1B,一款面向終端裝置的混合專家模型,總引數8B,活躍引數1B,訓練資料量達38萬億 tokens。該模型支援128K上下文視窗,擴充套件了詞彙表以提升非拉丁語言的分詞效率,並採用純推理鏈式思維模式。在基準測試中表現優異,同時具有出色的CPU和GPU推理速度,適用於本地代理任務。

  • LFM2.5-8B-A1B是一款8B總引數、1B活躍引數的MoE模型,訓練於38T tokens。
  • 上下文視窗擴充套件至128K,詞彙表翻倍至128K,顯著提升非拉丁語言的處理效率。
站內正文

人工智慧會助長極權主義嗎?

本文探討了人工智慧可能如何改變中央集權與分權治理之間的權衡,從而增加極權主義出現的可能性。文章回顧了歷史上通訊和官僚技術對極權統治的促進作用,並分析了AI在資訊處理、監控、宣傳和軍事能力方面的進步如何可能使獨裁政體更有效,甚至縮小民主與專制之間的經濟績效差距。

  • AI可能透過增強中央資訊處理和監控能力,降低獨裁統治的成本。
  • 歷史上如納粹德國和東德利用技術實現控制,而印刷術和網際網路曾促進自由。
站內正文

問題不在AI Agent——現有系統和API並非為AI設計

MCP Bridge透過混合搜尋和AI增強技術,解決企業API對AI Agent不可讀的問題,根據API響應結構自動生成有意義的名稱和描述,大幅提升工具選擇準確率。

  • 混合搜尋結合全文搜尋、向量搜尋和重新排序器,改善工具發現。
  • 企業API常使用如'getProcInfo3'等晦澀名稱,文件匱乏。
站內正文

2026年DataHack峰會上最值得關注的25位AI先驅

本文介紹了將於2026年DataHack峰會上演講的25位最具影響力的AI先驅,包括來自谷歌DeepMind、微軟AI、沃爾瑪等公司的研究科學家、資料科學家、創始人和企業AI領袖。他們正在推動AI技術邊界、構建社群並將模型轉化為產品。

  • 2026年DataHack峰會將匯聚25位頂級AI先驅,涵蓋研究、應用和領導力。
  • 演講者包括谷歌DeepMind的Dheeraj Nagaraj、微軟AI的Hardik Meisheri等。
站內正文

Claude Opus 4.8:更智慧的模型,正確的方向

Anthropic釋出Claude Opus 4.8,重點提升可靠性、誠實性和自主工作流能力,而非單純追求基準分數。定價保持不變,快速模式大幅降價。

  • Claude Opus 4.8注重可靠性和不確定性處理,而非原始智力。
  • 標準定價與Opus 4.7相同:每百萬輸入5美元,輸出25美元;快速模式降價三倍。
站內正文

Step 3.7 Flash:為智慧代理打造的開源閃電模型

Stepfun 推出了 Step 3.7 Flash,這是一個 Apache 2.0 開源模型,專為即時智慧代理設計。它結合了視覺、編碼、搜尋和工具使用能力,擁有 256K 上下文視窗和約 110 億活躍引數,推理速度高達 400 TPS。

  • Step 3.7 Flash 是 Stepfun 釋出的第二代 Flash 模型,採用 Apache 2.0 開源許可。
  • 模型面向現實世界的智慧代理,支援視覺、編碼、搜尋和工具呼叫。
站內正文

研究:人工智慧對醫療保健查詢的響應準確率接近76%

賓夕法尼亞州立大學的一項新研究表明,人工智慧驅動的聊天機器人在回答一般使用者的日常健康問題時準確率接近76%,這引發了對其在面向客戶的真實應用中可信度的擔憂。研究人員發現,在產科、婦科和耳鼻喉科等領域,AI表現最佳,而在內科、神經內科和皮膚科等領域表現最差。他們建議AI工具最好由訓練有素的醫生使用,而不是患者。

  • AI聊天機器人對健康問題的回答準確率為76.2%,但錯誤率超過20%,是醫生的兩倍。
  • 在產科和耳鼻喉科等專業領域AI表現最佳,在內科、神經科和皮膚科表現最差。
站內正文

開源生態系統

本文探討了開源AI策略的侷限性,特別是開放權重模型和開放協議(如MCP)如何被私有參與者捕獲價值。透過分析Anthropic收購Stainless(一家生成SDK和MCP伺服器的初創公司)的案例,說明了開發者體驗層正在被平臺巨頭整合,形成新的護城河。文章強調,開源的影響高度依賴於其依賴關係,需要從生態系統整體視角分析瓶頸。

  • 開放權重模型作為開源策略有其限制,仍需昂貴硬體且架構不易組合。
  • Anthropic收購Stainless顯示了協議互補層的價值捕獲,而非協議本身被捕獲。
站內正文

超越下一個詞預測:透過神經符號圖強制執行法律層級

傳統的生成式AI僅預測下一個詞,對精確法律分析風險太高。下一代法律技術結合神經符號AI(強制遵循邏輯和法律來源層級)與圖檢索增強生成(GraphRAG,將資料對映為網際網路絡以理解上下文),大幅降低幻覺風險並提供可審計的推理過程。

  • 神經符號AI結合語言模型與符號邏輯引擎,強制法律推理鏈和來源層級。
  • GraphRAG將法律文件對映為知識圖譜,提供上下文檢索而非孤立片段。
站內正文

面壁智慧「開源周」:一場定義端側 AI 終局的系統性「亮劍」

面壁智慧於5月25日至29日舉辦端側大模型開源周,釋出五項技術成果,涵蓋訓練框架、模型壓縮、資料集和智慧體作業系統,展現全鏈路系統性創新。MiniCPM5-1B效能超越GPT-4o部分版本,端側AI終局之戰聚焦系統工程。

  • 面壁智慧在2026年5月25-29日舉辦端側大模型開源周,每日釋出一項關鍵技術。
  • 五項成果包括BitCPM-CANN、MiniCPM5-1B、ForgeTrain、PilotDeck和UltraData,形成全棧閉環。
站內正文

mKernel:多GPU、多節點融合核心庫,實現GPU驅動通訊

加州大學伯克利分校UCCL團隊釋出mKernel,將節點內NVLink、節點間RDMA和密集計算融合到單個持久CUDA核心中,旨在減少AI工作負載中的通訊開銷。研究顯示通訊可佔用前向傳播43.6%和訓練總時間32%的時間。mKernel提供五種融合核心,支援ConnectX-7和AWS EFA後端。

  • mKernel將節點內NVLink、節點間RDMA和計算融合到單個持久CUDA核心中
  • 通訊開銷在MoE模型中最高可佔執行時間的47%
站內正文

Hexo Labs 開源 SIA:同時更新框架和模型權重的自我改進代理

Hexo Labs 釋出了 SIA(Self-Improving AI),這是一個基於 MIT 許可證的開源框架,能夠在一個自我改進迴圈中同時更新代理的框架(scaffold)和模型權重。SIA 由三個 LLM 元件驅動,並在三個不同領域(法律分類、CUDA 核心最佳化、單細胞 RNA 去噪)的測試中表現出色,結合框架和權重更新優於僅框架更新。論文稱 SIA 是首個同時編輯框架和權重的系統,並已開原始碼。

  • SIA 是一個自我改進迴圈,可同時更新代理的框架和模型權重,無需人工調整。
  • 在 LawBench 任務中,結合權重更新將準確率從僅框架的 50.0% 提升至 70.1%。
站內正文

首份教皇關於人工智慧的通諭大量由AI撰寫的證據

文章作者透過文本分析、統計證據和AI檢測工具,論證了教皇利奧一世的首份通諭《Magnifica Humanitas》中有大量內容是由AI(特別是Claude)撰寫的。作者指出,通諭中使用的破折號、詞語“genuinely”的頻率遠高於以前的通諭,且Pangram檢測器標記部分段落為AI生成。作者認為,儘管個別證據可能被解釋,但多重證據的吻合難以忽視。

  • 通諭中大量使用破折號和“genuinely”等AI常用詞彙,頻率遠超此前通諭。
  • Pangram檢測器將多個段落標記為40%-100%AI生成,而此前通諭無一被標記。
站內正文

開源安全護欄模型基準測試:一項全面評估

一項針對14個開源安全護欄模型的全面評估顯示,Qwen Guard(4B引數)以83.97%的召回率位居榜首,而更大的模型如Llama Guard(12B)和GPT-OSS Safeguard(20B)表現保守,漏掉多達75%的不安全內容。研究還發現,模型大小與安全檢測效能無關,通用型護欄模型優於專用模型。

  • Qwen Guard(4B引數)在79,331個樣本的基準測試中召回率最高(83.97%)。
  • Llama Guard(12B)和GPT-OSS Safeguard(20B)等大型模型漏掉75%的不安全內容。
站內正文

LLM交易代理中的表示特徵與風險反饋對齊

本研究利用TradeArena測試平臺,分析大型語言模型(LLM)交易代理在金融決策中的行為對齊與表示動態。研究發現失敗前的可測量跡象:規劃嵌入偏離正常狀態,有效秩收縮。結構化的風險反饋可作為外部對齊訊號,但並非通用效能增強器。此外,51只股票的日內實驗揭示了相關性盲點:LLM理由常證明對耦合資產的集中敞口是合理的。

  • LLM代理在金融交易中存在可測量的失敗前表示特徵,如規劃嵌入漂移和有效秩收縮。
  • 結構化風險反饋可以作為外部對齊訊號,但效果因模型而異。
站內正文

一掩蔽之,統御所有:編輯後的隱藏事實及其發現方法

本文研究知識編輯方法(如ROME和MEMIT)在Transformer模型中的內在機制。作者發現儘管每次編輯修改不同的權重,但所有編輯都依賴於一個共同的權重子集。透過訓練一個緊湊的二進位制掩碼,他們成功逆轉了訓練集上80%的編輯和測試集上超過70%的編輯,驗證了不同編輯共享共有功能結構。掩碼透過消除後期層的過度注意來逆轉編輯,且注入該掩碼會使編輯成功率從98%驟降至38%,表明該機制是編輯成功的必要條件。研究發現編輯實際上抑制而非覆蓋知識,這解釋了ROME和MEMIT無法將更改傳播到相關事實的原因。該發現有助於檢測和防禦未授權編輯。

  • ROME/MEMIT等編輯方法雖修改不同的權重,但都作用於一個共同的權重子集。
  • 訓練得到的二進位制掩碼可逆轉超過70%的編輯,其機制是消除後期層的過度注意。
站內正文

清華系團隊給大模型織了一張“智慧算力電網”

清華系創業公司是石科技透過自主研發的並行最佳化技術,構建異構算力資源池與推理最佳化引擎,實現單位Token成本降低40%,旨在打造國產Token調優工廠,降低AI落地門檻。

  • 是石科技成立於2021年,源於國家超算無錫中心,創始人閆博文為清華博士後。
  • 透過全域異構算力池和深度國產化適配,將閒置國產晶片轉化為可用算力。
站內正文

如何最佳化您的AI令牌使用量:repo-brain 工具介紹

repo-brain 是一款開源工具,能將整個程式碼庫壓縮成單個Markdown上下文檔案,實現高達96%的壓縮率,大幅減少AI令牌使用量。它支援多種程式語言的靜態分析、架構分析和語義關係發現,併相容多家AI提供商。

  • 將整個程式碼庫壓縮為單個Markdown上下文檔案,減少AI令牌使用量
  • 在262個檔案的程式碼庫上實現96%壓縮率(從154,229降至6,487令牌)
站內正文

Show HN:Trelk – 閱讀、思考、連線

Trelk 是一款一次性購買、無需訂閱的知識管理應用。它利用裝置端 AI 儲存、組織並連線文章、論文和筆記,提供混合搜尋、知識圖譜、RAG 聊天、閃卡間隔重複和社群集合等功能,注重隱私且可離線工作。

  • 一次性購買,無訂閱費用
  • 裝置端 AI 驅動的知識管理與連線
站內正文

Together AI如何構建全球最快的語音轉文本技術棧

Together AI透過將語音識別視為端到端系統問題,而非單純的GPU推理問題,在Artificial Analysis榜單上實現了最快的語音轉文本速度。本文詳細介紹了其最佳化策略:包括針對真實音訊形狀的TensorRT多配置檔案引擎、條件CUDA圖消除CPU往返、共享記憶體減少資料複製、事件驅動I/O處理流式傳輸,以及透過gc.freeze()消除垃圾回收尾延遲。

  • Together AI透過全路徑系統最佳化,而非僅關注GPU推理,實現了最快的語音轉文本效能。
  • 核心技術包括TensorRT多配置檔案編碼器、條件CUDA圖解碼器、零複製共享記憶體和事件驅動I/O。
站內正文

AI每週第497期:AI的勞工戰爭全球爆發

本週,AI與工作的衝突在四個司法管轄區同時爆發:維基百科編輯因裁員組織罷工,亞馬遜員工將內部AI評級系統玩壞,中國法院開始執行禁止以AI為由裁員的規定,英國智庫呼籲員工在AI部署中擁有發言權。同時,前沿實驗室繼續深入政府合作。

  • 維基百科編輯威脅罷工以抗議基金會裁員
  • 亞馬遜員工透過操控內部AI排名系統致其失效
站內正文

強化學習是一個基礎設施問題

本文探討了強化學習在大型語言模型後訓練中的實際應用,指出當前的瓶頸並非演算法而是基礎設施。Modal分享了大規模執行RL後訓練的經驗,介紹了其開源庫如何幫助團隊解決多節點訓練、環境管理和GPU利用率等關鍵問題。

  • 強化學習後訓練LLM的瓶頸是基礎設施,包括訓練引擎、推理沙箱和環境隔離。
  • 多節點訓練中,權重同步耗時巨大,RDMA和增量壓縮顯著降低延遲。
站內正文

PyTorch 效能分析(第一部分):torch.profiler 入門指南

本文是 PyTorch 效能分析系列的第一篇,從最簡單的矩陣乘加操作開始,引導讀者學習如何使用 torch.profiler 進行效能分析,包括設定分析器、解讀分析表和追蹤資料,以及理解 CPU 和 GPU 活動之間的時間關係。文章還討論了預熱和最佳化開銷等問題。

  • torch.profiler 可以生成效能分析表和時間線追蹤,幫助識別熱點和瓶頸。
  • 小矩陣乘法容易導致開銷受限,增大矩陣規模可轉為計算受限。
站內正文

我構建了一個像大腦一樣抽象記憶的AI系統,而非資料庫

Serenity 是一個開源、本地的AI代理,採用受大腦啟發的神經節點網路(NNN)記憶架構。它能記住因果關係,跨領域推理,自主執行,且完全在本地機器上執行,無需雲依賴。

  • 神經節點網路以因果格式編碼經驗,實現上下文理解
  • 透過Ollama完全本地執行,確保隱私,無雲依賴
站內正文

Liquid AI 釋出 LFM2.5-8B-A1B:面向裝置的 MoE 模型,總引數量 8.3B,啟用引數量 1.5B

Liquid AI 推出了 LFM2.5-8B-A1B,這是一款面向裝置的混合專家(MoE)模型,專為工具呼叫設計。該模型總引數量為 8.3B,但每個 token 僅啟用 1.5B 引數,從而能夠在消費級硬體上執行。它支援 128K 上下文視窗、推理能力,並覆蓋九種語言。相比前代 LFM2-8B-A1B,該模型在非幻覺率、指令遵循、數學推理等基準測試中均有顯著提升。

  • LFM2.5-8B-A1B 採用稀疏 MoE 架構,總引數量 8.3B,每個 token 僅啟用 1.5B 引數,適合邊緣硬體部署。
  • 支援 128K 上下文視窗,覆蓋九種語言,包括阿拉伯語、中文和日語。
站內正文

在Amazon SageMaker AI上訓練亞塞拜然語語言模型

亞塞拜然電信公司Azercell與AWS生成式AI創新中心合作,在Amazon SageMaker AI上構建了針對亞塞拜然語的大語言模型,透過自定義分詞器、分散式訓練和Liger Kernel最佳化,實現了23%的訓練吞吐量提升、58%的GPU記憶體峰值降低和2倍的分詞效率提升。

  • Azercell使用Amazon SageMaker AI為亞塞拜然語開發了首個大語言模型生產框架。
  • 自定義分詞器將每個詞的令牌數從3.22降至1.59,效率提升2倍。
站內正文

創新新時代:Google Research在I/O 2026的展示

在2026年Google I/O大會上,Google Research展示了一系列前沿技術,涵蓋科學發現、健康、邊緣計算和天氣預測等領域。推出了Gemini for Science套件(包括ERA和Co-Scientist),加速科學研究;健康方面有Google Health應用、Symptom AI和AMIE系統;Coral NPU推動邊緣AI發展;還有極端天氣預測模型。這些創新展示了AI如何放大人類的智慧。

  • Google釋出Gemini for Science,內含ERA和Co-Scientist,加速科學發現。
  • 健康領域推出Google Health應用、Symptom AI和AMIE,提升醫療服務質量。
站內正文

使用 AWS 上的 LangSmith 評估深度智慧體

本文結合 LangChain 評估深度智慧體的經驗和 Anthropic 的 AI 智慧體評估指南,提供了實用指南。您將學習如何應用五種評估模式、使用 pytest 和 LangSmith 構建離線評估,以及配置生產環境的線上監控。文中以文本到 SQL 的深度智慧體為例,使用 Amazon Bedrock 覆蓋從開發到生產的完整生命週期。

  • 深度智慧體的評估面臨非確定性、錯誤傳播和創造性解決方案等挑戰。
  • 介紹了程式碼基礎、模型基礎和人工三種評估器,並推薦組合使用。
站內正文

GenAI 的倫理抉擇:生成式AI的道德使用

本文全面探討生成式AI(GenAI)的倫理問題,分析其在軟體開發等領域的優勢與弊端,包括巨大的能源消耗、電子垃圾、虛假資訊傳播、對教育科學的威脅、對民主的危害以及數字殖民主義等問題。作者基於自身經驗提出,倫理行為需要權衡利弊,並主張在充分了解負面影響的前提下審慎使用GenAI。

  • GenAI(如ChatGPT)存在能耗巨大、電子垃圾、虛假資訊、智慧財產權爭議等嚴重負面影響。
  • LLM不具備真正的推理能力,容易產生‘幻覺’且無法區分真假。
站內正文

人工智慧抵抗清單

一份記錄全球各地反對大型AI帝國的抵抗運動的清單,涵蓋抗議、法律行動、替代工具和社群組織等多種形式,旨在激發希望和行動。

  • AI帝國以“造福全人類”為名,實則集中資源、破壞生態、強化控制。
  • 全球湧現多種抵抗形式:從法律訴訟、資料汙染工具到社群動員。
站內正文

Mistral AI與Digital Realty合作擴充套件歐洲AI基礎設施

法國初創公司Mistral AI在Digital Realty的巴黎南園區獲得了10兆瓦的計算能力,以擴充套件其AI基礎設施。

  • Mistral AI在Digital Realty巴黎南園區獲得10兆瓦計算能力
  • 該合作旨在擴充套件歐洲的AI基礎設施
站內正文

更多增長標籤