AI News HubLIVE

開源模型動態

雙立場評估奉承行為:同意的結構與干預的侷限性

激活引導可以改變大語言模型的行為,但標準評估通常不測試減少奉承行為的引導方向是否也會抑制對事實正確陳述的同意。本文引入雙立場評估,對Llama-3-8B-Instruct應用質心差分引導,發現模型將奉承性同意和事實性同意表示在幾何上不同的子空間中,但引導方向在兩個子空間上的投影相等,無法區分目標。因此,引導同時減少了奉承性陳述和事實正確陳述(如“地球是圓的”)的同意。所有其他靜態屬性均匹配,表明行為分離源於生成動態或殘差流分析無法解析的更精細結構。這一模式揭示了一個普遍差距:從激活中可讀的表徵不一定可通過激活寫入。

  • 激活引導減少奉承行為時,也會抑制對事實正確陳述的同意。
  • 雙立場評估同時測試每個話題的兩種立場,揭示了引導的副作用。
站內正文

DiffusionGemma:谷歌基於擴散的開源模型,實現更快的文本生成

谷歌DeepMind的DiffusionGemma是一款實驗性的開源模型,採用擴散方式並行生成文本塊,相比傳統的自迴歸模型,在本地推理時速度更快。它基於Gemma 4 26B A4B MoE架構,犧牲部分質量換取速度,特別適用於交互式編輯等任務。本文解釋了其架構、文本擴散的工作原理、基準測試結果,並提供了使用llama.cpp在本地運行的分步指南。

  • DiffusionGemma並行生成和優化文本塊,減少本地推理延遲。
  • 它使用雙向注意力和256令牌的畫布,通過多個去噪步驟進行生成。
站內正文

遇見「North Mini Code」:Cohere 的 30B 開放權重混合專家模型,3B 活躍參數,專為智能體編程打造

Cohere 發佈了其首個面向開發者的編碼模型 North Mini Code。這是一款 30B 總參數、3B 活躍參數的混合專家模型,可在單張 H100 GPU 上運行,支持 256K 上下文長度。模型專注於代碼生成、智能體軟件工程和終端任務,權重採用 Apache 2.0 許可發佈。

  • North Mini Code 是 Cohere 首個編碼模型,30B 總參數,3B 活躍參數,支持 256K 上下文和 64K 最大輸出。
  • 模型可在單張 H100(FP8)上運行,權重開源(Apache 2.0),通過 Hugging Face、Cohere API 等渠道可用。
站內正文

Ollama在Apple Silicon上通過MLX實現最高性能

Ollama的MLX引擎更新後,在Apple Silicon上實現了最高性能。通過更充分利用蘋果統一內存和Metal支持的MLX框架,模型輸出質量更高,響應更快,內存佔用更低。新支持NVFP4格式,輸出速度提升高達20%,並引入快照系統優化代理工作流。

  • Ollama MLX引擎更新,支持NVFP4格式,量化質量損失減半。
  • 輸出速度提升高達20%,得益於融合的Metal內核和優化採樣。
站內正文

DiffusionGemma:谷歌開源高速文本生成模型

谷歌發佈了名為DiffusionGemma的新開源模型,基於Apache 2許可證,可在NVIDIA的NIM雲API上免費使用。該模型在生成速度上表現卓越,達到每秒500個token以上。

  • 谷歌發佈開源模型DiffusionGemma,採用Apache 2許可證。
  • 該模型在NVIDIA NIM雲API上免費託管。
站內正文

谷歌新開放模型DiffusionGemma:通過噪聲而非逐詞生成文本

谷歌發佈26億參數的DiffusionGemma模型,採用擴散方式生成文本,速度是傳統自迴歸模型的四倍,但質量較低,目前作為實驗工具。

  • DiffusionGemma是26億參數模型,通過噪聲擴散生成文本
  • 速度達每秒1000個token,比傳統模型快4倍
站內正文

谷歌AI發佈DiffusionGemma:26B MoE開放模型,採用文本擴散技術實現最高4倍生成速度

DiffusionGemma是Google DeepMind推出的實驗性開放文本生成模型,採用文本擴散而非標準自迴歸解碼,在專用GPU上可實現最高4倍生成加速。模型參數量26B(MoE架構,推理時僅激活3.8B),基於Gemma 4骨幹,支持多模態輸入(文本、圖像、視頻),上下文窗口256K,覆蓋140+語言,採用Apache 2.0許可。

  • DiffusionGemma是26B參數的混合專家(MoE)模型,推理時僅激活3.8B參數,通過並行文本擴散生成整塊文本。
  • 在單個NVIDIA H100上達到1000+ tokens/s,RTX 5090上700+ tokens/s,量化後僅需18GB VRAM。
站內正文

NVIDIA加速谷歌DeepMind的DiffusionGemma,實現本地AI

谷歌DeepMind發佈了DiffusionGemma實驗性開源模型,通過並行生成文本而非逐詞預測,大幅提升速度。NVIDIA對其進行了優化,使其在GeForce RTX、RTX PRO和DGX Spark等平台上運行更快,本地即可實現高達1000 tokens/sec的推理速度。

  • DiffusionGemma採用擴散模型方式,每步並行生成多達256個token,而非傳統自迴歸式逐個生成。
  • 基於Gemma 4架構(26B參數,MoE),激活僅3.8B參數,性能提升達4倍。
站內正文

NeuroBait:我微調了一個模型來激發ADHD大腦的多巴胺

NeuroBait是一個針對ADHD大腦微調的AI模型,旨在通過提供温暖、可操作的小步驟來克服任務啓動癱瘓,而不是傳統的待辦事項列表。該項目源於作者的妻子患有ADHD,通過觀察和實踐,利用LoRA在Gemma 3 12B模型上訓練,並部署在Hugging Face Space上。它不僅是ADHD工具,也能幫助任何感到不知所措的人。

  • NeuroBait通過生成温暖、流動的文字,提供微小可行的行動,幫助ADHD大腦啓動任務。
  • 項目基於對ADHD患者的真實觀察,而非理論,使用LoRA微調Gemma 3 12B模型。
站內正文

利用開源大語言模型從腦MRI報告中自動提取結構化信息

一項新研究評估了開源大語言模型LLaMA 3.1從荷蘭語腦MRI報告中自動提取結構化信息的能力。模型在視覺評分等分類變量上表現優異,但在數值變量上表現較差,而少樣本提示能顯著提升數值變量的提取準確率。

  • LLaMA 3.1在視覺評分(如內側顳葉萎縮、總體皮質萎縮和Fazekas評分)上零樣本準確率達87%-96%。
  • 微出血和梗死檢測準確率分別為93%和82%,但數值變量(如數量)準確率較低。
站內正文

展示 HN:為 5090 找到的最佳本地 LLM 設置(llama.cpp 分支 + turboquant)

本文詳細介紹瞭如何在單張 32GB VRAM 的 RTX 5090 顯卡上,通過 llama.cpp 的 TurboQuant 分支和 YaRN 縮放技術,運行 Qwen 3.6 35B MoE 模型並實現 450K token 的上下文窗口。內容涵蓋模型選擇、量化權衡、內存預算校準、KV 緩存量化、RoPE 縮放、多模態設置、實際複製指南、VRAM 生命週期管理以及性能評估。

  • 使用 Qwen3.6-35B-A3B-Q6_K 模型,結合 llama.cpp 的 TurboQuant 分支,在 RTX 5090 上實現 450K 上下文。
  • 通過 3-bit KV 緩存量化(turbo3)和 YaRN 縮放將上下文從 262K 擴展到 450K,但會帶來困惑度損失和檢索精度下降。
站內正文

NVIDIA發佈Nemotron 3.5 ASR:600M參數緩存感知流式模型,實時轉錄40種語言區域

NVIDIA發佈了Nemotron 3.5 ASR,這是一個600M參數的流式自動語音識別模型,採用緩存感知的FastConformer-RNNT架構,支持40種語言區域的實時轉錄,且內置標點和大小寫功能。模型以開放權重形式發佈在Hugging Face上,許可協議為OpenMDW-1.1。

  • 單檢查點覆蓋40種語言區域,無需切換模型
  • 緩存感知設計減少計算延遲,每個音頻幀僅處理一次
站內正文

Claude-tinderbox:通過MCP在本地搜索你的Claude.ai對話歷史

一個名為tinderbox的個人項目,允許用户導出Claude.ai對話、本地索引並通過MCP服務器在任意Claude會話中搜索。支持混合檢索、Supabase存儲、Ollama嵌入。

  • 導出Claude.ai對話ZIP,自動解析入庫
  • 混合語義+全文搜索,支持檢索歷史消息和工件
站內正文

Google DeepMind發佈Gemma 4 QAT檢查點:Q4_0和新移動格式降低設備端內存

Google DeepMind為Gemma 4系列發佈了量化感知訓練(QAT)檢查點,旨在支持邊緣設備和消費級GPU的本地部署。本文基於官方數據比較了BF16、Q4_0 QAT和新型移動QAT三種格式,分析其內存佔用、質量保持和設備適配性。

  • Q4_0 QAT將Gemma 4 E2B模型從BF16的9.6GB降至3.2GB,E4B從15GB降至5GB。
  • 新型移動QAT格式將E2B內存降至約1GB,純文本版本更低。
站內正文

Gemma 4 QAT模型:為移動設備和筆記本電腦優化壓縮效率

谷歌發佈採用量化感知訓練(QAT)的Gemma 4新檢查點,顯著降低內存需求,支持在邊緣設備和消費級GPU上本地運行。自定義移動量化格式將E2B模型內存佔用降至1GB以下,同時保持模型質量。

  • QAT在訓練中模擬量化,相比後訓練量化(PTQ)進一步減少質量損失。
  • 針對移動設備設計的新型量化格式,包括靜態激活、通道量化、2位目標量化和嵌入/KV緩存優化。
站內正文

Google Gemma 4 12B:架構、基準測試、訪問與開發者實操指南

2026年6月3日,Google推出Gemma 4 12B Unified,一款開源多模態模型,支持文本、圖像、音頻和視頻,擁有256K上下文窗口,專為筆記本電腦上的智能體工作流和本地部署設計。本文解析其架構、特性、基準測試對比及開發者上手指南。

  • Gemma 4 12B Unified採用無編碼器架構,直接投影圖像和音頻到LLM嵌入空間,簡化多模態處理。
  • 支持256K上下文、函數調用、35種以上語言、語音識別和視頻理解,可在Ollama等本地工具運行。
站內正文

ERRORQUAKE:開源大語言模型中錯誤嚴重性的重尾分佈

即使準確率相同,不同的開源大語言模型(LLM)在錯誤嚴重性分佈上也存在顯著差異——這種差異是標量錯誤率所無法捕捉的。我們引入了Errorquake-10k基準測試,包含10,000個查詢,在8個領域和5個難度等級上對每個回答進行0-4連續嚴重性評分,併為21個開源模型擬合了嚴重性分佈。

  • Errorquake-10k基準測試對LLM回答進行0-4連續嚴重性評分,揭示了錯誤嚴重性的重尾分佈。
  • 在匹配準確率下,許多模型對在嚴重性分佈上表現出顯著差異,表明錯誤率不足以評估模型。
站內正文

GGUF 提升性能與模型支持

Ollama 0.30 現已發佈,通過 llama.cpp 帶來更優性能和 GGUF 模型兼容性,增強了 Apple Silicon 上的 MLX 引擎,支持更多硬件和模型。

  • NVIDIA GPU 性能提升高達 20%
  • Vulkan 默認啓用,擴展 AMD/Intel 支持
站內正文

NVIDIA AI發佈Nemotron 3 Ultra:一個開放的550B混合專家混合Mamba-Transformer用於長時間運行的智能體

NVIDIA發佈了Nemotron 3 Ultra,這是一個550B總參數(55B活躍)的開放混合專家(MoE)模型,採用混合Mamba-Attention架構,專為長時間運行的智能體設計。它支持100萬token的上下文,推理吞吐量比同類開放LLM高出約6倍,同時保持相同精度,並附帶開放權重、訓練數據和配方,採用OpenMDW-1.1許可。

  • Nemotron 3 Ultra採用混合Mamba-Attention架構,Mamba層實現亞二次方擴展,注意力層保證精確召回。
  • 模型總參數550B,每token僅激活55B,通過LatentMoE和多令牌預測提高效率。
站內正文

Nemotron 3.5 內容安全:面向全球企業 AI 的可定製多模態安全模型

NVIDIA 發佈 Nemotron 3.5 Content Safety,這是一個統一的、支持多模態輸入、多語言覆蓋、自定義企業策略執行和可審計推理的內容安全模型。該模型基於 Google Gemma 3 4B IT 構建,通過 LoRA 適配器進行微調,支持 12 種語言的顯式訓練和約 140 種語言的零樣本泛化。它引入了自定義策略執行(通過自然語言策略規範)和推理跟蹤(THINK 模式)功能,可提供可審計的逐步推理。該模型在多項多語言和多模態安全基準測試中平均準確率約為 85%,同時保持了緊湊的 4B 參數大小和低延遲特性。NVIDIA 還發布了配套的安全數據集,包含多模態、多語言的安全推理跟蹤數據。

  • Nemotron 3.5 統一了多模態輸入、多語言覆蓋、自定義策略和可審計推理。
  • 支持 12 種語言的顯式訓練,並通過 Gemma 3 基座模型零樣本泛化至約 140 種語言。
站內正文

谷歌的Gemma 4 12B表明AI競賽正向邊緣設備轉移

該模型採用Apache 2.0許可發佈,是雲提供商讓企業能夠在本地設備上運行模型以支持代理工作流的又一例證。

  • 谷歌發佈Gemma 4 12B模型,採用Apache 2.0許可證。
  • 該模型旨在讓企業在本地設備上運行AI,用於代理工作流。
站內正文

使用Scikit-LLM與開源大語言模型

本文介紹如何通過Ollama和Scikit-LLM Python庫,免費使用本地託管的開源大語言模型(如Llama 3、Mistral和Gemma)進行文本分類任務。

  • 安裝Ollama並下載開源模型到本地運行。
  • 配置Scikit-LLM將請求路由到本地Ollama端點。
站內正文

POLARIS:引導小模型撰寫長篇小説

POLARIS是一種針對小型開源模型的訓練方法,通過GRPO策略結合LLM裁判和人類參考注入,顯著提升了長文本創作能力。訓練後的9B模型在長度遵循度和質量上可與27B模型媲美,並展現出強大的長度泛化能力。

  • POLARIS使用LLM作為裁判和人類參考注入來優化小模型的創作能力
  • 基於Qwen3.5-9B訓練的POLARIS-9B在多項基準測試中與更大模型競爭
站內正文

NVIDIA Nemotron 3 Ultra:專為長期代理工作流打造的5500億參數開放模型

NVIDIA Nemotron 3 Ultra 是一款5500億總參數(550億活躍參數)的開放模型,專為長時間運行的代理驅動工作流設計,支持百萬token上下文,並採用NVFP4優化,在代理任務上具有領先的準確性和成本效益。

  • 5500億總參數(550億活躍),針對代理編排、編碼代理和深度研究優化。
  • 支持100萬token上下文窗口,可保留整個代碼庫和工具歷史。
站內正文

谷歌新推出的Gemma 4 12B模型僅需16GB內存即可在任何筆記本上運行

谷歌發佈了Gemma 4 12B模型,這是一個120億參數的AI模型,可在配備16GB內存的消費級筆記本上運行,填補了Gemma 4系列中移動端與高性能型號之間的空白。

  • 谷歌新模型Gemma 4 12B僅需16GB內存即可本地運行。
  • 它定位於移動優化模型與高端26B/31B模型之間。
站內正文

谷歌DeepMind的Gemma 4 12B將多模態AI壓縮到僅需16GB RAM的筆記本電腦上

谷歌DeepMind發佈開源模型Gemma 4 12B,原生處理文本、圖像和音頻,可在僅16GB RAM的筆記本電腦上運行。其性能幾乎與兩倍大小的26B模型相當,並採用Apache 2.0許可證,可用於商業用途。

  • Gemma 4 12B是開源多模態模型,支持文本、圖像和音頻。
  • 僅需16GB RAM即可在筆記本電腦上運行。
站內正文

Google DeepMind 發佈 Gemma 4 12B:無需編碼器的多模態模型,原生音頻支持,可在 16GB 筆記本電腦上運行

Google DeepMind 發佈 Gemma 4 12B,這是一款 120 億參數的密集多模態模型,採用無編碼器設計,直接將視覺和音頻輸入 LLM 主幹。該模型可在 16GB RAM 的消費級筆記本電腦上本地運行,並採用 Apache 2.0 許可證。它原生支持文本、圖像、音頻和視頻,是首個具備原生音頻功能的中型 Gemma 模型。

  • 無編碼器架構:取消獨立的視覺(5.5億參數)和音頻(3億參數)編碼器,使用輕量級視覺嵌入器(3500萬參數)和直接音頻波形投影。
  • 性能接近 26B MoE 模型,但內存佔用不到一半,可在 16GB 設備上運行。
站內正文

Ideogram 4.0 以開源權重模型發佈,原生支持2K分辨率,文本渲染能力提升

Ideogram 發佈4.0版本文本生成圖像模型,作為開源權重模型,提供原生2K分辨率、邊界框控制和改進的文本渲染。在DesignArena排行榜中,該模型在所有開源模型中排名第一;只有OpenAI和Google的閉源系統得分更高。商業使用需要付費許可。

  • 開源權重模型,原生支持2K分辨率
  • 支持邊界框控制,文本渲染增強
站內正文

MIT研究人員教會AI模型解讀圖表

MIT和MIT-IBM計算研究實驗室的研究人員開發了ChartNet數據集,包含超過一百萬張多樣化圖表,用於訓練視覺語言模型。該數據集使小型開源模型在圖表理解任務上超越大型商業模型,有望幫助預算有限的小型企業更有效地利用AI。

  • ChartNet數據集包含超過一百萬張圖表,涵蓋視覺、語言和數值信息。
  • 使用該數據集訓練的小型開源模型在數據提取和圖表總結上優於大型商業模型。
站內正文

通過顯式建模數據流形幾何的擴散圖像生成

研究人員提出了MIND(數據流形感知圖像擴散模型),通過將離散補丁標記化集成到連續擴散模型的得分函數中,顯式建模流形幾何。該方法在ImageNet 256×256上實現了FID 2.06(MIND-B,1.3億參數),優於LlamaGen-3B(31億參數)的FID。

  • MIND結合離散標記的結構量化能力和連續擴散的並行生成靈活性。
  • 提出軟top-k聚合機制實現端到端可微訓練,以及雙分支高頻特徵嵌入層緩解頻譜偏差。
站內正文

SENSE:基於語義嵌入導航與軟門控評估的檢索式推測解碼方法

提出SENSE方法,通過基於目標模型隱藏狀態的語義檢索和軟門控評估,提升檢索式推測解碼的魯棒性和效率,在LLaMA和Qwen上實現高達4.09的平均接受長度和3.26倍加速。

  • SENSE利用目標模型隱藏狀態進行語義檢索,取代傳統基於詞彙的檢索。
  • 引入軟門控評估模塊,驗證語義等價性而非表面形式。
站內正文

MindGames Arena泛化賽道:In2AI解決方案採用延遲逐步獎勵歸因

本文提出了一種延遲逐步獎勵歸因方法,結合資格門控、異步rollout生成等,使8B參數開源模型在NeurIPS 2025 MindGames Arena基準測試中擊敗GPT-5等大型系統,贏得雙賽道第一。

  • 提出延遲逐步獎勵歸因與資格門控
  • 使用vLLM連續批處理異步生成rollout
站內正文

MiniMax M3:擁有百萬token上下文窗口的開源模型挑戰專有領導者

中國AI公司MiniMax發佈了其新模型M3,號稱是首個結合頂尖編碼性能、百萬token上下文窗口和原生多模態能力的開源模型。

  • MiniMax發佈M3模型,是首個結合頂級編碼、百萬token上下文和原生多模態的開源模型。
  • 該模型旨在挑戰專有模型在性能上的領先地位。
站內正文

Nemotron 3 Ultra:高速、領先的美國開放權重智能模型

NVIDIA在Computex主題演講中發佈了Nemotron 3 Ultra,擁有550B參數(55B活躍),是美國開放權重模型中智能最高的,AI Index得分48,推理速度超過300 tokens/s。

  • Nemotron 3 Ultra是美國開放權重模型中最大且最智能的。
  • AI Index得分48,領先其他美國模型,但落後於中國的Kimi K2.6。
站內正文

MiniMax M3:首個融合三種前沿能力的開源模型

MiniMax 發佈了 M3 模型,這是首個將編碼與智能體能力、稀疏注意力實現百萬 Token 上下文、以及原生多模態融合的開源權重模型。模型在 SWE-Bench Pro 等基準測試中表現優異,API 已上線並提供首週五折優惠,權重和技術報告將在約 10 天內發佈。

  • MiniMax M3 是首個結合編碼與智能體、稀疏注意力百萬上下文、原生多模態的開源權重模型。
  • 基準測試成績:SWE-Bench Pro 59.0%,Terminal Bench 66.0%,SWE-fficiency 34.8% 等。
站內正文

MAVEN:提升智能體工具調用中的泛化能力

MAVEN(模塊化智能體驗證與執行網絡)是一種輕量級符號推理框架,旨在通過結構化分解、自適應工具編排和中間驗證來增強智能體在工具調用環境中的泛化能力。在MAVEN-Bench壓力測試中,MAVEN將GPT-OSS-120b基礎模型的準確率從48%提升至71%,且無需額外訓練。該框架在使用開源模型的情況下,成本僅為專有模型的1/10,展現了輕量級驗證中心框架在組合推理方面的潛力。

  • MAVEN是一種輕量級符號推理框架,專注於智能體工具調用的泛化問題。
  • 在MAVEN-Bench基準測試中,MAVEN將GPT-OSS-120b準確率從48%提升至71%,無需額外訓練。
站內正文

Mistral Vibe:面向長期多步驟工作與編程的AI代理

Mistral Vibe是一款AI代理,專為長期運行的多步驟工作和編程任務設計。本文介紹其功能及在Product Hunt上的討論。

  • Mistral Vibe專注於長期、多步驟的工作流程和編程任務。
  • 該產品在Product Hunt上發佈,引發社區討論。
站內正文

七國集團就開源AI和開放權重AI達成共同語言

在即將於法國埃維昂舉行的第52屆G7峯會前夕,G7數字與科技部長會議就開源AI的共同語言及其重要性達成共識,明確了開源AI、開放權重AI等定義。

  • G7數字與科技部長會議就開源AI定義達成一致
  • 定義了四種AI開放程度:開放數據開源AI、開源AI、開放權重AI、權重可用AI
站內正文

AI模型免費、私密且永遠不會説“不”

開放權重AI模型缺乏安全護欄,變得日益普及,引發安全擔憂。一種名為“abliteration”的新方法可輕易移除模型限制,使任何人都能利用它們從事有害活動,如生成恐怖主義內容或製造武器。儘管有合法用途,但監管和防護措施仍面臨挑戰。

  • 開放權重模型(如DeepSeek)可被輕易移除安全限制,使用門檻大幅降低。
  • Abliteration方法使移除護欄變得簡單,相關模型數量激增。
站內正文

開放模型落後閉源模型4個月

根據Epoch的內部能力指標(ECI),開放權重模型通常需要平均4個月才能達到閉源模型的先進性能。ECI是一種綜合衡量標準,涵蓋了多個基準測試的表現。

  • 開放權重模型平均落後於閉源模型約4個月
  • Epoch使用ECI指標衡量模型性能
站內正文

Show HN:我製作了一款使用本地AI為截圖命名的Gemma 4 Mac應用

SnapName 是一款 macOS 應用,利用本地捆綁的 Gemma 4 AI 模型自動為截圖命名,確保圖像不會離開你的 Mac,從而保護隱私。

  • SnapName 監控截圖文件夾,使用本地 AI 自動為新的截圖生成文件名。
  • 支持 macOS、CleanShot、Shottr 等多種截圖工具和 PNG、JPEG、HEIC 等格式。
站內正文

Mistral警告稱歐洲只有兩年時間構建自主AI基礎設施

在Mistral AI峯會上,CEO Arthur Mensch表示歐洲必須在兩年內建立足夠的AI基礎設施,否則可能淪為美國AI的“附庸國”。峯會吸引了眾多歐洲企業和政府代表,強調數據主權和開源模型,但歐洲在投資和規模上仍遠落後於美國對手。

  • Mistral CEO警告歐洲需兩年內建立AI基礎設施,避免成為美國附庸。
  • 峯會吸引大量參與者,凸顯歐洲對自主AI生態系統的渴望。
站內正文

利用IBM量子採樣循環調優僅CPU的Qwen3-30B推理

一個研究項目展示了在2017年MacBook Air上,通過結合人類實驗者、Codex、llama.cpp、本地數據庫和IBM量子處理器採樣,將Qwen3-30B模型的推理速度從0.09 tokens/sec提升至14.03 tokens/sec,同時保持輸出連貫性。該方法並非在量子處理器上運行模型,而是用量子採樣優化推理配置。

  • 在8GB內存的2017年MacBook Air上,無GPU運行Qwen3-30B模型
  • 通過人機協同量子優化循環,速度從0.09 tok/s提升到14.03 tok/s
站內正文

英偉達推出X-Token:投影引導的跨分詞器知識蒸餾,在Llama-3.2-1B上平均得分超過GOLD 3.82個百分點

英偉達的X-Token解決了GOLD在跨分詞器知識蒸餾中的兩個結構性缺陷,在GSM8k等數學推理基準上取得了顯著改進。它利用投影矩陣和P-KL與H-KL損失之間的選擇機制來處理分詞器不匹配問題。

  • X-Token修復了GOLD中的不常見詞元失敗和過於保守匹配問題。
  • 在使用Qwen-4B教師模型時,它在Llama-3.2-1B上平均得分超過GOLD 3.82個百分點。
站內正文

Mistral AI Now峯會巴黎見聞

本文分享了作者在巴黎Mistral AI Now峯會上的個人見解。Mistral不再只是一家模型公司,而是構建了包含計算、模型、平台和諮詢服務的完整AI堆棧。峯會重點強調了與ASML、BNP Paribas、亞馬遜等企業的合作,而非新模型發佈。Mistral專注於高效、開放和可定製的模型,並支持本地部署,這成為其區別於Anthropic或OpenAI的獨特賣點。小型專用模型是關鍵戰略,例如用於OCR的Document AI、多語言語音的Voxtral和工業機器人的Robostral。主權和本地部署是歐洲企業的差異化優勢,如BNP Paribas和Abanca的案例。此外,奧地利科學院利用Mistral的編程模型Codestral解讀古代紙莎草文獻,展示了AI在人文領域的潛力。總而言之,Mistral的目標並非贏得AGI競賽,而是成為歐洲的全棧AI合作伙伴,提供即時的實際投資回報。

  • Mistral正從模型公司轉型為全棧AI提供商,擁有自家計算、模型、平台和諮詢業務。
  • 峯會注重合作伙伴關係(ASML、BNP Paribas、亞馬遜),而非發佈新模型。
站內正文

開源生態系統

本文探討了開源AI策略的侷限性,特別是開放權重模型和開放協議(如MCP)如何被私有參與者捕獲價值。通過分析Anthropic收購Stainless(一家生成SDK和MCP服務器的初創公司)的案例,説明了開發者體驗層正在被平台巨頭整合,形成新的護城河。文章強調,開源的影響高度依賴於其依賴關係,需要從生態系統整體視角分析瓶頸。

  • 開放權重模型作為開源策略有其限制,仍需昂貴硬件且架構不易組合。
  • Anthropic收購Stainless顯示了協議互補層的價值捕獲,而非協議本身被捕獲。
站內正文

開源安全護欄模型基準測試:一項全面評估

一項針對14個開源安全護欄模型的全面評估顯示,Qwen Guard(4B參數)以83.97%的召回率位居榜首,而更大的模型如Llama Guard(12B)和GPT-OSS Safeguard(20B)表現保守,漏掉多達75%的不安全內容。研究還發現,模型大小與安全檢測性能無關,通用型護欄模型優於專用模型。

  • Qwen Guard(4B參數)在79,331個樣本的基準測試中召回率最高(83.97%)。
  • Llama Guard(12B)和GPT-OSS Safeguard(20B)等大型模型漏掉75%的不安全內容。
站內正文

RightNow-Arabic-0.5B-Turbo:通過詞彙注入和邊緣優先部署的開源子10億阿拉伯語語言模型

本文介紹了一個518M參數的阿拉伯語專用大型語言模型RightNow-Arabic-0.5B-Turbo,基於Qwen2.5-0.5B構建。通過詞彙注入和邊緣優先部署,該模型在阿拉伯語基準測試中達到35.9%的平均準確率,超越了同類開源模型,並在COPA-ar上與1.5B參數量的Falcon-H1-1.5B持平,而體積僅為後者的三分之一。量化後模型僅398 MB,在單塊H100上可實現635 tokens/s的推理速度。所有代碼和權重均已開源。

  • 基於Qwen2.5-0.5B構建的518M參數阿拉伯語專用LLM,通過詞彙注入增加27,032個阿拉伯語token。
  • 在COPA-ar、Arabic HellaSwag和ArabicMMLU三項基準上平均準確率35.9%,領先所有同類開源模型。
站內正文

Mistral AI與Digital Realty合作擴展歐洲AI基礎設施

法國初創公司Mistral AI在Digital Realty的巴黎南園區獲得了10兆瓦的計算能力,以擴展其AI基礎設施。

  • Mistral AI在Digital Realty巴黎南園區獲得10兆瓦計算能力
  • 該合作旨在擴展歐洲的AI基礎設施
站內正文

更多增長標籤

開源模型 AI News | AI News Hub