Perplexity AI 開源Unigram分詞器,p50延遲比Hugging Face tokenizers crate低5倍 2026-05-28 Perplexity AI 開源了用Rust重寫的Unigram分詞器,實現了比Hugging Face tokenizers crate低5倍的p50延遲,並將生產環境CPU利用率降低了5-6倍。優化包括雙數組trie、位圖打包和大頁面支持。
Perplexity AI 用Rust重寫了Unigram分詞器,p50延遲比Hugging Face tokenizers crate降低5倍。 三項優化:雙數組trie、位圖和緩存行打包、大頁面支持。 ITBench-AA:前沿模型在企業IT智能體任務基準測試中得分低於50%——由Artificial Analysis與IBM聯合發佈 2026-05-27 Artificial Analysis與IBM聯合推出ITBench-AA,這是首個針對企業IT智能體任務的基準測試,專注於站點可靠性工程(SRE)。前沿模型得分均低於50%,其中Claude Opus 4.7以47%領先。該基準測試評估模型在Kubernetes事件響應中的表現,要求從日誌和追蹤中診斷故障。
Claude Opus 4.7以47%領先,GPT-5.5為46%,Qwen3.7 Max為42%。 所有前沿模型得分低於50%,使ITBench-AA成為飽和度最低的智能體基準之一。 Reachy Mini實現完全本地運行 2026-05-27 本文詳細介紹瞭如何為Reachy Mini機器人部署完全本地的語音對話管道,無需雲端或API密鑰。採用級聯方式,結合VAD、STT、LLM和TTS,推薦使用llama.cpp與Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多種LLM運行選項,包括本地MLX、Transformers、vLLM或遠程Responses API。
Reachy Mini現在可以完全本地運行對話,無需服務器。 級聯管道包括VAD、STT、LLM和TTS,組件可互換。 駕馭、腳手架與值得釐清的AI智能體術語 2026-05-25 本文旨在釐清AI智能體領域中常被混淆的術語,如“harness”(執行層)與“scaffold”(行為定義層)的區別,並解釋模型、智能體、工具使用、子智能體等概念,同時涵蓋訓練相關術語。
AI智能體=模型+執行層(harness),其中harness負責調用模型和處理工具調用。 Scaffold是圍繞模型的行為定義層,包括系統提示、工具描述等。 利用 Nemotron-Labs 擴散語言模型實現接近光速的文本生成 2026-05-23 NVIDIA 發佈 Nemotron-Labs 擴散語言模型系列,通過並行生成與迭代精煉技術,在保持高準確率的同時,相比傳統自迴歸模型實現最高 6.4 倍的推理速度提升。模型支持自迴歸、擴散和自推測三種模式,8B 版本在準確率上超越 Qwen3 8B 1.2%,並已開源。
Nemotron-Labs 擴散模型支持三種生成模式:自迴歸、擴散和自推測。 8B 模型在擴散模式下速度提升 2.6 倍,自推測模式下最高提升 6.4 倍。 專業化勝於規模:大多數AI採購決策忽視的戰略變量 2026-05-22 一家公司在AI採購中發現,一個30億參數的專業化模型在質量、成本和生產穩定性上均優於所有商業前沿API,成本低了約52倍。這挑戰了“參數越多越好”的默認假設,表明訓練歷史與任務的分佈對齊(分佈對齊)比參數數量更關鍵。
30億參數的專業化模型在OCR基準測試中得分0.911,超過Claude Opus 4.6的0.833。 該模型運行成本約為前沿API的五十二分之一。 開源軟件開始幫助機器人思考 2026-05-21 開源運動正將AI的突破性進展引入機器人領域,降低開發門檻。從ROS框架到英偉達、Hugging Face和阿里巴巴的開源模型,機器人推理、決策和行動的能力正變得對更多人可用。但商業激勵與學術初心之間的張力也帶來新挑戰。
開源機器人軟件歷經數十年發展,ROS框架奠定了基礎設施,如今AI模型的開源正推動機器人“大腦”的進化。 英偉達、Hugging Face和阿里巴巴等公司推出開源機器人AI工具和模型,大幅降低進入門檻。 OlmoEarth v1.1:更高效的模型家族 2026-05-19 Allen AI 發佈了 OlmoEarth v1.1,通過合併不同分辨率的令牌,將計算成本降低高達三倍,同時保持 v1 的性能。新模型適用於大規模遙感分析,合作伙伴已在全球部署。
OlmoEarth v1.1 相比 v1 計算成本降低最多 3 倍,性能相當。 通過將不同分辨率的多光譜波段合併為單一令牌,縮短序列長度。 推出Ettin重排序器系列 2026-05-19 今日發佈了六個新的Sentence Transformers交叉編碼重排序器,基於Ettin ModernBERT編碼器構建,通過蒸餾訓練,在各自規模上達到最先進水平。這些模型與嵌入模型配對使用,可高效提升檢索排序質量。
發佈六個Ettin重排序器,規模從17M到1B參數 通過點級MSE蒸餾於強大教師模型mxbai-rerank-large-v2訓練 使用LoRA/DoRA微調NVIDIA Cosmos Predict 2.5以生成機器人視頻 2026-05-18 本文介紹瞭如何通過參數高效微調技術LoRA和DoRA,在單個GPU上微調NVIDIA Cosmos Predict 2.5世界模型,生成用於機器人學習的合成視頻軌跡。文章詳細説明了數據處理、適配器初始化、訓練循環、推理方法及評估指標。
LoRA和DoRA允許在凍結基模型的情況下,通過小型可訓練適配器進行高效微調,避免災難性遺忘並降低內存需求。 訓練使用92個機器人操作視頻數據集,通過rectified flow損失函數和MSE損失進行優化。 開放智能體排行榜 2026-05-18 IBM研究團隊推出開放智能體排行榜(Open Agent Leaderboard),這是一個用於比較完整智能體系統(而不僅僅是模型)的開放基準。它評估智能體在多種真實場景中的通用性,並同時報告質量和成本。該排行榜結合了六個基準測試,涵蓋編碼、客服、技術支持和研究等任務。初步結果顯示,通用智能體已能與專用系統媲美,且智能體架構對結果的影響日益顯著。所有代碼、數據和論文均已開源。
開放智能體排行榜衡量的是完整智能體系統(模型+工具+規劃等),而非僅模型本身。 排行榜包含六個不同領域的基準測試,如SWE-Bench Verified和BrowseComp+。 Granite Embedding Multilingual R2:開源Apache 2.0多語言嵌入模型,32K上下文,子1億參數中檢索質量最佳 2026-05-14 IBM發佈Granite Embedding Multilingual R2系列,包含97M和311M參數兩個多語言嵌入模型,均基於ModernBERT架構,支持32K令牌上下文,覆蓋200+語言,並在MTEB多語言檢索基準上取得領先成績。97M模型在子1億參數模型中排名第一,311M模型在5億參數以下模型中排名第二。
97M參數模型在MTEB多語言檢索中得分為60.3,子1億參數模型中最佳;311M模型得分為65.2,5億參數以下模型中排名第二。 支持32K令牌上下文,比前代R1提升64倍;覆蓋200+語言,其中52種語言和9種編程語言經過專門檢索訓練。 GLiNER2-PII:0.3B參數開源PII模型超越OpenAI隱私過濾器 2026-05-14 一款名為GLiNER2-PII的開源模型,僅有0.3B參數,在PII檢測任務上取得了最先進性能,在SPY基準測試中超越了OpenAI的隱私過濾器。該模型能識別42種實體類型,並基於多語言合成語料庫訓練。模型已在Hugging Face上公開發布。
開源0.3B參數PII檢測模型 在SPY基準上超越OpenAI隱私過濾器 如何在Hugging Face上即時可視化任何AI模型架構 2026-05-14 理解現代AI架構變得越來越困難。本文介紹了一種簡單的方法:通過將Hugging Face模型URL中的“huggingface.co”替換為“hfviewer.com”,即可立即將模型結構轉化為交互式可視化圖表。該工具支持Transformer、視覺和多模態模型,無需任何設置。此外,還提供了終端命令和瀏覽器擴展兩種快速訪問方式。
將Hugging Face模型URL中的huggingface.co替換為hfviewer.com即可可視化架構。 hfviewer將模型結構轉化為交互式圖形,支持多種架構。 在連續批處理中解鎖異步性 2026-05-14 本文解釋瞭如何通過分離CPU和GPU工作負載來大幅提升推理性能。連續批處理通過緊密打包批次提高了GPU利用率,但同步操作導致CPU和GPU交替等待,造成近四分之一的運行時間浪費。通過使用非默認CUDA流和事件實現異步批處理,可以讓CPU和GPU並行工作,消除空閒間隙,實現免費的24%加速。文章詳細介紹了CUDA流、事件機制以及如何將它們應用於連續批處理,並提供了在transformers庫中的實現代碼。
同步連續批處理中CPU和GPU交替工作,導致GPU空閒時間佔比約24%。 使用非默認CUDA流和事件可以實現CPU和GPU的並行執行。 Hugging Face託管偽裝成OpenAI版本的惡意軟件 2026-05-12 一個偽裝成OpenAI發佈的惡意Hugging Face倉庫向Windows機器傳遞了信息竊取型惡意軟件,在被移除前記錄了約244,000次下載。研究人員警告,公開的AI模型註冊中心在開發者將模型克隆到企業環境時構成了供應鏈風險。
一個名為'Open-OSS/privacy-filter'的虛假倉庫模仿了OpenAI的Privacy Filter,包含一個惡意的loader.py,該文件安裝竊取憑證的惡意軟件。 該倉庫在不到18小時內達到趨勢榜首位並獲得667個點贊,但下載量可能被攻擊者人為抬高。 AWS基礎模型訓練與推理的構建模塊 2026-05-11 本文分析了AWS在基礎模型預訓練、後訓練和推理中的基礎設施組件,包括GPU實例、彈性網絡適配器(EFA)、Lustre文件系統及UltraCluster/UltraServer架構,並強調開源軟件在資源管理和監控中的作用。
基礎模型擴展已從單一預訓練擴展到後訓練和測試時計算三個尺度。 AWS提供從H100到B300的多代GPU實例,並配有NVLink和EFA網絡。 Unsloth 加入 PyTorch 生態系統 2026-05-11 Unsloth,一家專注於開源AI優化的公司,正式被納入PyTorch生態系統。該組織以提供高效的模型訓練、量化工具及Unsloth Studio UI著稱,並已與PyTorch團隊在FP8強化學習、手機端ExecuTorch部署及量化感知訓練等方面展開合作。目前,Unsloth在Hugging Face上擁有超過250萬次模型下載和200多名貢獻者。
Unsloth因其技術貢獻和社區影響力被PyTorch生態系統接納。 Unsloth提供2倍訓練速度、減少70%顯存佔用的優化工具,以及支持500+模型的Unsloth Studio。 MachinaCheck:在AMD MI300X上構建多智能體CNC可製造性分析系統 2026-05-10 MachinaCheck是一個基於AMD MI300X的多智能體AI系統,通過上傳STEP文件快速生成CNC可製造性評估報告,無需手動讀取圖紙。系統採用本地化部署保護知識產權,結合幾何解析與LLM推理,可在30秒內完成全套分析。
傳統CNC車間手工評估圖紙需30-60分鐘,MachinaCheck僅需30秒 利用AMD MI300X的192GB顯存實現完全本地化推理,確保客户IP安全 通過CPU最大化令牌化減少TTFT 2026-05-09 Crusoe與NVIDIA Dynamo合作開發了fastokens,一個開源的Rust BPE分詞器,平均速度比HuggingFace分詞器快9.1倍,在長上下文工作負載中TTFT最多降低40%。
fastokens實現了9.1倍的平均速度提升,長提示場景下最高可達31倍。 針對CPU進行了極致優化,包括並行預分詞、兩級緩存和動態內存管理。 Hugging Face的Clem Delangue:別再拿引擎和汽車比較 2026-05-09 Hugging Face聯合創始人兼CEO Clem Delangue在採訪中討論了開源AI的現狀,並引用了西西弗斯神話來比喻AI發展的持續性挑戰。他認為開源AI生態系統正在蓬勃發展,但需要避免過度簡化的類比。
Clem Delangue強調開源AI正處於關鍵發展階段 他批評將AI引擎比作汽車的簡單類比 OncoAgent:一種用於隱私保護腫瘤臨牀決策支持的雙層多智能體框架 2026-05-09 OncoAgent是一個開源、隱私保護的腫瘤臨牀決策支持系統。它採用雙層大語言模型架構(9B快速模型和27B深度推理模型)、多智能體LangGraph拓撲、糾正性RAG流程(涵蓋70餘項NCCN和ESMO指南)以及三層反射安全驗證器。系統通過複雜性評分路由查詢,在AMD Instinct MI300X上微調,實現了56倍的吞吐量加速,並支持本地部署以確保數據主權。
開源、隱私保護的腫瘤決策支持系統,支持本地部署。 雙層LLM架構:9B快速模型和27B深度推理模型,通過複雜性評分路由。 CyberSecQwen-4B:為什麼防禦性網絡安全需要小型、專用、本地可運行的模型 2026-05-08 CyberSecQwen-4B是一個基於Qwen3-4B-Instruct微調的小型網絡安全專用模型,旨在解決防禦性網絡安全中對數據隱私、成本和離線部署的需求。該模型在CTI-Bench基準測試中,以4B參數量匹配甚至超過8B的Cisco Foundation-Sec-Instruct模型,同時完全在單個AMD MI300X GPU上訓練和運行。文章詳細介紹了訓練方法、數據來源、基準結果以及未來方向。
CyberSecQwen-4B在CTI-MCQ任務上比8B的Cisco模型高出8.7個百分點,在CVE-CWE映射任務上保持97.3%的準確率,參數量減半。 模型在單張12 GB消費級GPU上運行,適合敏感數據不離站、低成本、離線環境。 EMO:預訓練專家混合模型實現湧現模塊化 2026-05-08 艾倫人工智能研究所發佈EMO模型,這是一種端到端預訓練的混合專家(MoE)模型,其模塊結構直接從數據中湧現,無需人工定義先驗。EMO支持僅使用12.5%的專家子集即可保持接近全模型的性能,同時在全專家使用時仍能作為強大的通用模型。相比標準MoE,EMO的專家子集在選擇性使用時性能下降顯著更小。
EMO是一種1B活躍參數、14B總參數的MoE模型,使用128個專家,每個token激活8個。 通過文檔級路由約束,EMO的專家集羣形成語義領域(如醫療、新聞),而非低級句法模式。 Show HN:用於CAD生成任務的開源FreeCAD數據集 2026-05-08 gnucleus-ai在Hugging Face上發佈了一個開源FreeCAD數據集,包含100個參數化CAD模型(如軸、軸承、法蘭等),每個模型帶有關鍵參數、圖像和.FCAD文件,適用於CAD生成任務。數據集採用Apache-2.0許可,包含多種機械零件,支持3D、圖像和文本模態。
gnucleus-ai發佈了cad-gen-freecad數據集 包含100個參數化的FreeCAD模型 MedQA:在AMD ROCm上微調臨牀AI——無需CUDA 2026-05-08 本文詳細介紹瞭如何使用AMD MI300X和ROCm,通過LoRA微調Qwen3-1.7B模型在MedMCQA數據集上構建臨牀問答系統。整個流程無需CUDA,訓練僅需5分鐘,充分證明了HuggingFace生態系統在ROCm上的兼容性。
利用AMD MI300X的192GB HBM3顯存,可在fp16精度下直接訓練,無需量化。 LoRA微調僅更新約0.14%的參數(220萬),訓練時間約5分鐘。 從HuggingFace部署並推理任何模型 2026-05-08 學習如何在一個會話中使用Goose和Together的專用容器推理部署任何HuggingFace模型。跳過複雜設置——一個提示就能讓你的模型在發佈當天在生產級GPU環境中運行。
使用Goose和Together的專用容器推理,開發者可以零延遲部署新發布的模型。 作者在Netflix發佈void-model當天成功部署並運行。 vLLM V0到V1:RL中的正確性優先於修正 2026-05-06 ServiceNow AI團隊在將強化學習訓練管線從vLLM V0遷移到V1時,發現了四個後端問題:logprobs語義、運行時默認值、飛行中權重更新和fp32 lm_head。他們優先修復後端正確性,再考慮目標側修正,最終實現了與V0參考的完全對齊。
遷移目標:驗證V1能返回訓練器期望的logprobs,並與V0參考對比 四個後端修復:processed_logprobs、禁用V1特有默認值、匹配飛行中權重更新、啓用fp32 lm_head ML Intern實戰:從提示到在Hugging Face上發佈模型 2026-05-04 本文評測了ML Intern,一款開源機器學習助手,它超越傳統AutoML,覆蓋數據探索、編碼、調試到模型發佈的完整工作流。通過一個客户支持工單分類案例,展示了從數據集選擇、煙霧測試到訓練計劃生成的步驟。
ML Intern是一款面向Hugging Face生態的開源助手,支持整個ML工作流。 通過真實項目測試,包括數據集研究、腳本調試和訓練計劃審核。 AI評估正在成為新的計算瓶頸 2026-04-29 本文探討了AI評估成本的急劇上升,特別是針對智能體基準測試,指出評估已成為新的計算瓶頸。靜態基準測試可壓縮100-200倍,但智能體和訓練中基準測試難以壓縮。可靠性要求多次運行,成本倍增。高評估成本可能導致驗證能力集中在資金充足的實驗室。
AI評估成本已跨越負擔能力門檻,一次智能體評估可能花費數萬美元。 靜態基準測試可通過壓縮技術大幅降低成本,但智能體基準測試只能實現2-3.5倍壓縮。 Granite 4.1 LLM:構建方法詳解 2026-04-29 IBM Granite 4.1 是一個密集解碼器僅LLM系列(3B、8B、30B),在多階段預訓練中使用了約15萬億個token,包括長達512K token的長上下文擴展。模型通過監督微調(約410萬個高質量樣本)和基於策略的GRPO與DAPO損失的強化學習進一步優化。8B指令模型在性能上匹配甚至超越了之前的32B MoE模型,所有模型均在Apache 2.0許可下發布。
Granite 4.1 系列包括3B、8B和30B三種密集解碼器僅LLM。 採用五階段預訓練管道,包括長上下文擴展到512K token。 DeepInfra 登陸 Hugging Face 推理提供商 🔥 2026-04-29 DeepInfra 成為 Hugging Face Hub 上最新的推理提供商,提供100多個模型的低成本無服務器推理服務,初始支持對話和文本生成任務,用户可通過 UI 或 SDK 輕鬆使用。
DeepInfra 加入 Hugging Face 推理提供商生態系統,提供 100 多個模型的無服務器推理。 初始支持 DeepSeek V4、Kimi-K2.6、GLM-5.1 等模型,後續將擴展到圖像、視頻等模態。 NVIDIA Nemotron 3 Nano Omni:面向文檔、音頻和視頻智能體的長上下文多模態模型 2026-04-28 NVIDIA發佈了Nemotron 3 Nano Omni,這是一個全新的全模態理解模型,能夠處理文本、圖像、視頻和音頻。它基於混合Mamba-Transformer-MoE架構,結合C-RADIOv4-H視覺編碼器和Parakeet-TDT-0.6B-v2音頻編碼器,在多個基準測試中取得領先成績。該模型專為文檔分析、自動語音識別、長音頻-視頻理解、智能體計算機使用和通用多模態推理設計,並提供了高效的視頻採樣和動態分辨率處理能力。
Nemotron 3 Nano Omni是一個統一的多模態模型,支持文本、圖像、視頻和音頻輸入。 採用混合Mamba-Transformer-MoE架構,具備高效長上下文處理能力。 使用Scikit-LLM進行文本摘要 2026-04-27 本文介紹如何使用Scikit-LLM庫中的文本摘要功能,通過構建自定義轉換器集成Hugging Face的預訓練摘要模型,並將其嵌入scikit-learn流水線中,實現從長文本到分類的端到端流程。
Scikit-LLM橋接傳統機器學習與大語言模型,提供零樣本和少樣本分類及文本摘要功能。 自定義HuggingFaceSummarizer類繼承自BaseEstimator和TransformerMixin,可加載預訓練摘要模型並生成摘要。 如何使用OpenAI的隱私過濾器構建可擴展的Web應用 2026-04-27 本文介紹瞭如何利用OpenAI新發布的開源隱私過濾器(Privacy Filter)構建三個可擴展的Web應用:文檔隱私探索器、圖像匿名化器和智能編輯粘貼板。每個應用都展示了該模型的不同能力,並通過gradio.Server實現高效的後端處理和自定義前端。
OpenAI發佈隱私過濾器(Privacy Filter),一個開源的個人身份信息(PII)檢測器,支持128k上下文和8個類別。 通過三個示例應用展示模型能力:文檔隱私探索器、圖像匿名化器、智能編輯粘貼板。 DeepSeek-V4:百萬上下文,代理真正可用 2026-04-24 DeepSeek發佈V4模型,擁有百萬token上下文窗口,專為代理任務優化。通過混合注意力機制(CSA和HCA)大幅降低KV緩存和FLOPs,並引入跨工具調用的交錯推理、專用工具調用格式以及用於強化學習訓練的DSec沙箱。在多個代理基準測試中達到領先水平。
DeepSeek-V4推出Pro和Flash兩個MoE檢查點,上下文窗口達1M tokens。 採用壓縮稀疏注意力和重度壓縮注意力混合架構,KV緩存僅需傳統GQA的2%。 QIMMA قِمّة ⛰:以質量為先的阿拉伯語大模型排行榜 2026-04-21 QIMMA(阿拉伯語意為“高峯”)是一個以質量為先的阿拉伯語大模型排行榜,它會在評估模型之前先驗證基準數據的質量。通過多模型自動評估與人工審核相結合的方法,QIMMA 發現了多個廣泛使用的阿拉伯語基準測試中存在系統性的質量問題。該排行榜整合了來自14個基準測試的109個子集,涵蓋7個領域,總計超過52,000個樣本,並首次在阿拉伯語大模型評估中加入了代碼能力測試。
QIMMA 在模型評估前對阿拉伯語基準進行嚴格的質量驗證,發現了大量錯誤和文化偏差。 排行榜整合了超過52,000個樣本,涵蓋文化、STEM、法律、醫療、安全、詩歌和代碼等7個領域。 AI與網絡安全未來:開放性為何重要 2026-04-21 本文探討了AI在網絡安全中的角色,特別是新模型Mythos如何利用系統級能力發現和修補漏洞。強調開放性在防禦中的結構性優勢,主張採用半自主AI代理以保持人類控制,並指出開放生態比專有系統更能應對日益複雜的攻擊。
Mythos展示了結合大模型、系統框架和速度可有效發現並修補軟件漏洞。 開放代碼和工具能夠分散防禦任務,避免單一供應商成為單點失敗。 我理解LLM架構的工作流程 2026-04-18 一種學習導向的工作流程,用於理解新發布的開源權重模型。從官方技術報告開始,但論文往往不夠詳細;然後利用Hugging Face上的配置文件和參考實現來獲取架構細節。這個過程主要是手動的,適合開源權重模型,並且手動操作是學習架構的最佳練習之一。
從官方技術報告開始,但論文現在往往不夠詳細 利用Hugging Face上的配置文件和參考實現來獲取架構細節 Ecom-RLVE:面向電商對話智能體的自適應可驗證環境 2026-04-16 Ecom-RLVE 將 RLVE 框架從單輪推理擴展到多輪工具增強的電商對話,提供 8 個可驗證環境(產品發現、替換、購物車構建、退貨、訂單追蹤、政策問答、套餐規劃、多意圖旅程),每個環境具備程序化問題生成、12 軸難度課程和可驗證獎勵。使用 DAPO 在 300 步內訓練 Qwen 3 8B 模型,初步結果表明環境縮放和自適應難度可遷移至實際任務完成。
8 個可驗證環境覆蓋真實電商場景,獎勵由程序而非人類或 LLM 評估。 自適應難度課程通過 12 個獨立維度動態調整挑戰,保持智能體處於學習前沿。 🚀 DeepSeek V2.5:盛大終曲 🎉 | DeepSeek API 文檔 2026-05-05 DeepSeek 發佈 V2.5-1210 版本,作為 V2.5 系列的最終版本,新增互聯網搜索功能,在數學、編程、寫作和角色扮演等基準測試中表現提升,開源模型已上傳至 Hugging Face。團隊感謝用户支持,並預告下一代基礎模型即將到來。
DeepSeek V2.5-1210 是 V2.5 系列的最終版本,標誌着該系列的結束。 新增互聯網搜索功能,用户可在聊天界面開啓實時搜索。