Hugging Face Blog AI 新聞來源

公開文章 73採集文章 78可信度 90刷新頻率 5 分鐘

健康狀態健康來源類型官方原文權限 官方原文最近入庫 2026-06-25ID huggingface-blog運行狀態 已啟用

Official source; confirm license per article before full body display.

最新公開文章

一行命令在 HF Jobs 上運行 vLLM 服務器

2026-06-26 08:00 UTC+8

本文介紹如何通過一行命令在 Hugging Face 基礎設施上快速啓動一個私有、兼容 OpenAI 的 LLM 端點，無需配置服務器或 Kubernetes，按秒計費。涵蓋從啓動、查詢、清理到擴展為大模型、創建聊天 UI、SSH 調試及作為編碼代理後端的完整流程，並與 Inference Endpoints 進行比較。

使用 hf jobs run 命令結合 vLLM Docker 鏡像，通過 --expose 8000 暴露端口，即可在 HF Jobs 上運行 vLLM 服務器。
端點通過 Hugging Face token 進行認證，僅限有讀取權限的用户訪問，支持使用 curl 或 OpenAI Python 客户端查詢。

混合模型在哪些token上預測得更好？

2026-06-26 00:11 UTC+8

Ai2團隊比較了7B參數規模的Transformer模型Olmo 3和混合模型Olmo Hybrid，發現混合模型在內容詞（名詞、動詞、形容詞）和需要上下文推理的token上表現更優，但在重複token和閉合括號上優勢消失。研究表明，基於token的損失過濾可以揭示架構間的細微差異。

混合模型在含義豐富的token（如實詞）上預測更準確，而在重複token上優勢消失。
混合模型使用遞歸層替代部分注意力層，具有固定大小的記憶，適合跟蹤序列變化。

使用NVIDIA NeMo AutoModel加速Transformer微調

2026-06-25 00:00 UTC+8

NVIDIA NeMo AutoModel基於HuggingFace Transformers v5，通過專家並行、DeepEP融合通信和TransformerEngine內核，將MoE模型微調的訓練吞吐量提升3.4-3.7倍，GPU內存減少29-32%，且無需更改API。

NeMo AutoModel繼承AutoModelForCausalLM，僅需更改導入行即可實現性能提升。
在550B規模模型上，專家並行使全微調在16節點H100集羣上可行，而Transformers v5因內存不足無法運行。

使用CUGA構建真實的智能體應用：輕量級框架上的二十多個工作示例

2026-06-23 20:51 UTC+8

CUGA是IBM開源的智能體框架，處理了智能體構建中的管道工作，讓開發者只需編寫工具列表和提示詞即可。本文通過一個IBM雲架構顧問示例，展示瞭如何用少量代碼構建一個完整的智能體應用，並介紹了CUGA的規劃、執行、反射步驟和策略系統。

CUGA是一個開源智能體框架，簡化了智能體應用的構建過程，開發者只需定義工具和提示。
本文展示了二十多個單文件應用，其中一個IBM雲顧問示例詳細説明了實現。

在Transformers.js中試驗提出的跨域存儲API

2026-06-23 08:00 UTC+8

本文介紹了跨域存儲（COS）API提案，該API允許Web應用跨域共享大型文件（如AI模型和Wasm運行時），通過加密哈希而非URL標識文件，從而避免重複下載和存儲。文章以Transformers.js為例，展示了當前瀏覽器緩存隔離導致的問題，以及COS如何通過哈希標識、可升級的訪問控制和安全完整性檢查來解決這些問題。

當前瀏覽器緩存按源隔離，導致跨域應用重複下載相同的AI模型和Wasm文件。
跨域存儲（COS）API使用加密哈希標識文件，實現跨域共享。

每週發佈huggingface_hub：藉助AI、開源工具和人工審核

2026-06-23 08:00 UTC+8

Hugging Face團隊通過結合AI和開源工具，將huggingface_hub的發佈週期從4-6周縮短至每週一次，同時保留人工審核環節以確保質量。該流程基於GitHub Actions、OpenCode和開放權重模型，每次發佈成本僅約0.25美元。

發佈週期從4-6周縮短為每週一次
AI生成發佈説明初稿，但通過確定性腳本驗證準確性

PP-OCRv6 在 Hugging Face 上：從 1.5M 到 34.5M 參數的 50 種語言 OCR

2026-06-22 21:18 UTC+8

PP-OCRv6 是 PaddleOCR 的最新通用 OCR 模型系列，支持從 1.5M 到 34.5M 參數的三個層級，覆蓋 50 種語言。相比 PP-OCRv5_server，檢測準確率提升 4.6 個百分點，識別準確率提升 5.1 個百分點。新架構包括 PPLCNetV4 骨幹網絡、RepLKFPN 檢測模塊和 EncoderWithLightSVTR 識別模塊。支持 Paddle Inference、Transformers 和 ONNX Runtime 後端。

發佈三個模型層級：tiny（1.5M）、small（7.7M）、medium（34.5M），適配不同部署場景。
支持 50 種語言，包括中、英、日及 46 種拉丁語系語言。

我們讓本地模型免費（*）為OpenClaw倉庫進行問題分類！

2026-06-22 08:00 UTC+8

OpenClaw維護者利用本地開源模型（Gemma、Qwen）在智能體框架中，實時對問題和拉取請求進行分類，性能媲美閉源模型，僅需硬件電費成本。

本地模型（如Gemma和Qwen）能有效對GitHub問題和PR進行分類，用於問題分派。
系統使用帶有隻讀shell（reposhell）的智能體框架，安全地檢查代碼。

MosaicLeaks：你的研究代理能保守秘密嗎？

2026-06-19 02:13 UTC+8

深度研究代理結合私有文檔與網頁搜索時，可能通過查詢日誌無意中泄露敏感信息。MosaicLeaks基準量化了這種隱私風險，並提出了一種名為隱私感知深度研究（PA-DR）的訓練方法，可以在保持任務性能的同時，將信息泄露減少3倍以上。

MosaicLeaks引入了一個多跳研究鏈基準，這些鏈交織了私有本地文檔和公共網頁查詢，測量了三種泄露程度：意圖、答案和完整信息。
僅針對任務性能進行訓練會同時提高成功率和泄露率；使用PA-DR訓練可將答案/完整信息泄露從34.0%降至9.9%，同時保持嚴格鏈條成功率為58.7%。

超越LoRA：你能擊敗最流行的微調技術嗎？

2026-06-18 08:00 UTC+8

LoRA是目前最流行的參數高效微調（PEFT）技術，但研究表明其他方法在某些任務上表現更好。本文介紹了Hugging Face的PEFT庫及其基準測試，探討了如何根據具體需求選擇合適的PEFT技術，並指出LoRA並非總是最佳選擇。

LoRA在PEFT技術中佔主導地位，但可能不是最優選擇。
Hugging Face的PEFT庫提供了統一API和基準測試，幫助用户選擇合適的PEFT技術。

它足夠智能體化了嗎？使用自有工具對開源模型進行基準測試

2026-06-18 08:00 UTC+8

一個全新的基準測試框架專注於評估AI智能體使用軟件庫的整個過程工作量，以Hugging Face的Transformers庫為案例。通過測量令牌使用量、時間、錯誤率等指標，揭示不同模型和工具層級下的性能權衡，為庫維護者和智能體用户提供關鍵見解。

標準基準測試僅檢查最終答案，而該框架測量整個過程的令牌成本、時間和錯誤
測試了三種工具層級：裸安裝、克隆源碼和打包Skill，各有不同的開銷

MolmoMotion：語言引導的3D運動預測

2026-06-17 23:26 UTC+8

MolmoMotion是一種新型3D運動預測模型，能夠根據視頻幀、物體上的3D點以及語言指令預測未來幾秒內物體點的3D軌跡。該模型在多個下游任務中表現出色，如機器人規劃和可控視頻生成。同時發佈了最大的3D點軌跡數據集MolmoMotion-1M和基準測試PointMotionBench。

MolmoMotion利用語言指令引導3D運動預測，顯著優於現有方法。
模型支持自迴歸和流匹配兩種變體，分別適用於確定性和不確定性場景。

從Hugging Face Hub到機器人硬件：Strands Agents與LeRobot的集成

2026-06-17 18:18 UTC+8

AWS開源SDK Strands Robots集成了LeRobot，允許開發者通過單一Agent工作流從Hub數據集訓練並在模擬或實體機器人上部署策略。本文介紹了五步流程，並提供了可在筆記本上運行的示例。

Strands Robots SDK將LeRobot暴露為可組合的AgentTools，實現從數據集到機器人硬件的端到端控制。
模擬和硬件場景共享相同的DatasetRecorder和LeRobotDataset格式，確保數據集兼容。

GLM-5.2：專為長週期任務構建

2026-06-17 17:01 UTC+8

GLM-5.2 是 Z.AI 推出的最新旗艦模型，專為長週期任務設計，擁有穩定的 1M 上下文窗口，在編碼基準測試中表現優異，並引入 IndexShare 架構以降低計算成本，同時提供靈活的努力水平控制。該模型採用 MIT 開源許可證，無區域限制。

GLM-5.2 提供穩定的 1M token 上下文，支持長週期工程任務。
在 FrontierSWE、PostTrainBench 等長週期編碼基準上表現領先，接近封閉源模型。

智能體資源發現：讓智能體自己搜索

2026-06-17 08:00 UTC+8

Agentic Resource Discovery（ARD）規範為AI智能體提供了一個發現層，使其能夠動態尋找工具、技能和其他智能體，而無需預安裝配置。Hugging Face 在其 Hub 上實現了參考工具，支持自然語言搜索。

ARD 定義了跨聯邦註冊表編目和搜索智能體能力的標準。
Hugging Face 的 Discover 工具實現了 ARD，支持對技能、MCP 服務器和 AI 應用的自然語言搜索。

olmo-eval：面向模型開發循環的評估工作台

2026-06-12 23:56 UTC+8

olmo-eval 是一個新的評估工作台，旨在支持 LLM 開發過程中持續進行的模型評估。它建立在 OLMES 標準之上，提供靈活的任務定義、可交換的運行時策略以及詳細的逐問題比較功能，幫助開發者判斷每次干預的效果是否顯著。

olmo-eval 針對模型開發中的反覆評估循環而設計，支持快速添加基準、跨檢查點運行和細粒度結果分析。
與 Harbor 等工具不同，olmo-eval 提供輕量級和沙箱兩種運行模式，並根據基準需求自動選擇。

PyTorch 性能分析（第2部分）：從 nn.Linear 到融合 MLP

2026-06-11 08:00 UTC+8

本文是 PyTorch 性能分析系列的第二部分，深入探討了 nn.Linear 層的內部機制，包括轉置操作、融合偏置的 epilogue 技術，以及 torch.compile 對單個線性層的影響。隨後，文章剖析了一個包含 GeGLU 激活的多層感知機（MLP）的性能特徵，展示了 GPU 內核的調度和執行過程。

nn.Linear 通過 epilogue 將偏置加法融合到矩陣乘法內核中，避免額外的內存訪問。
torch.compile 對單個 nn.Linear 層無明顯加速，但能消除 CPU 調度開銷。

Cohere 發佈 North Mini Code：專為開發者設計的首個模型

2026-06-09 23:56 UTC+8

Cohere 發佈了 North Mini Code，一個 300 億參數的混合專家模型，擁有 30 億活躍參數，專為代理式軟件工程任務設計。該模型在 Apache 2.0 許可證下開源，並在多項編碼基準測試中表現優異，超越了同類開源模型。

300 億參數 MoE 模型，30 億活躍參數，專注於代理式編碼。
在 Artificial Analysis 編碼指數上得分 33.4，超越多個更大模型。

多媒體積木塊：用Hugging Face Spaces構建3D巴黎畫廊

2026-06-09 18:46 UTC+8

作者通過一個編碼智能體，利用兩個Hugging Face Space（圖像生成和3D高斯潑濺重建），僅通過文本提示就構建了一個展示巴黎紀念碑的3D網站。整個過程無需圖像生成器或3D工具，智能體通過每個Space的agents.md文件自動調用API並拼接結果。文章闡述了多媒體AI領域的“積木經濟”趨勢——將模型作為可調用的獨立組件，由智能體靈活組合，大幅降低集成門檻。

編碼智能體通過調用兩個Hugging Face Spaces自動生成圖像和3D高斯潑濺，構建了巴黎紀念碑3D展示網站。
每個Gradio Space的agents.md文件為智能體提供了完整的API調用信息，無需手動集成。

NeuroBait：我微調了一個模型來激發ADHD大腦的多巴胺

2026-06-09 17:04 UTC+8

NeuroBait是一個針對ADHD大腦微調的AI模型，旨在通過提供温暖、可操作的小步驟來克服任務啓動癱瘓，而不是傳統的待辦事項列表。該項目源於作者的妻子患有ADHD，通過觀察和實踐，利用LoRA在Gemma 3 12B模型上訓練，並部署在Hugging Face Space上。它不僅是ADHD工具，也能幫助任何感到不知所措的人。

NeuroBait通過生成温暖、流動的文字，提供微小可行的行動，幫助ADHD大腦啓動任務。
項目基於對ADHD患者的真實觀察，而非理論，使用LoRA微調Gemma 3 12B模型。

將你的 GitHub CI 遷移到 Hugging Face Jobs

2026-06-09 08:00 UTC+8

本文詳細介紹瞭如何將 GitHub Actions CI 遷移到 Hugging Face Jobs，以解決 GitHub 託管的 runner 速度慢、無 GPU 等問題。通過創建調度器 Space、GitHub App 以及修改 runs-on 標籤，即可讓 CI 作業在 Hugging Face 基礎設施上運行，支持 CPU 和 GPU 硬件，並實時流式傳輸日誌。Trackio 的實踐表明，CPU 任務時間可縮短約 30%。

GitHub Actions 默認運行在通用機器上，速度慢且不支持 GPU。
使用 Hugging Face Jobs 作為 CI runner，可靈活選擇硬件（如 CPU、T4、H200）。

消失的崩盤：五模型經濟中的控制與湧現

2026-06-08 21:10 UTC+8

作者在構建小型AI代理經濟模擬時發現，原本單一模型下會發生的市場崩盤，在換成五個不同實驗室的小模型後消失了。通過多次嘗試，作者意識到不能通過機械衝擊來控制異質代理羣體的行為，而應在結算環節施加確定性覆蓋來獲得可靠結果。

單一模型下銀行擠兑導致蜂蜜價格崩潰，但換成五個不同的小模型後，代理選擇囤積而非拋售。
通過外部衝擊（如謠言、庫存過剩）無法迫使異質代理羣體拋售，每次嘗試均告失敗。

構建巴基斯坦通知助手：一款針對本地安全問題的簡易AI工具

2026-06-08 19:46 UTC+8

作者為Hugging Face的Build Small黑客馬拉松開發了一款專注於巴基斯坦本地安全問題的AI工具——巴基斯坦通知助手。該工具使用小模型（Qwen3.5 4B）分析可疑消息，提供風險標籤、解釋和下一步安全建議，支持英文和烏爾都語（包括從右到左的佈局）。文章詳細分享了模型選型、技術棧、用户界面設計以及使用Codex加速開發的經驗。

巴基斯坦通知助手是一款針對巴基斯坦本地詐騙消息的AI安全工具，支持文本和截圖分析。
最終採用Qwen3.5 4B Q8模型（通過llama.cpp），在評估中所有高風險詐騙案例和截圖案例均通過。

開源社區支持OpenEnv用於智能體強化學習

2026-06-08 08:00 UTC+8

OpenEnv是一個用於創建智能體執行環境（如終端、瀏覽器等）的開源工具。今天，我們宣佈OpenEnv將變得更加開放，由一個包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face在內的委員會協調。該項目旨在為開放源代碼的智能體訓練提供通用基礎設施，並專注於作為互操作性層，而不是定義獎勵或訓練循環。

OpenEnv是一個用於創建智能體執行環境的開源工具
現在由Meta-PyTorch、Reflection、Unsloth等主要AI組織組成的委員會治理

Mythograph Atelier #1 - 對你有意義的抽象藝術

2026-06-08 03:10 UTC+8

本文作者介紹了Mythograph Atelier的靈感來源，這是一個創建個性化抽象畫的AI藝術工作室。靈感結合了博物館參觀的觸動、對動態AI原生應用的願景，以及一個好奇的AI概念——它在生成藝術之前通過提問來理解用户。

Mythograph Atelier是一個AI藝術工作室，旨在創建具有個人意義的抽象畫。
AI通過提問了解用户的品味和情感，然後生成藝術。

贊助商特別關注：OpenAI Codex 憑證在 Codex — OpenAI 挑戰賽中的使用

2026-06-07 19:38 UTC+8

在Hugging Face舉辦的“Build Small”黑客馬拉松中，參與者面臨激活OpenAI Codex和Modal憑證的困難，特別是Codex憑證的激活方法不明確。文章詳細介紹了OpenAI Codex Track的獎項設置和參與要求，同時反映了社區在技術支持和文檔方面的需求。

參與者發現無法在系統中輸入Codex憑證密鑰，導致激活失敗。
Modal憑證在第二次嘗試後成功激活，但初始被拒絕。

Her · हेर — Claude Code 會話的偵探

2026-06-07 18:13 UTC+8

Her 是一款用於分析 Claude Code 會話追蹤文件的工具，能夠用自然語言重構會話過程，標記風險操作（如部署、配置更改、密鑰泄露），並顯示令牌消耗和工具使用情況。它完全在本地運行，無需第三方 AI API，並內置了“問她”助手，可基於追蹤文件回答問題。

Her 可解讀 Claude Code 的 .jsonl 會話文件，用自然語言總結事件並標記風險。
所有處理在本地 GPU 上完成，不上傳第三方 API，確保隱私。

五個實驗室，五個思維：用小型模型構建多模型金融戲劇

2026-06-07 03:02 UTC+8

本文介紹了《千令牌之林》v2版本，這是一個基於多個小型語言模型的多智能體經濟模擬遊戲。玩家扮演隱匿的金融家，通過借貸、提供內幕消息（真假皆有）、做空和賄賂來影響市場，而每個智能體（動物角色）使用來自不同實驗室的小型模型（GPT-OSS-20B、MiniCPM3-4B、Nemotron-Mini-4B和微調Qwen 0.5B）。文章詳細討論了異構模型集成的技術挑戰（如vLLM服務層、CUDA工具鏈）、信息不對稱的防火牆設計、記憶管理（採用有界摘要而非完整歷史）以及實驗結果（真相防火牆零泄露、內幕消息優勢、微調模型高可靠性）。最終結論是：小型模型是可靠的格式生成器但推理不可靠，異構模型羣體更有趣且配置成本低，秘密信息必須通過數據流防火牆保護，持久記憶需有界以保持模型專注。

每個智能體使用不同實驗室的小型模型，異構性使市場行為更真實
信息不對稱通過防火牆設計實現，測試證明內幕消息的隱藏標誌從未泄露

職位搜索器：AI驅動的求職助手

2026-06-06 23:36 UTC+8

職位搜索器是一款為應屆畢業生設計的AI工具，通過分析簡歷自動生成LinkedIn搜索查詢，並基於技能、經驗、教育、行業和資歷五個維度對職位進行評分。該項目使用DeepSeek V4 Pro作為教師模型生成標籤，Qwen3-8B作為學生模型進行推理，訓練數據包括2500份簡歷和約10000個職位。所有代碼、數據集和模型均已開源。

自動簡歷分析並生成LinkedIn搜索查詢
基於五個維度的職位匹配評分

人物圖譜：繪製著名思維的地圖

2026-06-06 19:42 UTC+8

Persona Atlas 通過 AI 代理從公開網絡收集信息，為公眾人物構建可度量的行為畫像。它將十道開放問題的答案轉化為嵌入向量，允許用户直觀比較不同人物的思維風格——如幽默、懷疑或抽象——而無需依賴客觀成績。該項目使用小型模型，強調風格而非能力，是“構建小型”黑客馬拉松的產物。

輸入人名，AI 代理自動研究並構建人物檔案。
基於十道開放問題的回答生成嵌入，實現人物間的量化比較。

Hugging Face Blog