Hugging Face Blog AI 新聞來源

公開文章 73採集文章 78可信度 90刷新頻率 5 分鐘

健康狀態健康來源類型官方原文權限 官方原文最近入庫 2026-06-25ID huggingface-blog運行狀態 已啟用

Official source; confirm license per article before full body display.

最新公開文章

一行命令在 HF Jobs 上執行 vLLM 伺服器

2026-06-26 08:00 UTC+8

本文介紹如何透過一行命令在 Hugging Face 基礎設施上快速啟動一個私有、相容 OpenAI 的 LLM 端點，無需配置伺服器或 Kubernetes，按秒計費。涵蓋從啟動、查詢、清理到擴充套件為大模型、建立聊天 UI、SSH 除錯及作為編碼代理後端的完整流程，並與 Inference Endpoints 進行比較。

使用 hf jobs run 命令結合 vLLM Docker 映象，透過 --expose 8000 暴露埠，即可在 HF Jobs 上執行 vLLM 伺服器。
端點透過 Hugging Face token 進行認證，僅限有讀取許可權的使用者訪問，支援使用 curl 或 OpenAI Python 客戶端查詢。

混合模型在哪些token上預測得更好？

2026-06-26 00:11 UTC+8

Ai2團隊比較了7B引數規模的Transformer模型Olmo 3和混合模型Olmo Hybrid，發現混合模型在內容詞（名詞、動詞、形容詞）和需要上下文推理的token上表現更優，但在重複token和閉合括號上優勢消失。研究表明，基於token的損失過濾可以揭示架構間的細微差異。

混合模型在含義豐富的token（如實詞）上預測更準確，而在重複token上優勢消失。
混合模型使用遞迴層替代部分注意力層，具有固定大小的記憶，適合跟蹤序列變化。

使用NVIDIA NeMo AutoModel加速Transformer微調

2026-06-25 00:00 UTC+8

NVIDIA NeMo AutoModel基於HuggingFace Transformers v5，透過專家並行、DeepEP融合通訊和TransformerEngine核心，將MoE模型微調的訓練吞吐量提升3.4-3.7倍，GPU記憶體減少29-32%，且無需更改API。

NeMo AutoModel繼承AutoModelForCausalLM，僅需更改匯入行即可實現效能提升。
在550B規模模型上，專家並行使全微調在16節點H100叢集上可行，而Transformers v5因記憶體不足無法執行。

使用CUGA構建真實的智慧體應用：輕量級框架上的二十多個工作示例

2026-06-23 20:51 UTC+8

CUGA是IBM開源的智慧體框架，處理了智慧體構建中的管道工作，讓開發者只需編寫工具列表和提示詞即可。本文透過一個IBM雲架構顧問示例，展示瞭如何用少量程式碼構建一個完整的智慧體應用，並介紹了CUGA的規劃、執行、反射步驟和策略系統。

CUGA是一個開源智慧體框架，簡化了智慧體應用的構建過程，開發者只需定義工具和提示。
本文展示了二十多個單檔案應用，其中一個IBM雲顧問示例詳細說明了實現。

在Transformers.js中試驗提出的跨域儲存API

2026-06-23 08:00 UTC+8

本文介紹了跨域儲存（COS）API提案，該API允許Web應用跨域共享大型檔案（如AI模型和Wasm執行時），透過加密雜湊而非URL標識檔案，從而避免重複下載和儲存。文章以Transformers.js為例，展示了當前瀏覽器快取隔離導致的問題，以及COS如何透過雜湊標識、可升級的訪問控制和安全完整性檢查來解決這些問題。

當前瀏覽器快取按源隔離，導致跨域應用重複下載相同的AI模型和Wasm檔案。
跨域儲存（COS）API使用加密雜湊標識檔案，實現跨域共享。

每週釋出huggingface_hub：藉助AI、開源工具和人工稽核

2026-06-23 08:00 UTC+8

Hugging Face團隊透過結合AI和開源工具，將huggingface_hub的釋出週期從4-6周縮短至每週一次，同時保留人工稽核環節以確保質量。該流程基於GitHub Actions、OpenCode和開放權重模型，每次釋出成本僅約0.25美元。

釋出週期從4-6周縮短為每週一次
AI生成釋出說明初稿，但透過確定性指令碼驗證準確性

PP-OCRv6 在 Hugging Face 上：從 1.5M 到 34.5M 引數的 50 種語言 OCR

2026-06-22 21:18 UTC+8

PP-OCRv6 是 PaddleOCR 的最新通用 OCR 模型系列，支援從 1.5M 到 34.5M 引數的三個層級，覆蓋 50 種語言。相比 PP-OCRv5_server，檢測準確率提升 4.6 個百分點，識別準確率提升 5.1 個百分點。新架構包括 PPLCNetV4 骨幹網路、RepLKFPN 檢測模組和 EncoderWithLightSVTR 識別模組。支援 Paddle Inference、Transformers 和 ONNX Runtime 後端。

釋出三個模型層級：tiny（1.5M）、small（7.7M）、medium（34.5M），適配不同部署場景。
支援 50 種語言，包括中、英、日及 46 種拉丁語系語言。

我們讓本地模型免費（*）為OpenClaw倉庫進行問題分類！

2026-06-22 08:00 UTC+8

OpenClaw維護者利用本地開源模型（Gemma、Qwen）在智慧體框架中，即時對問題和拉取請求進行分類，效能媲美閉源模型，僅需硬體電費成本。

本地模型（如Gemma和Qwen）能有效對GitHub問題和PR進行分類，用於問題分派。
系統使用帶有隻讀shell（reposhell）的智慧體框架，安全地檢查程式碼。

MosaicLeaks：你的研究代理能保守秘密嗎？

2026-06-19 02:13 UTC+8

深度研究代理結合私有文件與網頁搜尋時，可能透過查詢日誌無意中洩露敏感資訊。MosaicLeaks基準量化了這種隱私風險，並提出了一種名為隱私感知深度研究（PA-DR）的訓練方法，可以在保持任務效能的同時，將資訊洩露減少3倍以上。

MosaicLeaks引入了一個多跳研究鏈基準，這些鏈交織了私有本地文件和公共網頁查詢，測量了三種洩露程度：意圖、答案和完整資訊。
僅針對任務效能進行訓練會同時提高成功率和洩露率；使用PA-DR訓練可將答案/完整資訊洩露從34.0%降至9.9%，同時保持嚴格鏈條成功率為58.7%。

超越LoRA：你能擊敗最流行的微調技術嗎？

2026-06-18 08:00 UTC+8

LoRA是目前最流行的引數高效微調（PEFT）技術，但研究表明其他方法在某些任務上表現更好。本文介紹了Hugging Face的PEFT庫及其基準測試，探討了如何根據具體需求選擇合適的PEFT技術，並指出LoRA並非總是最佳選擇。

LoRA在PEFT技術中佔主導地位，但可能不是最優選擇。
Hugging Face的PEFT庫提供了統一API和基準測試，幫助使用者選擇合適的PEFT技術。

它足夠智慧體化了嗎？使用自有工具對開源模型進行基準測試

2026-06-18 08:00 UTC+8

一個全新的基準測試框架專注於評估AI智慧體使用軟體庫的整個過程工作量，以Hugging Face的Transformers庫為案例。透過測量令牌使用量、時間、錯誤率等指標，揭示不同模型和工具層級下的效能權衡，為庫維護者和智慧體使用者提供關鍵見解。

標準基準測試僅檢查最終答案，而該框架測量整個過程的令牌成本、時間和錯誤
測試了三種工具層級：裸安裝、克隆原始碼和打包Skill，各有不同的開銷

MolmoMotion：語言引導的3D運動預測

2026-06-17 23:26 UTC+8

MolmoMotion是一種新型3D運動預測模型，能夠根據影片幀、物體上的3D點以及語言指令預測未來幾秒內物體點的3D軌跡。該模型在多個下游任務中表現出色，如機器人規劃和可控影片生成。同時釋出了最大的3D點軌跡資料集MolmoMotion-1M和基準測試PointMotionBench。

MolmoMotion利用語言指令引導3D運動預測，顯著優於現有方法。
模型支援自迴歸和流匹配兩種變體，分別適用於確定性和不確定性場景。

從Hugging Face Hub到機器人硬體：Strands Agents與LeRobot的整合

2026-06-17 18:18 UTC+8

AWS開源SDK Strands Robots整合了LeRobot，允許開發者透過單一Agent工作流從Hub資料集訓練並在模擬或實體機器人上部署策略。本文介紹了五步流程，並提供了可在筆記本上執行的示例。

Strands Robots SDK將LeRobot暴露為可組合的AgentTools，實現從資料集到機器人硬體的端到端控制。
模擬和硬體場景共享相同的DatasetRecorder和LeRobotDataset格式，確保資料集相容。

GLM-5.2：專為長週期任務構建

2026-06-17 17:01 UTC+8

GLM-5.2 是 Z.AI 推出的最新旗艦模型，專為長週期任務設計，擁有穩定的 1M 上下文視窗，在編碼基準測試中表現優異，並引入 IndexShare 架構以降低計算成本，同時提供靈活的努力水平控制。該模型採用 MIT 開源許可證，無區域限制。

GLM-5.2 提供穩定的 1M token 上下文，支援長週期工程任務。
在 FrontierSWE、PostTrainBench 等長週期編碼基準上表現領先，接近封閉源模型。

智慧體資源發現：讓智慧體自己搜尋

2026-06-17 08:00 UTC+8

Agentic Resource Discovery（ARD）規範為AI智慧體提供了一個發現層，使其能夠動態尋找工具、技能和其他智慧體，而無需預安裝配置。Hugging Face 在其 Hub 上實現了參考工具，支援自然語言搜尋。

ARD 定義了跨聯邦登錄檔編目和搜尋智慧體能力的標準。
Hugging Face 的 Discover 工具實現了 ARD，支援對技能、MCP 伺服器和 AI 應用的自然語言搜尋。

olmo-eval：面向模型開發迴圈的評估工作臺

2026-06-12 23:56 UTC+8

olmo-eval 是一個新的評估工作臺，旨在支援 LLM 開發過程中持續進行的模型評估。它建立在 OLMES 標準之上，提供靈活的任務定義、可交換的執行時策略以及詳細的逐問題比較功能，幫助開發者判斷每次干預的效果是否顯著。

olmo-eval 針對模型開發中的反覆評估迴圈而設計，支援快速新增基準、跨檢查點執行和細粒度結果分析。
與 Harbor 等工具不同，olmo-eval 提供輕量級和沙箱兩種執行模式，並根據基準需求自動選擇。

PyTorch 效能分析（第2部分）：從 nn.Linear 到融合 MLP

2026-06-11 08:00 UTC+8

本文是 PyTorch 效能分析系列的第二部分，深入探討了 nn.Linear 層的內部機制，包括轉置操作、融合偏置的 epilogue 技術，以及 torch.compile 對單個線性層的影響。隨後，文章剖析了一個包含 GeGLU 啟用的多層感知機（MLP）的效能特徵，展示了 GPU 核心的排程和執行過程。

nn.Linear 透過 epilogue 將偏置加法融合到矩陣乘法核心中，避免額外的記憶體訪問。
torch.compile 對單個 nn.Linear 層無明顯加速，但能消除 CPU 排程開銷。

Cohere 釋出 North Mini Code：專為開發者設計的首個模型

2026-06-09 23:56 UTC+8

Cohere 釋出了 North Mini Code，一個 300 億引數的混合專家模型，擁有 30 億活躍引數，專為代理式軟體工程任務設計。該模型在 Apache 2.0 許可證下開源，並在多項編碼基準測試中表現優異，超越了同類開源模型。

300 億引數 MoE 模型，30 億活躍引數，專注於代理式編碼。
在 Artificial Analysis 編碼指數上得分 33.4，超越多個更大模型。

多媒體積木塊：用Hugging Face Spaces構建3D巴黎畫廊

2026-06-09 18:46 UTC+8

作者透過一個編碼智慧體，利用兩個Hugging Face Space（影像生成和3D高斯潑濺重建），僅透過文本提示就構建了一個展示巴黎紀念碑的3D網站。整個過程無需影像生成器或3D工具，智慧體透過每個Space的agents.md檔案自動呼叫API並拼接結果。文章闡述了多媒體AI領域的“積木經濟”趨勢——將模型作為可呼叫的獨立元件，由智慧體靈活組合，大幅降低整合門檻。

編碼智慧體透過呼叫兩個Hugging Face Spaces自動生成影像和3D高斯潑濺，構建了巴黎紀念碑3D展示網站。
每個Gradio Space的agents.md檔案為智慧體提供了完整的API呼叫資訊，無需手動整合。

NeuroBait：我微調了一個模型來激發ADHD大腦的多巴胺

2026-06-09 17:04 UTC+8

NeuroBait是一個針對ADHD大腦微調的AI模型，旨在透過提供溫暖、可操作的小步驟來克服任務啟動癱瘓，而不是傳統的待辦事項列表。該專案源於作者的妻子患有ADHD，透過觀察和實踐，利用LoRA在Gemma 3 12B模型上訓練，並部署在Hugging Face Space上。它不僅是ADHD工具，也能幫助任何感到不知所措的人。

NeuroBait透過生成溫暖、流動的文字，提供微小可行的行動，幫助ADHD大腦啟動任務。
專案基於對ADHD患者的真實觀察，而非理論，使用LoRA微調Gemma 3 12B模型。

將你的 GitHub CI 遷移到 Hugging Face Jobs

2026-06-09 08:00 UTC+8

本文詳細介紹瞭如何將 GitHub Actions CI 遷移到 Hugging Face Jobs，以解決 GitHub 託管的 runner 速度慢、無 GPU 等問題。透過建立排程器 Space、GitHub App 以及修改 runs-on 標籤，即可讓 CI 作業在 Hugging Face 基礎設施上執行，支援 CPU 和 GPU 硬體，並即時流式傳輸日誌。Trackio 的實踐表明，CPU 任務時間可縮短約 30%。

GitHub Actions 預設執行在通用機器上，速度慢且不支援 GPU。
使用 Hugging Face Jobs 作為 CI runner，可靈活選擇硬體（如 CPU、T4、H200）。

消失的崩盤：五模型經濟中的控制與湧現

2026-06-08 21:10 UTC+8

作者在構建小型AI代理經濟模擬時發現，原本單一模型下會發生的市場崩盤，在換成五個不同實驗室的小模型後消失了。透過多次嘗試，作者意識到不能透過機械衝擊來控制異質代理群體的行為，而應在結算環節施加確定性覆蓋來獲得可靠結果。

單一模型下銀行擠兌導致蜂蜜價格崩潰，但換成五個不同的小模型後，代理選擇囤積而非拋售。
透過外部衝擊（如謠言、庫存過剩）無法迫使異質代理群體拋售，每次嘗試均告失敗。

構建巴基斯坦通知助手：一款針對本地安全問題的簡易AI工具

2026-06-08 19:46 UTC+8

作者為Hugging Face的Build Small駭客馬拉松開發了一款專注於巴基斯坦本地安全問題的AI工具——巴基斯坦通知助手。該工具使用小模型（Qwen3.5 4B）分析可疑訊息，提供風險標籤、解釋和下一步安全建議，支援英文和烏爾都語（包括從右到左的佈局）。文章詳細分享了模型選型、技術棧、使用者介面設計以及使用Codex加速開發的經驗。

巴基斯坦通知助手是一款針對巴基斯坦本地詐騙訊息的AI安全工具，支援文本和截圖分析。
最終採用Qwen3.5 4B Q8模型（透過llama.cpp），在評估中所有高風險詐騙案例和截圖案例均透過。

開源社群支援OpenEnv用於智慧體強化學習

2026-06-08 08:00 UTC+8

OpenEnv是一個用於建立智慧體執行環境（如終端、瀏覽器等）的開源工具。今天，我們宣佈OpenEnv將變得更加開放，由一個包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face在內的委員會協調。該專案旨在為開放原始碼的智慧體訓練提供通用基礎設施，並專注於作為互操作性層，而不是定義獎勵或訓練迴圈。

OpenEnv是一個用於建立智慧體執行環境的開源工具
現在由Meta-PyTorch、Reflection、Unsloth等主要AI組織組成的委員會治理

Mythograph Atelier #1 - 對你有意義的抽象藝術

2026-06-08 03:10 UTC+8

本文作者介紹了Mythograph Atelier的靈感來源，這是一個建立個性化抽象畫的AI藝術工作室。靈感結合了博物館參觀的觸動、對動態AI原生應用的願景，以及一個好奇的AI概念——它在生成藝術之前透過提問來理解使用者。

Mythograph Atelier是一個AI藝術工作室，旨在建立具有個人意義的抽象畫。
AI透過提問了解使用者的品味和情感，然後生成藝術。

贊助商特別關注：OpenAI Codex 憑證在 Codex — OpenAI 挑戰賽中的使用

2026-06-07 19:38 UTC+8

在Hugging Face舉辦的“Build Small”駭客馬拉松中，參與者面臨啟用OpenAI Codex和Modal憑證的困難，特別是Codex憑證的啟用方法不明確。文章詳細介紹了OpenAI Codex Track的獎項設定和參與要求，同時反映了社群在技術支援和文件方面的需求。

參與者發現無法在系統中輸入Codex憑證金鑰，導致啟用失敗。
Modal憑證在第二次嘗試後成功啟用，但初始被拒絕。

Her · हेर — Claude Code 會話的偵探

2026-06-07 18:13 UTC+8

Her 是一款用於分析 Claude Code 會話追蹤檔案的工具，能夠用自然語言重構會話過程，標記風險操作（如部署、配置更改、金鑰洩露），並顯示令牌消耗和工具使用情況。它完全在本地執行，無需第三方 AI API，並內建了“問她”助手，可基於追蹤檔案回答問題。

Her 可解讀 Claude Code 的 .jsonl 會話檔案，用自然語言總結事件並標記風險。
所有處理在本地 GPU 上完成，不上傳第三方 API，確保隱私。

五個實驗室，五個思維：用小型模型構建多模型金融戲劇

2026-06-07 03:02 UTC+8

本文介紹了《千令牌之林》v2版本，這是一個基於多個小型語言模型的多智慧體經濟模擬遊戲。玩家扮演隱匿的金融家，透過借貸、提供內幕訊息（真假皆有）、做空和賄賂來影響市場，而每個智慧體（動物角色）使用來自不同實驗室的小型模型（GPT-OSS-20B、MiniCPM3-4B、Nemotron-Mini-4B和微調Qwen 0.5B）。文章詳細討論了異構模型整合的技術挑戰（如vLLM服務層、CUDA工具鏈）、資訊不對稱的防火牆設計、記憶管理（採用有界摘要而非完整歷史）以及實驗結果（真相防火牆零洩露、內幕訊息優勢、微調模型高可靠性）。最終結論是：小型模型是可靠的格式生成器但推理不可靠，異構模型群體更有趣且配置成本低，秘密資訊必須透過資料流防火牆保護，持久記憶需有界以保持模型專注。

每個智慧體使用不同實驗室的小型模型，異構性使市場行為更真實
資訊不對稱透過防火牆設計實現，測試證明內幕訊息的隱藏標誌從未洩露

職位搜尋器：AI驅動的求職助手

2026-06-06 23:36 UTC+8

職位搜尋器是一款為應屆畢業生設計的AI工具，透過分析簡歷自動生成LinkedIn搜尋查詢，並基於技能、經驗、教育、行業和資歷五個維度對職位進行評分。該專案使用DeepSeek V4 Pro作為教師模型生成標籤，Qwen3-8B作為學生模型進行推理，訓練資料包括2500份簡歷和約10000個職位。所有程式碼、資料集和模型均已開源。

自動簡歷分析並生成LinkedIn搜尋查詢
基於五個維度的職位匹配評分

人物圖譜：繪製著名思維的地圖

2026-06-06 19:42 UTC+8

Persona Atlas 透過 AI 代理從公開網路收集資訊，為公眾人物構建可度量的行為畫像。它將十道開放問題的答案轉化為嵌入向量，允許使用者直觀比較不同人物的思維風格——如幽默、懷疑或抽象——而無需依賴客觀成績。該專案使用小型模型，強調風格而非能力，是“構建小型”駭客馬拉松的產物。

輸入人名，AI 代理自動研究並構建人物檔案。
基於十道開放問題的回答生成嵌入，實現人物間的量化比較。

Hugging Face Blog