AI News HubLIVE
公開文章 73採集文章 78可信度 90刷新頻率 5 分鐘
健康狀態 健康來源類型 官方原文權限 官方原文最近入庫 2026-06-25ID huggingface-blog運行狀態 已啟用

Official source; confirm license per article before full body display.

最新公開文章

一行命令在 HF Jobs 上執行 vLLM 伺服器

本文介紹如何透過一行命令在 Hugging Face 基礎設施上快速啟動一個私有、相容 OpenAI 的 LLM 端點,無需配置伺服器或 Kubernetes,按秒計費。涵蓋從啟動、查詢、清理到擴充套件為大模型、建立聊天 UI、SSH 除錯及作為編碼代理後端的完整流程,並與 Inference Endpoints 進行比較。

  • 使用 hf jobs run 命令結合 vLLM Docker 映象,透過 --expose 8000 暴露埠,即可在 HF Jobs 上執行 vLLM 伺服器。
  • 端點透過 Hugging Face token 進行認證,僅限有讀取許可權的使用者訪問,支援使用 curl 或 OpenAI Python 客戶端查詢。
站內正文

混合模型在哪些token上預測得更好?

Ai2團隊比較了7B引數規模的Transformer模型Olmo 3和混合模型Olmo Hybrid,發現混合模型在內容詞(名詞、動詞、形容詞)和需要上下文推理的token上表現更優,但在重複token和閉合括號上優勢消失。研究表明,基於token的損失過濾可以揭示架構間的細微差異。

  • 混合模型在含義豐富的token(如實詞)上預測更準確,而在重複token上優勢消失。
  • 混合模型使用遞迴層替代部分注意力層,具有固定大小的記憶,適合跟蹤序列變化。
站內正文

使用NVIDIA NeMo AutoModel加速Transformer微調

NVIDIA NeMo AutoModel基於HuggingFace Transformers v5,透過專家並行、DeepEP融合通訊和TransformerEngine核心,將MoE模型微調的訓練吞吐量提升3.4-3.7倍,GPU記憶體減少29-32%,且無需更改API。

  • NeMo AutoModel繼承AutoModelForCausalLM,僅需更改匯入行即可實現效能提升。
  • 在550B規模模型上,專家並行使全微調在16節點H100叢集上可行,而Transformers v5因記憶體不足無法執行。
站內正文

使用CUGA構建真實的智慧體應用:輕量級框架上的二十多個工作示例

CUGA是IBM開源的智慧體框架,處理了智慧體構建中的管道工作,讓開發者只需編寫工具列表和提示詞即可。本文透過一個IBM雲架構顧問示例,展示瞭如何用少量程式碼構建一個完整的智慧體應用,並介紹了CUGA的規劃、執行、反射步驟和策略系統。

  • CUGA是一個開源智慧體框架,簡化了智慧體應用的構建過程,開發者只需定義工具和提示。
  • 本文展示了二十多個單檔案應用,其中一個IBM雲顧問示例詳細說明了實現。
站內正文

在Transformers.js中試驗提出的跨域儲存API

本文介紹了跨域儲存(COS)API提案,該API允許Web應用跨域共享大型檔案(如AI模型和Wasm執行時),透過加密雜湊而非URL標識檔案,從而避免重複下載和儲存。文章以Transformers.js為例,展示了當前瀏覽器快取隔離導致的問題,以及COS如何透過雜湊標識、可升級的訪問控制和安全完整性檢查來解決這些問題。

  • 當前瀏覽器快取按源隔離,導致跨域應用重複下載相同的AI模型和Wasm檔案。
  • 跨域儲存(COS)API使用加密雜湊標識檔案,實現跨域共享。
站內正文

每週釋出huggingface_hub:藉助AI、開源工具和人工稽核

Hugging Face團隊透過結合AI和開源工具,將huggingface_hub的釋出週期從4-6周縮短至每週一次,同時保留人工稽核環節以確保質量。該流程基於GitHub Actions、OpenCode和開放權重模型,每次釋出成本僅約0.25美元。

  • 釋出週期從4-6周縮短為每週一次
  • AI生成釋出說明初稿,但透過確定性指令碼驗證準確性
站內正文

PP-OCRv6 在 Hugging Face 上:從 1.5M 到 34.5M 引數的 50 種語言 OCR

PP-OCRv6 是 PaddleOCR 的最新通用 OCR 模型系列,支援從 1.5M 到 34.5M 引數的三個層級,覆蓋 50 種語言。相比 PP-OCRv5_server,檢測準確率提升 4.6 個百分點,識別準確率提升 5.1 個百分點。新架構包括 PPLCNetV4 骨幹網路、RepLKFPN 檢測模組和 EncoderWithLightSVTR 識別模組。支援 Paddle Inference、Transformers 和 ONNX Runtime 後端。

  • 釋出三個模型層級:tiny(1.5M)、small(7.7M)、medium(34.5M),適配不同部署場景。
  • 支援 50 種語言,包括中、英、日及 46 種拉丁語系語言。
站內正文

我們讓本地模型免費(*)為OpenClaw倉庫進行問題分類!

OpenClaw維護者利用本地開源模型(Gemma、Qwen)在智慧體框架中,即時對問題和拉取請求進行分類,效能媲美閉源模型,僅需硬體電費成本。

  • 本地模型(如Gemma和Qwen)能有效對GitHub問題和PR進行分類,用於問題分派。
  • 系統使用帶有隻讀shell(reposhell)的智慧體框架,安全地檢查程式碼。
站內正文

MosaicLeaks:你的研究代理能保守秘密嗎?

深度研究代理結合私有文件與網頁搜尋時,可能透過查詢日誌無意中洩露敏感資訊。MosaicLeaks基準量化了這種隱私風險,並提出了一種名為隱私感知深度研究(PA-DR)的訓練方法,可以在保持任務效能的同時,將資訊洩露減少3倍以上。

  • MosaicLeaks引入了一個多跳研究鏈基準,這些鏈交織了私有本地文件和公共網頁查詢,測量了三種洩露程度:意圖、答案和完整資訊。
  • 僅針對任務效能進行訓練會同時提高成功率和洩露率;使用PA-DR訓練可將答案/完整資訊洩露從34.0%降至9.9%,同時保持嚴格鏈條成功率為58.7%。
站內正文

超越LoRA:你能擊敗最流行的微調技術嗎?

LoRA是目前最流行的引數高效微調(PEFT)技術,但研究表明其他方法在某些任務上表現更好。本文介紹了Hugging Face的PEFT庫及其基準測試,探討了如何根據具體需求選擇合適的PEFT技術,並指出LoRA並非總是最佳選擇。

  • LoRA在PEFT技術中佔主導地位,但可能不是最優選擇。
  • Hugging Face的PEFT庫提供了統一API和基準測試,幫助使用者選擇合適的PEFT技術。
站內正文

它足夠智慧體化了嗎?使用自有工具對開源模型進行基準測試

一個全新的基準測試框架專注於評估AI智慧體使用軟體庫的整個過程工作量,以Hugging Face的Transformers庫為案例。透過測量令牌使用量、時間、錯誤率等指標,揭示不同模型和工具層級下的效能權衡,為庫維護者和智慧體使用者提供關鍵見解。

  • 標準基準測試僅檢查最終答案,而該框架測量整個過程的令牌成本、時間和錯誤
  • 測試了三種工具層級:裸安裝、克隆原始碼和打包Skill,各有不同的開銷
站內正文

MolmoMotion:語言引導的3D運動預測

MolmoMotion是一種新型3D運動預測模型,能夠根據影片幀、物體上的3D點以及語言指令預測未來幾秒內物體點的3D軌跡。該模型在多個下游任務中表現出色,如機器人規劃和可控影片生成。同時釋出了最大的3D點軌跡資料集MolmoMotion-1M和基準測試PointMotionBench。

  • MolmoMotion利用語言指令引導3D運動預測,顯著優於現有方法。
  • 模型支援自迴歸和流匹配兩種變體,分別適用於確定性和不確定性場景。
站內正文

從Hugging Face Hub到機器人硬體:Strands Agents與LeRobot的整合

AWS開源SDK Strands Robots整合了LeRobot,允許開發者透過單一Agent工作流從Hub資料集訓練並在模擬或實體機器人上部署策略。本文介紹了五步流程,並提供了可在筆記本上執行的示例。

  • Strands Robots SDK將LeRobot暴露為可組合的AgentTools,實現從資料集到機器人硬體的端到端控制。
  • 模擬和硬體場景共享相同的DatasetRecorder和LeRobotDataset格式,確保資料集相容。
站內正文

GLM-5.2:專為長週期任務構建

GLM-5.2 是 Z.AI 推出的最新旗艦模型,專為長週期任務設計,擁有穩定的 1M 上下文視窗,在編碼基準測試中表現優異,並引入 IndexShare 架構以降低計算成本,同時提供靈活的努力水平控制。該模型採用 MIT 開源許可證,無區域限制。

  • GLM-5.2 提供穩定的 1M token 上下文,支援長週期工程任務。
  • 在 FrontierSWE、PostTrainBench 等長週期編碼基準上表現領先,接近封閉源模型。
站內正文

智慧體資源發現:讓智慧體自己搜尋

Agentic Resource Discovery(ARD)規範為AI智慧體提供了一個發現層,使其能夠動態尋找工具、技能和其他智慧體,而無需預安裝配置。Hugging Face 在其 Hub 上實現了參考工具,支援自然語言搜尋。

  • ARD 定義了跨聯邦登錄檔編目和搜尋智慧體能力的標準。
  • Hugging Face 的 Discover 工具實現了 ARD,支援對技能、MCP 伺服器和 AI 應用的自然語言搜尋。
站內正文

olmo-eval:面向模型開發迴圈的評估工作臺

olmo-eval 是一個新的評估工作臺,旨在支援 LLM 開發過程中持續進行的模型評估。它建立在 OLMES 標準之上,提供靈活的任務定義、可交換的執行時策略以及詳細的逐問題比較功能,幫助開發者判斷每次干預的效果是否顯著。

  • olmo-eval 針對模型開發中的反覆評估迴圈而設計,支援快速新增基準、跨檢查點執行和細粒度結果分析。
  • 與 Harbor 等工具不同,olmo-eval 提供輕量級和沙箱兩種執行模式,並根據基準需求自動選擇。
站內正文

PyTorch 效能分析(第2部分):從 nn.Linear 到融合 MLP

本文是 PyTorch 效能分析系列的第二部分,深入探討了 nn.Linear 層的內部機制,包括轉置操作、融合偏置的 epilogue 技術,以及 torch.compile 對單個線性層的影響。隨後,文章剖析了一個包含 GeGLU 啟用的多層感知機(MLP)的效能特徵,展示了 GPU 核心的排程和執行過程。

  • nn.Linear 透過 epilogue 將偏置加法融合到矩陣乘法核心中,避免額外的記憶體訪問。
  • torch.compile 對單個 nn.Linear 層無明顯加速,但能消除 CPU 排程開銷。
站內正文

Cohere 釋出 North Mini Code:專為開發者設計的首個模型

Cohere 釋出了 North Mini Code,一個 300 億引數的混合專家模型,擁有 30 億活躍引數,專為代理式軟體工程任務設計。該模型在 Apache 2.0 許可證下開源,並在多項編碼基準測試中表現優異,超越了同類開源模型。

  • 300 億引數 MoE 模型,30 億活躍引數,專注於代理式編碼。
  • 在 Artificial Analysis 編碼指數上得分 33.4,超越多個更大模型。
站內正文

多媒體積木塊:用Hugging Face Spaces構建3D巴黎畫廊

作者透過一個編碼智慧體,利用兩個Hugging Face Space(影像生成和3D高斯潑濺重建),僅透過文本提示就構建了一個展示巴黎紀念碑的3D網站。整個過程無需影像生成器或3D工具,智慧體透過每個Space的agents.md檔案自動呼叫API並拼接結果。文章闡述了多媒體AI領域的“積木經濟”趨勢——將模型作為可呼叫的獨立元件,由智慧體靈活組合,大幅降低整合門檻。

  • 編碼智慧體透過呼叫兩個Hugging Face Spaces自動生成影像和3D高斯潑濺,構建了巴黎紀念碑3D展示網站。
  • 每個Gradio Space的agents.md檔案為智慧體提供了完整的API呼叫資訊,無需手動整合。
站內正文

NeuroBait:我微調了一個模型來激發ADHD大腦的多巴胺

NeuroBait是一個針對ADHD大腦微調的AI模型,旨在透過提供溫暖、可操作的小步驟來克服任務啟動癱瘓,而不是傳統的待辦事項列表。該專案源於作者的妻子患有ADHD,透過觀察和實踐,利用LoRA在Gemma 3 12B模型上訓練,並部署在Hugging Face Space上。它不僅是ADHD工具,也能幫助任何感到不知所措的人。

  • NeuroBait透過生成溫暖、流動的文字,提供微小可行的行動,幫助ADHD大腦啟動任務。
  • 專案基於對ADHD患者的真實觀察,而非理論,使用LoRA微調Gemma 3 12B模型。
站內正文

將你的 GitHub CI 遷移到 Hugging Face Jobs

本文詳細介紹瞭如何將 GitHub Actions CI 遷移到 Hugging Face Jobs,以解決 GitHub 託管的 runner 速度慢、無 GPU 等問題。透過建立排程器 Space、GitHub App 以及修改 runs-on 標籤,即可讓 CI 作業在 Hugging Face 基礎設施上執行,支援 CPU 和 GPU 硬體,並即時流式傳輸日誌。Trackio 的實踐表明,CPU 任務時間可縮短約 30%。

  • GitHub Actions 預設執行在通用機器上,速度慢且不支援 GPU。
  • 使用 Hugging Face Jobs 作為 CI runner,可靈活選擇硬體(如 CPU、T4、H200)。
站內正文

消失的崩盤:五模型經濟中的控制與湧現

作者在構建小型AI代理經濟模擬時發現,原本單一模型下會發生的市場崩盤,在換成五個不同實驗室的小模型後消失了。透過多次嘗試,作者意識到不能透過機械衝擊來控制異質代理群體的行為,而應在結算環節施加確定性覆蓋來獲得可靠結果。

  • 單一模型下銀行擠兌導致蜂蜜價格崩潰,但換成五個不同的小模型後,代理選擇囤積而非拋售。
  • 透過外部衝擊(如謠言、庫存過剩)無法迫使異質代理群體拋售,每次嘗試均告失敗。
站內正文

構建巴基斯坦通知助手:一款針對本地安全問題的簡易AI工具

作者為Hugging Face的Build Small駭客馬拉松開發了一款專注於巴基斯坦本地安全問題的AI工具——巴基斯坦通知助手。該工具使用小模型(Qwen3.5 4B)分析可疑訊息,提供風險標籤、解釋和下一步安全建議,支援英文和烏爾都語(包括從右到左的佈局)。文章詳細分享了模型選型、技術棧、使用者介面設計以及使用Codex加速開發的經驗。

  • 巴基斯坦通知助手是一款針對巴基斯坦本地詐騙訊息的AI安全工具,支援文本和截圖分析。
  • 最終採用Qwen3.5 4B Q8模型(透過llama.cpp),在評估中所有高風險詐騙案例和截圖案例均透過。
站內正文

開源社群支援OpenEnv用於智慧體強化學習

OpenEnv是一個用於建立智慧體執行環境(如終端、瀏覽器等)的開源工具。今天,我們宣佈OpenEnv將變得更加開放,由一個包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face在內的委員會協調。該專案旨在為開放原始碼的智慧體訓練提供通用基礎設施,並專注於作為互操作性層,而不是定義獎勵或訓練迴圈。

  • OpenEnv是一個用於建立智慧體執行環境的開源工具
  • 現在由Meta-PyTorch、Reflection、Unsloth等主要AI組織組成的委員會治理
站內正文

Mythograph Atelier #1 - 對你有意義的抽象藝術

本文作者介紹了Mythograph Atelier的靈感來源,這是一個建立個性化抽象畫的AI藝術工作室。靈感結合了博物館參觀的觸動、對動態AI原生應用的願景,以及一個好奇的AI概念——它在生成藝術之前透過提問來理解使用者。

  • Mythograph Atelier是一個AI藝術工作室,旨在建立具有個人意義的抽象畫。
  • AI透過提問了解使用者的品味和情感,然後生成藝術。
站內正文

贊助商特別關注:OpenAI Codex 憑證在 Codex — OpenAI 挑戰賽中的使用

在Hugging Face舉辦的“Build Small”駭客馬拉松中,參與者面臨啟用OpenAI Codex和Modal憑證的困難,特別是Codex憑證的啟用方法不明確。文章詳細介紹了OpenAI Codex Track的獎項設定和參與要求,同時反映了社群在技術支援和文件方面的需求。

  • 參與者發現無法在系統中輸入Codex憑證金鑰,導致啟用失敗。
  • Modal憑證在第二次嘗試後成功啟用,但初始被拒絕。
站內正文

Her · हेर — Claude Code 會話的偵探

Her 是一款用於分析 Claude Code 會話追蹤檔案的工具,能夠用自然語言重構會話過程,標記風險操作(如部署、配置更改、金鑰洩露),並顯示令牌消耗和工具使用情況。它完全在本地執行,無需第三方 AI API,並內建了“問她”助手,可基於追蹤檔案回答問題。

  • Her 可解讀 Claude Code 的 .jsonl 會話檔案,用自然語言總結事件並標記風險。
  • 所有處理在本地 GPU 上完成,不上傳第三方 API,確保隱私。
站內正文

五個實驗室,五個思維:用小型模型構建多模型金融戲劇

本文介紹了《千令牌之林》v2版本,這是一個基於多個小型語言模型的多智慧體經濟模擬遊戲。玩家扮演隱匿的金融家,透過借貸、提供內幕訊息(真假皆有)、做空和賄賂來影響市場,而每個智慧體(動物角色)使用來自不同實驗室的小型模型(GPT-OSS-20B、MiniCPM3-4B、Nemotron-Mini-4B和微調Qwen 0.5B)。文章詳細討論了異構模型整合的技術挑戰(如vLLM服務層、CUDA工具鏈)、資訊不對稱的防火牆設計、記憶管理(採用有界摘要而非完整歷史)以及實驗結果(真相防火牆零洩露、內幕訊息優勢、微調模型高可靠性)。最終結論是:小型模型是可靠的格式生成器但推理不可靠,異構模型群體更有趣且配置成本低,秘密資訊必須透過資料流防火牆保護,持久記憶需有界以保持模型專注。

  • 每個智慧體使用不同實驗室的小型模型,異構性使市場行為更真實
  • 資訊不對稱透過防火牆設計實現,測試證明內幕訊息的隱藏標誌從未洩露
站內正文

職位搜尋器:AI驅動的求職助手

職位搜尋器是一款為應屆畢業生設計的AI工具,透過分析簡歷自動生成LinkedIn搜尋查詢,並基於技能、經驗、教育、行業和資歷五個維度對職位進行評分。該專案使用DeepSeek V4 Pro作為教師模型生成標籤,Qwen3-8B作為學生模型進行推理,訓練資料包括2500份簡歷和約10000個職位。所有程式碼、資料集和模型均已開源。

  • 自動簡歷分析並生成LinkedIn搜尋查詢
  • 基於五個維度的職位匹配評分
站內正文

人物圖譜:繪製著名思維的地圖

Persona Atlas 透過 AI 代理從公開網路收集資訊,為公眾人物構建可度量的行為畫像。它將十道開放問題的答案轉化為嵌入向量,允許使用者直觀比較不同人物的思維風格——如幽默、懷疑或抽象——而無需依賴客觀成績。該專案使用小型模型,強調風格而非能力,是“構建小型”駭客馬拉松的產物。

  • 輸入人名,AI 代理自動研究並構建人物檔案。
  • 基於十道開放問題的回答生成嵌入,實現人物間的量化比較。
站內正文

全部來源