Hugging Face

來源分布

Hugging Face Blog32
Hacker News AI6
MarkTechPost4
AWS Machine Learning Blog2
AI Business1
arXiv AI1
KDnuggets1
Latent Space1

主題分布

Agent29
晶片28
研究23
模型14
政策11
創業融資3
機器人1

日期線

2026-06-095
2026-07-075
2026-06-174
2026-07-084
2026-06-233
2026-06-303
2026-07-013
2026-07-063

最新動態

透過資料捕獲、Hugging Face、NVMe 和 Route 53 整合增強 Amazon SageMaker HyperPod 上的企業推理能力

2026-07-10 00:38 UTC+8

本文介紹了 Amazon SageMaker HyperPod 推理的五項新功能：多層資料捕獲以進行審計和模型改進、從 Hugging Face Hub 直接部署、本地 NVMe 模型載入以加快冷啟動速度、自動 Route 53 DNS 自定義域名管理以及透過自定義服務賬戶實現 pod 級 IAM。這些功能共同為企業在生產環境中部署和執行大模型提供了更快速、更可觀測、更靈活的推理基礎設施。

多層資料捕獲支援從端點、負載均衡器和模型 pod 三個層級記錄推理輸入和輸出，提供深度可觀測性。
可直接從 Hugging Face Hub 部署模型，無需預置權重，支援門控訪問、版本固定和令牌隔離。

輝達與Hugging Face合作開發開源機器人模型

2026-07-09 03:35 UTC+8

輝達與Hugging Face合作，旨在透過開源機器人模型提升物理AI的可訪問性和部署，進一步鞏固輝達在該領域的強勢地位。

輝達與Hugging Face宣佈合作，共同開發開源機器人模型。
此舉旨在促進物理AI的可訪問性和部署。

智慧體的資料

2026-07-09 01:16 UTC+8

NVIDIA 透過開放資料和合成資料推動智慧體 AI 發展，強調資料質量、可檢查性和信任。

NVIDIA 釋出了 Nemotron 系列開放資料集，包括預訓練和後訓練樣本。
合成資料有助於在保護公司機密的同時共享有用訊號。

[AINews] Lilian Weng總結35篇關於RSI的套件工程論文

2026-07-08 10:20 UTC+8

本期AINews涵蓋了2026年7月6日至7日的廣泛AI發展。亮點包括Lilian Weng對遞迴自我改進中套件工程深入分析、Meta推出Muse Image和預覽Muse Video（具有代理生成迴圈）、以及Anthropic、LangChain和Google在代理平臺上的重大產品更新。其他值得注意的內容：NVIDIA的Audex音訊模型、Cohere的阿拉伯語ASR、與Hugging Face和NVIDIA的機器人整合、Liquid AI的Antidoom方法減少推理迴圈失敗、以及Anthropic有爭議的J-space可解釋性研究。還涵蓋了代理和法律AI的基準測試、研究自動化和推理效率進展。

Lilian Weng的博文將遞迴自我改進重新聚焦於套件工程而非直接權重修改，強調套件工程對於指定目標和上下文至關重要。
Meta的Muse Image和Muse Video展示了具有規劃、工具使用和自我細化的代理生成，迅速登上公共排行榜高位。

原生速度的vLLM transformers建模後端

2026-07-08 08:00 UTC+8

Hugging Face的Transformers庫的vLLM後端現在在多種LLM架構上達到了與原生vLLM實現相當甚至更快的推理速度。模型作者無需額外編碼即可自動利用其Transformers實現獲得超快推理。

Transformers vLLM後端在Qwen3 4B、32B和235B MoE模型上達到或超過了原生vLLM的吞吐量。
透過torch.fx和ast在執行時動態應用推理特定的層融合，匹配自定義程式碼實現的速度。

高通收購Nexa AI，開源面向Hexagon NPU的GenAI執行時GenieX

2026-07-08 06:44 UTC+8

高通收購了Nexa AI，並開源了其GenAI執行時GenieX，該執行時專為Hexagon NPU最佳化，支援在Snapdragon裝置上本地執行LLM和VLM。GenieX提供CLI、Python、Kotlin/Java、Docker及OpenAI相容伺服器介面，支援Hugging Face的GGUF模型和Qualcomm AI Hub的預編譯包。

高通收購Nexa AI並開源GenieX執行時
GenieX支援Snapdragon裝置上的NPU、GPU和CPU推理

從Hugging Face一鍵直達Amazon SageMaker Studio

2026-07-08 05:15 UTC+8

Hugging Face與Amazon SageMaker AI深度整合，開發者現在可以透過一鍵操作從模型發現直接進入SageMaker Studio進行實驗。該整合自動配置許可權、顯示GPU配額，並支援模型微調和部署，大幅縮短從靈感到部署的路徑。

一鍵從Hugging Face模型頁面跳轉至SageMaker Studio，模型預載入、環境自動配置。
新Studio環境自動配置完整許可權，包括微調、訓練、筆記本實驗和端點部署。

NVIDIA與Hugging Face為開放機器人社群帶來新模型和框架至LeRobot

2026-07-07 14:00 UTC+8

NVIDIA和Hugging Face合作，將NVIDIA Isaac GR00T 1.7模型和Isaac Teleop框架整合到Hugging Face的開源機器人庫LeRobot中，並計劃引入NVIDIA Cosmos 3。這些整合為開發者提供了更易訪問和標準化的機器人開發路徑，推動開放機器人社群的創新。

NVIDIA和Hugging Face合作，將Isaac GR00T 1.7模型和Isaac Teleop框架引入LeRobot。
LeRobot獲得NVIDIA物理AI能力，包括資料收集、模型訓練和模擬工具。

在任何雲上執行AI工作負載，資料儲存在Hugging Face：SkyPilot實現零出口儲存

2026-07-07 08:00 UTC+8

SkyPilot與Hugging Face合作，允許使用者將模型和資料集儲存在Hugging Face Hub上，並透過SkyPilot在任何雲上執行計算任務，無需支付資料傳輸費用。

透過hf:// URL和HF_TOKEN直接掛載Hugging Face儲存到SkyPilot任務中
支援20多個雲平臺、Kubernetes和本地叢集

LeRobot v0.6.0：想象、評估、改進

2026-07-07 08:00 UTC+8

LeRobot v0.6.0 引入了世界模型策略（VLA-JEPA、FastWAM、LingBot-VA），新一批VLA模型（GR00T N1.7、MolmoAct2等），獎勵模型API（Robometer、TOPReward），六個新模擬基準，以及部署CLI、深度感知、資料集註解加速等功能，旨在閉環機器人學習迴圈。

新增三種世界模型策略，使機器人能夠透過想象未來輔助決策。
整合GR00T N1.7、MolmoAct2等VLA模型，支援微調和部署。

一鍵從 Hugging Face 到 Amazon SageMaker Studio

2026-07-07 06:35 UTC+8

Hugging Face 與 Amazon SageMaker AI 推出深度連結整合，開發者只需一鍵即可從模型發現直接進入 SageMaker Studio 進行實驗。該整合自動配置許可權，顯示 GPU 配額，簡化了模型微調和部署流程。

Hugging Face 模型頁面新增“在 SageMaker AI 上定製”和“在 SageMaker AI 上部署”按鈕，一鍵跳轉至 SageMaker Studio。
新環境自動預配置許可權，無需手動設定 IAM 角色。

IOL-AI 2026挑戰：你的模型能解決語言學奧林匹克問題嗎？

2026-07-07 04:24 UTC+8

IOL-AI 2026挑戰賽在Hugging Face Spaces上釋出，旨在測試AI模型解決語言學奧林匹克題目的能力。這是一個開放性的競賽，鼓勵研究者提交創新的解決方案。

挑戰賽基於語言學奧林匹克問題，評估AI的推理能力。
在Hugging Face Spaces平臺上進行。

PRX 第四部分：我們的資料策略

2026-07-06 23:30 UTC+8

本文詳細介紹了PRX（一個7B文本到影像模型）背後的資料管道。關鍵點包括從公開和內部資料集構建多樣化的預訓練資料集，使用VLM生成長而準確的標題，並利用Lance構建資料集、MDS進行流式處理。團隊解釋了選擇質量92的JPEG編碼、即時計算文本潛在向量以及關於資料碎片化的經驗教訓。

預訓練資料由公開和內部資料集混合組成，並使用VLM重新生成標題以確保一致性。
長而準確的標題至關重要；它們將不完美轉化為可控屬性。

使用Tunix GRPO、LoRA介面卡和GSM8K獎勵訓練Gemma-3進行結構化數學推理

2026-07-06 12:26 UTC+8

本教程構建了一個端到端的GRPO訓練工作流，利用Tunix、JAX、LoRA和自定義獎勵函式，教會Gemma-3解決GSM8K數學問題。內容包括環境準備、Hugging Face認證、模型載入、提示格式設計、獎勵函式定義、LoRA介面卡附加、基線評估以及GRPO訓練。

使用Tunix和JAX實現GRPO訓練，僅更新LoRA介面卡權重，適合單加速器設定。
定義格式獎勵和數學正確性獎勵，為模型提供多重反饋訊號。

🤗 Kernels：重大更新

2026-07-06 08:00 UTC+8

Hugging Face 的 Kernels 專案旨在標準化自定義核心的打包、分發和使用方式。本文總結了近期重大更新：引入新的“核心”倉庫型別以提升可發現性；透過受信任的釋出者和程式碼簽名增強安全性；重構 CLI 以明確職責劃分；擴充套件對 Torch Stable ABI 和 Apache TVM FFI 等框架的支援；為 AI 代理開發核心奠定基礎；以及改進環境配置和相容性檢查工具。

引入新的“核心”倉庫型別，方便使用者按加速器、作業系統和後端版本篩選核心。
安全性提升：預設僅載入受信任釋出者的核心，並增加程式碼簽名功能，使用 Sigstore 的臨時金鑰。

Leanstral 1.5：人人可用的形式化證明工具

2026-07-03 22:18 UTC+8

Leanstral 1.5 是一款免費、Apache-2.0 許可的模型，擁有 119B 總引數和 6B 活躍引數，在形式化驗證方面取得重大突破：在 miniF2F 上達到飽和，解決 PutnamBench 中 587/672 的問題，並在 FATE-H (87%) 和 FATE-X (34%) 上實現最優結果。透過中期訓練、監督微調和基於 CISPO 的強化學習，它在基於代理的證明工程和真實程式碼驗證中表現出色，在 57 個測試倉庫中發現了 5 個先前未知的 bug。該模型完全開源，可透過 Hugging Face 和免費 API 獲取。

Leanstral 1.5 在多個形式化數學基準上達到或接近最優，包括 miniF2F 100% 和 PutnamBench 587/672。
模型在程式碼驗證中展現出強大能力，成功證明 AVL 樹時間複雜度並發現真實倉庫中的漏洞。

高效小型語言模型的Wiola架構

2026-07-03 12:00 UTC+8

Wiola是一種全新的小型語言模型架構，從基本原理設計，與GPT、LLaMA、Mistral或Falcon等現有模型無結構關聯。它引入了五種獨立創新的元件：螺旋旋轉位置編碼（SRPE）、門控跨層注意力（GCLA）、自適應令牌合併（ATM）、雙流前饋（DSFF）和WiolaRMSNorm歸一化。模型提供四種規模（120M、360M、700M和1.5B引數），完全相容HuggingFace Transformers生態系統。

Wiola是完全原創的小型語言模型架構，不基於任何現有模型家族。
包含五種新穎元件：SRPE、GCLA、ATM、DSFF和WiolaRMSNorm。

Hugging Face 與 Cerebras 攜手將 Gemma 4 引入即時語音 AI

2026-07-01 08:00 UTC+8

Hugging Face 與 Cerebras 合作，利用 Gemma 4 模型打造即時語音 AI 系統，透過開放模組化架構顯著降低延遲，實現更自然的對話體驗。該系統整合 Nvidia 的語音識別、Cerebras 的推理加速和 Alibaba 的語音合成，已在 9000 多臺 Reachy Mini 機器人中應用。

Hugging Face 和 Cerebras 推出基於 Gemma 4 的即時語音 AI 演示，延遲極低。
系統採用開放的級聯架構：語音輸入→語音識別→模型推理→語音合成→語音輸出。

揭秘AI應用在預訓練模型中心的安全風險

2026-07-01 03:10 UTC+8

研究人員首次對Hugging Face等平臺上的AI應用進行了系統性安全分析，發現了五大威脅類別和十種攻擊向量，包括訪問控制失效、資源重用不安全、輸入驗證不足和敏感資料洩露。研究覆蓋超過97萬個AI應用，數千個洩露憑證，數百個存在輸入注入漏洞，數十個含有後門。

AI應用平臺如Hugging Face存在嚴重安全風險，包括訪問控制失效和輸入注入等。
研究分析超過97萬個公開AI應用，發現數千個洩露憑證、數百個可遠端執行程式碼的漏洞。

ScarfBench：面向企業Java框架遷移的AI智慧體基準測試

2026-07-01 02:32 UTC+8

IBM Research推出ScarfBench，這是一個用於評估AI智慧體在企業Java中跨框架遷移任務的開源基準。該基準包含34個應用程式、102個框架實現和204個遷移任務。目前頂尖智慧體的行為成功率低於10%，突顯了在遷移過程中保持行為的難度。

ScarfBench評估AI智慧體在Spring、Jakarta EE和Quarkus之間的框架遷移能力，要求構建、部署和行為驗證。
基準包含34個應用程式、約2000個原始檔和測試檔案，以及1331個專家編寫的測試。

專業化為何不可避免

2026-06-30 22:39 UTC+8

本文從最佳化理論、進化生物學、競爭市場和機器學習四個角度論證了專業化是資源有限條件下系統提升效能的必然路徑。作者指出，通用性並非效能優勢，在有限資源下，集中資源於有限任務集比分散到無限範圍更有效。文章還澄清了專業化和領域知識的區別，指出規模擴充套件不會改變這一根本約束。

最佳化理論中的“沒有免費午餐”定理表明，任何演算法都有其適用邊界，專業化是高效能的關鍵。
生物學和市場經濟中，資源有限導致專業化成為生存和發展策略。

將Every Eval Ever結果整合到Hugging Face模型頁面

2026-06-30 08:00 UTC+8

Every Eval Ever (EEE) 與 Hugging Face Community Evals 實現互操作，允許使用者交叉釋出和解讀評估結果，同時連結到開放模型、排行榜和統一的標準化後設資料儲存。

EEE 和 Hugging Face Community Evals 現已相容，支援評估結果的交叉釋出。
EEE 提供統一的 JSON 模式記錄評估細節，包括執行者、模型、設定等。

DiScoFormer：一個用於密度和分數的變換器，跨分佈通用

2026-06-30 02:02 UTC+8

DiScoFormer是一種新型變換器模型，能透過一次前向傳播從資料點估計分佈的密度和分數（對數密度的梯度），無需重新訓練。它結合了跨注意力機制和共享骨幹網路，利用密度與分數的數學關係進行無標籤一致性學習。在100維空間中，其分數誤差比最佳KDE降低約6.5倍，密度誤差降低超過37倍，且能泛化到未見的高斯和非高斯分佈。

DiScoFormer透過堆疊變換器塊，一次前向傳播同時估計密度和分數。
模型利用密度與分數之間的數學關係，透過一致性損失實現無監督適應。

Kog Laneformer 2B：Kog推理引擎背後的延遲優先模型

2026-06-29 16:40 UTC+8

Kog釋出了Laneformer 2B，一個23億引數的指令微調編碼模型，專為高速單請求推理從頭設計。透過將模型架構與推理引擎協同設計，Kog引入了延遲張量並行（DTP）和車道結構Transformer以隱藏通訊開銷。該模型在編碼基準上取得競爭性結果（HumanEval+ 45.1%，MBPP+ 51.6%），現已在Hugging Face上開源。

Laneformer 2B是一個23億引數的編碼模型，最佳化了低延遲推理。
它使用新穎的車道結構架構和延遲張量並行，最小化通訊成本。

在Colab中構建穩定的Fable 5 Traces工作流：解析工具呼叫、審計資料與訓練基線模型

2026-06-28 15:02 UTC+8

本教程詳細介紹如何在Colab中構建圍繞Hugging Face的Fable 5 Traces資料集的工作流。透過手動解析合併的JSONL檔案避免依賴問題，標準化工具呼叫，審計資料結構，檢測機密模式，並訓練純Python的樸素貝葉斯基線模型來預測輸出型別和工具使用。

手動下載並解析JSONL檔案，避免使用脆弱的依賴庫。
開發解析工具函式，從原始輸出中提取工具名稱、引數和文本內容。

從NVIDIA Open-SWE-Traces構建監督微調資料：軌跡解析、補丁分析、Token預算與工具使用指標

2026-06-27 08:02 UTC+8

本教程介紹如何使用NVIDIA的Open-SWE-Traces資料集為智慧體軟體工程軌跡準備監督微調資料。包括從Hugging Face流式載入資料、標準化多輪對話、解析程式碼補丁、構建分析DataFrame，以及根據成功標籤、Token限制、語言過濾和補丁可用性篩選高質量軌跡。

從Hugging Face流式載入Open-SWE-Traces資料集，無需本地下載。
標準化智慧體軌跡，提取角色計數、工具使用和程式碼補丁資訊。

一行命令在 HF Jobs 上執行 vLLM 伺服器

2026-06-26 08:00 UTC+8

本文介紹如何透過一行命令在 Hugging Face 基礎設施上快速啟動一個私有、相容 OpenAI 的 LLM 端點，無需配置伺服器或 Kubernetes，按秒計費。涵蓋從啟動、查詢、清理到擴充套件為大模型、建立聊天 UI、SSH 除錯及作為編碼代理後端的完整流程，並與 Inference Endpoints 進行比較。

使用 hf jobs run 命令結合 vLLM Docker 映象，透過 --expose 8000 暴露埠，即可在 HF Jobs 上執行 vLLM 伺服器。
端點透過 Hugging Face token 進行認證，僅限有讀取許可權的使用者訪問，支援使用 curl 或 OpenAI Python 客戶端查詢。

混合模型在哪些token上預測得更好？

2026-06-26 00:11 UTC+8

Ai2團隊比較了7B引數規模的Transformer模型Olmo 3和混合模型Olmo Hybrid，發現混合模型在內容詞（名詞、動詞、形容詞）和需要上下文推理的token上表現更優，但在重複token和閉合括號上優勢消失。研究表明，基於token的損失過濾可以揭示架構間的細微差異。

混合模型在含義豐富的token（如實詞）上預測更準確，而在重複token上優勢消失。
混合模型使用遞迴層替代部分注意力層，具有固定大小的記憶，適合跟蹤序列變化。

使用NVIDIA NeMo AutoModel加速Transformer微調

2026-06-25 00:00 UTC+8

NVIDIA NeMo AutoModel基於HuggingFace Transformers v5，透過專家並行、DeepEP融合通訊和TransformerEngine核心，將MoE模型微調的訓練吞吐量提升3.4-3.7倍，GPU記憶體減少29-32%，且無需更改API。

NeMo AutoModel繼承AutoModelForCausalLM，僅需更改匯入行即可實現效能提升。
在550B規模模型上，專家並行使全微調在16節點H100叢集上可行，而Transformers v5因記憶體不足無法執行。

使用CUGA構建真實的智慧體應用：輕量級框架上的二十多個工作示例

2026-06-23 20:51 UTC+8

CUGA是IBM開源的智慧體框架，處理了智慧體構建中的管道工作，讓開發者只需編寫工具列表和提示詞即可。本文透過一個IBM雲架構顧問示例，展示瞭如何用少量程式碼構建一個完整的智慧體應用，並介紹了CUGA的規劃、執行、反射步驟和策略系統。

CUGA是一個開源智慧體框架，簡化了智慧體應用的構建過程，開發者只需定義工具和提示。
本文展示了二十多個單檔案應用，其中一個IBM雲顧問示例詳細說明了實現。

在Transformers.js中試驗提出的跨域儲存API

2026-06-23 08:00 UTC+8

本文介紹了跨域儲存（COS）API提案，該API允許Web應用跨域共享大型檔案（如AI模型和Wasm執行時），透過加密雜湊而非URL標識檔案，從而避免重複下載和儲存。文章以Transformers.js為例，展示了當前瀏覽器快取隔離導致的問題，以及COS如何透過雜湊標識、可升級的訪問控制和安全完整性檢查來解決這些問題。

當前瀏覽器快取按源隔離，導致跨域應用重複下載相同的AI模型和Wasm檔案。
跨域儲存（COS）API使用加密雜湊標識檔案，實現跨域共享。

每週釋出huggingface_hub：藉助AI、開源工具和人工稽核

2026-06-23 08:00 UTC+8

Hugging Face團隊透過結合AI和開源工具，將huggingface_hub的釋出週期從4-6周縮短至每週一次，同時保留人工稽核環節以確保質量。該流程基於GitHub Actions、OpenCode和開放權重模型，每次釋出成本僅約0.25美元。

釋出週期從4-6周縮短為每週一次
AI生成釋出說明初稿，但透過確定性指令碼驗證準確性

PP-OCRv6 在 Hugging Face 上：從 1.5M 到 34.5M 引數的 50 種語言 OCR

2026-06-22 21:18 UTC+8

PP-OCRv6 是 PaddleOCR 的最新通用 OCR 模型系列，支援從 1.5M 到 34.5M 引數的三個層級，覆蓋 50 種語言。相比 PP-OCRv5_server，檢測準確率提升 4.6 個百分點，識別準確率提升 5.1 個百分點。新架構包括 PPLCNetV4 骨幹網路、RepLKFPN 檢測模組和 EncoderWithLightSVTR 識別模組。支援 Paddle Inference、Transformers 和 ONNX Runtime 後端。

釋出三個模型層級：tiny（1.5M）、small（7.7M）、medium（34.5M），適配不同部署場景。
支援 50 種語言，包括中、英、日及 46 種拉丁語系語言。

我們讓本地模型免費（*）為OpenClaw倉庫進行問題分類！

2026-06-22 08:00 UTC+8

OpenClaw維護者利用本地開源模型（Gemma、Qwen）在智慧體框架中，即時對問題和拉取請求進行分類，效能媲美閉源模型，僅需硬體電費成本。

本地模型（如Gemma和Qwen）能有效對GitHub問題和PR進行分類，用於問題分派。
系統使用帶有隻讀shell（reposhell）的智慧體框架，安全地檢查程式碼。

Salesforce CodeGen教程：生成、驗證和重排Python函式，附單元測試和安全檢查

2026-06-19 10:44 UTC+8

本教程實現了Salesforce CodeGen的端到端工作流程，從Hugging Face載入模型，超越基礎推理，新增函式提取、語法檢查、靜態安全檢查、單元測試驗證、最佳N候選重排、多步驟程式合成、提示風格實驗，最後視覺化迷你基準並匯出可複用檔案。

從Hugging Face載入Salesforce CodeGen模型並準備程式碼生成環境
實現函式提取、語法驗證、靜態安全檢查和單元測試驗證

MosaicLeaks：你的研究代理能保守秘密嗎？

2026-06-19 02:13 UTC+8

深度研究代理結合私有文件與網頁搜尋時，可能透過查詢日誌無意中洩露敏感資訊。MosaicLeaks基準量化了這種隱私風險，並提出了一種名為隱私感知深度研究（PA-DR）的訓練方法，可以在保持任務效能的同時，將資訊洩露減少3倍以上。

MosaicLeaks引入了一個多跳研究鏈基準，這些鏈交織了私有本地文件和公共網頁查詢，測量了三種洩露程度：意圖、答案和完整資訊。
僅針對任務效能進行訓練會同時提高成功率和洩露率；使用PA-DR訓練可將答案/完整資訊洩露從34.0%降至9.9%，同時保持嚴格鏈條成功率為58.7%。

超越LoRA：你能擊敗最流行的微調技術嗎？

2026-06-18 08:00 UTC+8

LoRA是目前最流行的引數高效微調（PEFT）技術，但研究表明其他方法在某些任務上表現更好。本文介紹了Hugging Face的PEFT庫及其基準測試，探討了如何根據具體需求選擇合適的PEFT技術，並指出LoRA並非總是最佳選擇。

LoRA在PEFT技術中佔主導地位，但可能不是最優選擇。
Hugging Face的PEFT庫提供了統一API和基準測試，幫助使用者選擇合適的PEFT技術。

它足夠智慧體化了嗎？使用自有工具對開源模型進行基準測試

2026-06-18 08:00 UTC+8

一個全新的基準測試框架專注於評估AI智慧體使用軟體庫的整個過程工作量，以Hugging Face的Transformers庫為案例。透過測量令牌使用量、時間、錯誤率等指標，揭示不同模型和工具層級下的效能權衡，為庫維護者和智慧體使用者提供關鍵見解。

標準基準測試僅檢查最終答案，而該框架測量整個過程的令牌成本、時間和錯誤
測試了三種工具層級：裸安裝、克隆原始碼和打包Skill，各有不同的開銷

MolmoMotion：語言引導的3D運動預測

2026-06-17 23:26 UTC+8

MolmoMotion是一種新型3D運動預測模型，能夠根據影片幀、物體上的3D點以及語言指令預測未來幾秒內物體點的3D軌跡。該模型在多個下游任務中表現出色，如機器人規劃和可控影片生成。同時釋出了最大的3D點軌跡資料集MolmoMotion-1M和基準測試PointMotionBench。

MolmoMotion利用語言指令引導3D運動預測，顯著優於現有方法。
模型支援自迴歸和流匹配兩種變體，分別適用於確定性和不確定性場景。

從Hugging Face Hub到機器人硬體：Strands Agents與LeRobot的整合

2026-06-17 18:18 UTC+8

AWS開源SDK Strands Robots整合了LeRobot，允許開發者透過單一Agent工作流從Hub資料集訓練並在模擬或實體機器人上部署策略。本文介紹了五步流程，並提供了可在筆記本上執行的示例。

Strands Robots SDK將LeRobot暴露為可組合的AgentTools，實現從資料集到機器人硬體的端到端控制。
模擬和硬體場景共享相同的DatasetRecorder和LeRobotDataset格式，確保資料集相容。

GLM-5.2：專為長週期任務構建

2026-06-17 17:01 UTC+8

GLM-5.2 是 Z.AI 推出的最新旗艦模型，專為長週期任務設計，擁有穩定的 1M 上下文視窗，在編碼基準測試中表現優異，並引入 IndexShare 架構以降低計算成本，同時提供靈活的努力水平控制。該模型採用 MIT 開源許可證，無區域限制。

GLM-5.2 提供穩定的 1M token 上下文，支援長週期工程任務。
在 FrontierSWE、PostTrainBench 等長週期編碼基準上表現領先，接近封閉源模型。

智慧體資源發現：讓智慧體自己搜尋

2026-06-17 08:00 UTC+8

Agentic Resource Discovery（ARD）規範為AI智慧體提供了一個發現層，使其能夠動態尋找工具、技能和其他智慧體，而無需預安裝配置。Hugging Face 在其 Hub 上實現了參考工具，支援自然語言搜尋。

ARD 定義了跨聯邦登錄檔編目和搜尋智慧體能力的標準。
Hugging Face 的 Discover 工具實現了 ARD，支援對技能、MCP 伺服器和 AI 應用的自然語言搜尋。

開源能打敗OpenAI嗎？

2026-06-16 13:41 UTC+8

在中美AI競賽中，開源與閉源模式的哲學分歧可能決定勝負。中國AI實驗室積極釋出開源模型，而美國巨頭如OpenAI和Anthropic則採用閉源方式。前Hugging Face亞太區負責人王鐵振在Rest of World活動中討論了開源模型的歷史、中國AI實驗室的盈利方式以及模型蒸餾和智慧財產權爭議。

中美AI競賽中，開源與閉源模式對立，中國傾向開源，美國偏好閉源。
開源模型透過API訂閱、基礎設施支援和品牌建設實現盈利。

olmo-eval：面向模型開發迴圈的評估工作臺

2026-06-12 23:56 UTC+8

olmo-eval 是一個新的評估工作臺，旨在支援 LLM 開發過程中持續進行的模型評估。它建立在 OLMES 標準之上，提供靈活的任務定義、可交換的執行時策略以及詳細的逐問題比較功能，幫助開發者判斷每次干預的效果是否顯著。

olmo-eval 針對模型開發中的反覆評估迴圈而設計，支援快速新增基準、跨檢查點執行和細粒度結果分析。
與 Harbor 等工具不同，olmo-eval 提供輕量級和沙箱兩種執行模式，並根據基準需求自動選擇。

PyTorch 效能分析（第2部分）：從 nn.Linear 到融合 MLP

2026-06-11 08:00 UTC+8

本文是 PyTorch 效能分析系列的第二部分，深入探討了 nn.Linear 層的內部機制，包括轉置操作、融合偏置的 epilogue 技術，以及 torch.compile 對單個線性層的影響。隨後，文章剖析了一個包含 GeGLU 啟用的多層感知機（MLP）的效能特徵，展示了 GPU 核心的排程和執行過程。

nn.Linear 透過 epilogue 將偏置加法融合到矩陣乘法核心中，避免額外的記憶體訪問。
torch.compile 對單個 nn.Linear 層無明顯加速，但能消除 CPU 排程開銷。

Cohere 釋出 North Mini Code：專為開發者設計的首個模型

2026-06-09 23:56 UTC+8

Cohere 釋出了 North Mini Code，一個 300 億引數的混合專家模型，擁有 30 億活躍引數，專為代理式軟體工程任務設計。該模型在 Apache 2.0 許可證下開源，並在多項編碼基準測試中表現優異，超越了同類開源模型。

300 億引數 MoE 模型，30 億活躍引數，專注於代理式編碼。
在 Artificial Analysis 編碼指數上得分 33.4，超越多個更大模型。

Hugging Face 上目前最好的免費影像生成器！

2026-06-09 22:00 UTC+8

本文從 Hugging Face 上超過 90,000 個文本到影像模型中精選出七個值得在 2026 年使用的模型，涵蓋 FLUX.1 Schnell、FLUX.1 Dev、FLUX.1 Kontext Dev、Stable Diffusion 3.5 Large、FLUX.2 Dev、Playground v2.5 和 Kolors，並提供了每個模型的許可證、最佳用途和實際權衡。

FLUX.1 Schnell 是唯一一個採用 Apache 2.0 許可證的主流模型，支援商用且生成速度快。
FLUX.1 Kontext Dev 擅長基於文本指令編輯影像，並能在多次迭代中保持身份一致。

多媒體積木塊：用Hugging Face Spaces構建3D巴黎畫廊

2026-06-09 18:46 UTC+8

作者透過一個編碼智慧體，利用兩個Hugging Face Space（影像生成和3D高斯潑濺重建），僅透過文本提示就構建了一個展示巴黎紀念碑的3D網站。整個過程無需影像生成器或3D工具，智慧體透過每個Space的agents.md檔案自動呼叫API並拼接結果。文章闡述了多媒體AI領域的“積木經濟”趨勢——將模型作為可呼叫的獨立元件，由智慧體靈活組合，大幅降低整合門檻。

編碼智慧體透過呼叫兩個Hugging Face Spaces自動生成影像和3D高斯潑濺，構建了巴黎紀念碑3D展示網站。
每個Gradio Space的agents.md檔案為智慧體提供了完整的API呼叫資訊，無需手動整合。

NeuroBait：我微調了一個模型來激發ADHD大腦的多巴胺

2026-06-09 17:04 UTC+8

NeuroBait是一個針對ADHD大腦微調的AI模型，旨在透過提供溫暖、可操作的小步驟來克服任務啟動癱瘓，而不是傳統的待辦事項列表。該專案源於作者的妻子患有ADHD，透過觀察和實踐，利用LoRA在Gemma 3 12B模型上訓練，並部署在Hugging Face Space上。它不僅是ADHD工具，也能幫助任何感到不知所措的人。

NeuroBait透過生成溫暖、流動的文字，提供微小可行的行動，幫助ADHD大腦啟動任務。
專案基於對ADHD患者的真實觀察，而非理論，使用LoRA微調Gemma 3 12B模型。

Hush：面向語音AI代理的開源噪聲抑制工具

2026-06-09 15:39 UTC+8

Hush是Weya AI開發的開源語音增強模型，專門用於語音AI代理，能在CPU上即時隔離主要說話者，抑制背景噪音和競爭人聲，延遲低於1毫秒。模型僅8MB，基於Apache 2.0許可開源，已在Hugging Face音訊排行榜位列第五。

即時隔離主要說話者，去除背景噪音和競爭語音，延遲低於1毫秒。
CPU執行，無需GPU，模型僅8MB，適合即時語音流水線。