一行命令在 HF Jobs 上運行 vLLM 服務器 2026-06-26 08:00 UTC+8 本文介紹如何通過一行命令在 Hugging Face 基礎設施上快速啓動一個私有、兼容 OpenAI 的 LLM 端點,無需配置服務器或 Kubernetes,按秒計費。涵蓋從啓動、查詢、清理到擴展為大模型、創建聊天 UI、SSH 調試及作為編碼代理後端的完整流程,並與 Inference Endpoints 進行比較。
使用 hf jobs run 命令結合 vLLM Docker 鏡像,通過 --expose 8000 暴露端口,即可在 HF Jobs 上運行 vLLM 服務器。 端點通過 Hugging Face token 進行認證,僅限有讀取權限的用户訪問,支持使用 curl 或 OpenAI Python 客户端查詢。 混合模型在哪些token上預測得更好? 2026-06-26 00:11 UTC+8 Ai2團隊比較了7B參數規模的Transformer模型Olmo 3和混合模型Olmo Hybrid,發現混合模型在內容詞(名詞、動詞、形容詞)和需要上下文推理的token上表現更優,但在重複token和閉合括號上優勢消失。研究表明,基於token的損失過濾可以揭示架構間的細微差異。
混合模型在含義豐富的token(如實詞)上預測更準確,而在重複token上優勢消失。 混合模型使用遞歸層替代部分注意力層,具有固定大小的記憶,適合跟蹤序列變化。 使用NVIDIA NeMo AutoModel加速Transformer微調 2026-06-25 00:00 UTC+8 NVIDIA NeMo AutoModel基於HuggingFace Transformers v5,通過專家並行、DeepEP融合通信和TransformerEngine內核,將MoE模型微調的訓練吞吐量提升3.4-3.7倍,GPU內存減少29-32%,且無需更改API。
NeMo AutoModel繼承AutoModelForCausalLM,僅需更改導入行即可實現性能提升。 在550B規模模型上,專家並行使全微調在16節點H100集羣上可行,而Transformers v5因內存不足無法運行。 使用CUGA構建真實的智能體應用:輕量級框架上的二十多個工作示例 2026-06-23 20:51 UTC+8 CUGA是IBM開源的智能體框架,處理了智能體構建中的管道工作,讓開發者只需編寫工具列表和提示詞即可。本文通過一個IBM雲架構顧問示例,展示瞭如何用少量代碼構建一個完整的智能體應用,並介紹了CUGA的規劃、執行、反射步驟和策略系統。
CUGA是一個開源智能體框架,簡化了智能體應用的構建過程,開發者只需定義工具和提示。 本文展示了二十多個單文件應用,其中一個IBM雲顧問示例詳細説明了實現。 在Transformers.js中試驗提出的跨域存儲API 2026-06-23 08:00 UTC+8 本文介紹了跨域存儲(COS)API提案,該API允許Web應用跨域共享大型文件(如AI模型和Wasm運行時),通過加密哈希而非URL標識文件,從而避免重複下載和存儲。文章以Transformers.js為例,展示了當前瀏覽器緩存隔離導致的問題,以及COS如何通過哈希標識、可升級的訪問控制和安全完整性檢查來解決這些問題。
當前瀏覽器緩存按源隔離,導致跨域應用重複下載相同的AI模型和Wasm文件。 跨域存儲(COS)API使用加密哈希標識文件,實現跨域共享。 每週發佈huggingface_hub:藉助AI、開源工具和人工審核 2026-06-23 08:00 UTC+8 Hugging Face團隊通過結合AI和開源工具,將huggingface_hub的發佈週期從4-6周縮短至每週一次,同時保留人工審核環節以確保質量。該流程基於GitHub Actions、OpenCode和開放權重模型,每次發佈成本僅約0.25美元。
發佈週期從4-6周縮短為每週一次 AI生成發佈説明初稿,但通過確定性腳本驗證準確性 PP-OCRv6 在 Hugging Face 上:從 1.5M 到 34.5M 參數的 50 種語言 OCR 2026-06-22 21:18 UTC+8 PP-OCRv6 是 PaddleOCR 的最新通用 OCR 模型系列,支持從 1.5M 到 34.5M 參數的三個層級,覆蓋 50 種語言。相比 PP-OCRv5_server,檢測準確率提升 4.6 個百分點,識別準確率提升 5.1 個百分點。新架構包括 PPLCNetV4 骨幹網絡、RepLKFPN 檢測模塊和 EncoderWithLightSVTR 識別模塊。支持 Paddle Inference、Transformers 和 ONNX Runtime 後端。
發佈三個模型層級:tiny(1.5M)、small(7.7M)、medium(34.5M),適配不同部署場景。 支持 50 種語言,包括中、英、日及 46 種拉丁語系語言。 我們讓本地模型免費(*)為OpenClaw倉庫進行問題分類! 2026-06-22 08:00 UTC+8 OpenClaw維護者利用本地開源模型(Gemma、Qwen)在智能體框架中,實時對問題和拉取請求進行分類,性能媲美閉源模型,僅需硬件電費成本。
本地模型(如Gemma和Qwen)能有效對GitHub問題和PR進行分類,用於問題分派。 系統使用帶有隻讀shell(reposhell)的智能體框架,安全地檢查代碼。 MosaicLeaks:你的研究代理能保守秘密嗎? 2026-06-19 02:13 UTC+8 深度研究代理結合私有文檔與網頁搜索時,可能通過查詢日誌無意中泄露敏感信息。MosaicLeaks基準量化了這種隱私風險,並提出了一種名為隱私感知深度研究(PA-DR)的訓練方法,可以在保持任務性能的同時,將信息泄露減少3倍以上。
MosaicLeaks引入了一個多跳研究鏈基準,這些鏈交織了私有本地文檔和公共網頁查詢,測量了三種泄露程度:意圖、答案和完整信息。 僅針對任務性能進行訓練會同時提高成功率和泄露率;使用PA-DR訓練可將答案/完整信息泄露從34.0%降至9.9%,同時保持嚴格鏈條成功率為58.7%。 超越LoRA:你能擊敗最流行的微調技術嗎? 2026-06-18 08:00 UTC+8 LoRA是目前最流行的參數高效微調(PEFT)技術,但研究表明其他方法在某些任務上表現更好。本文介紹了Hugging Face的PEFT庫及其基準測試,探討了如何根據具體需求選擇合適的PEFT技術,並指出LoRA並非總是最佳選擇。
LoRA在PEFT技術中佔主導地位,但可能不是最優選擇。 Hugging Face的PEFT庫提供了統一API和基準測試,幫助用户選擇合適的PEFT技術。 它足夠智能體化了嗎?使用自有工具對開源模型進行基準測試 2026-06-18 08:00 UTC+8 一個全新的基準測試框架專注於評估AI智能體使用軟件庫的整個過程工作量,以Hugging Face的Transformers庫為案例。通過測量令牌使用量、時間、錯誤率等指標,揭示不同模型和工具層級下的性能權衡,為庫維護者和智能體用户提供關鍵見解。
標準基準測試僅檢查最終答案,而該框架測量整個過程的令牌成本、時間和錯誤 測試了三種工具層級:裸安裝、克隆源碼和打包Skill,各有不同的開銷 MolmoMotion:語言引導的3D運動預測 2026-06-17 23:26 UTC+8 MolmoMotion是一種新型3D運動預測模型,能夠根據視頻幀、物體上的3D點以及語言指令預測未來幾秒內物體點的3D軌跡。該模型在多個下游任務中表現出色,如機器人規劃和可控視頻生成。同時發佈了最大的3D點軌跡數據集MolmoMotion-1M和基準測試PointMotionBench。
MolmoMotion利用語言指令引導3D運動預測,顯著優於現有方法。 模型支持自迴歸和流匹配兩種變體,分別適用於確定性和不確定性場景。 從Hugging Face Hub到機器人硬件:Strands Agents與LeRobot的集成 2026-06-17 18:18 UTC+8 AWS開源SDK Strands Robots集成了LeRobot,允許開發者通過單一Agent工作流從Hub數據集訓練並在模擬或實體機器人上部署策略。本文介紹了五步流程,並提供了可在筆記本上運行的示例。
Strands Robots SDK將LeRobot暴露為可組合的AgentTools,實現從數據集到機器人硬件的端到端控制。 模擬和硬件場景共享相同的DatasetRecorder和LeRobotDataset格式,確保數據集兼容。 GLM-5.2:專為長週期任務構建 2026-06-17 17:01 UTC+8 GLM-5.2 是 Z.AI 推出的最新旗艦模型,專為長週期任務設計,擁有穩定的 1M 上下文窗口,在編碼基準測試中表現優異,並引入 IndexShare 架構以降低計算成本,同時提供靈活的努力水平控制。該模型採用 MIT 開源許可證,無區域限制。
GLM-5.2 提供穩定的 1M token 上下文,支持長週期工程任務。 在 FrontierSWE、PostTrainBench 等長週期編碼基準上表現領先,接近封閉源模型。 智能體資源發現:讓智能體自己搜索 2026-06-17 08:00 UTC+8 Agentic Resource Discovery(ARD)規範為AI智能體提供了一個發現層,使其能夠動態尋找工具、技能和其他智能體,而無需預安裝配置。Hugging Face 在其 Hub 上實現了參考工具,支持自然語言搜索。
ARD 定義了跨聯邦註冊表編目和搜索智能體能力的標準。 Hugging Face 的 Discover 工具實現了 ARD,支持對技能、MCP 服務器和 AI 應用的自然語言搜索。 olmo-eval:面向模型開發循環的評估工作台 2026-06-12 23:56 UTC+8 olmo-eval 是一個新的評估工作台,旨在支持 LLM 開發過程中持續進行的模型評估。它建立在 OLMES 標準之上,提供靈活的任務定義、可交換的運行時策略以及詳細的逐問題比較功能,幫助開發者判斷每次干預的效果是否顯著。
olmo-eval 針對模型開發中的反覆評估循環而設計,支持快速添加基準、跨檢查點運行和細粒度結果分析。 與 Harbor 等工具不同,olmo-eval 提供輕量級和沙箱兩種運行模式,並根據基準需求自動選擇。 PyTorch 性能分析(第2部分):從 nn.Linear 到融合 MLP 2026-06-11 08:00 UTC+8 本文是 PyTorch 性能分析系列的第二部分,深入探討了 nn.Linear 層的內部機制,包括轉置操作、融合偏置的 epilogue 技術,以及 torch.compile 對單個線性層的影響。隨後,文章剖析了一個包含 GeGLU 激活的多層感知機(MLP)的性能特徵,展示了 GPU 內核的調度和執行過程。
nn.Linear 通過 epilogue 將偏置加法融合到矩陣乘法內核中,避免額外的內存訪問。 torch.compile 對單個 nn.Linear 層無明顯加速,但能消除 CPU 調度開銷。 Cohere 發佈 North Mini Code:專為開發者設計的首個模型 2026-06-09 23:56 UTC+8 Cohere 發佈了 North Mini Code,一個 300 億參數的混合專家模型,擁有 30 億活躍參數,專為代理式軟件工程任務設計。該模型在 Apache 2.0 許可證下開源,並在多項編碼基準測試中表現優異,超越了同類開源模型。
300 億參數 MoE 模型,30 億活躍參數,專注於代理式編碼。 在 Artificial Analysis 編碼指數上得分 33.4,超越多個更大模型。 多媒體積木塊:用Hugging Face Spaces構建3D巴黎畫廊 2026-06-09 18:46 UTC+8 作者通過一個編碼智能體,利用兩個Hugging Face Space(圖像生成和3D高斯潑濺重建),僅通過文本提示就構建了一個展示巴黎紀念碑的3D網站。整個過程無需圖像生成器或3D工具,智能體通過每個Space的agents.md文件自動調用API並拼接結果。文章闡述了多媒體AI領域的“積木經濟”趨勢——將模型作為可調用的獨立組件,由智能體靈活組合,大幅降低集成門檻。
編碼智能體通過調用兩個Hugging Face Spaces自動生成圖像和3D高斯潑濺,構建了巴黎紀念碑3D展示網站。 每個Gradio Space的agents.md文件為智能體提供了完整的API調用信息,無需手動集成。 NeuroBait:我微調了一個模型來激發ADHD大腦的多巴胺 2026-06-09 17:04 UTC+8 NeuroBait是一個針對ADHD大腦微調的AI模型,旨在通過提供温暖、可操作的小步驟來克服任務啓動癱瘓,而不是傳統的待辦事項列表。該項目源於作者的妻子患有ADHD,通過觀察和實踐,利用LoRA在Gemma 3 12B模型上訓練,並部署在Hugging Face Space上。它不僅是ADHD工具,也能幫助任何感到不知所措的人。
NeuroBait通過生成温暖、流動的文字,提供微小可行的行動,幫助ADHD大腦啓動任務。 項目基於對ADHD患者的真實觀察,而非理論,使用LoRA微調Gemma 3 12B模型。 將你的 GitHub CI 遷移到 Hugging Face Jobs 2026-06-09 08:00 UTC+8 本文詳細介紹瞭如何將 GitHub Actions CI 遷移到 Hugging Face Jobs,以解決 GitHub 託管的 runner 速度慢、無 GPU 等問題。通過創建調度器 Space、GitHub App 以及修改 runs-on 標籤,即可讓 CI 作業在 Hugging Face 基礎設施上運行,支持 CPU 和 GPU 硬件,並實時流式傳輸日誌。Trackio 的實踐表明,CPU 任務時間可縮短約 30%。
GitHub Actions 默認運行在通用機器上,速度慢且不支持 GPU。 使用 Hugging Face Jobs 作為 CI runner,可靈活選擇硬件(如 CPU、T4、H200)。 消失的崩盤:五模型經濟中的控制與湧現 2026-06-08 21:10 UTC+8 作者在構建小型AI代理經濟模擬時發現,原本單一模型下會發生的市場崩盤,在換成五個不同實驗室的小模型後消失了。通過多次嘗試,作者意識到不能通過機械衝擊來控制異質代理羣體的行為,而應在結算環節施加確定性覆蓋來獲得可靠結果。
單一模型下銀行擠兑導致蜂蜜價格崩潰,但換成五個不同的小模型後,代理選擇囤積而非拋售。 通過外部衝擊(如謠言、庫存過剩)無法迫使異質代理羣體拋售,每次嘗試均告失敗。 構建巴基斯坦通知助手:一款針對本地安全問題的簡易AI工具 2026-06-08 19:46 UTC+8 作者為Hugging Face的Build Small黑客馬拉松開發了一款專注於巴基斯坦本地安全問題的AI工具——巴基斯坦通知助手。該工具使用小模型(Qwen3.5 4B)分析可疑消息,提供風險標籤、解釋和下一步安全建議,支持英文和烏爾都語(包括從右到左的佈局)。文章詳細分享了模型選型、技術棧、用户界面設計以及使用Codex加速開發的經驗。
巴基斯坦通知助手是一款針對巴基斯坦本地詐騙消息的AI安全工具,支持文本和截圖分析。 最終採用Qwen3.5 4B Q8模型(通過llama.cpp),在評估中所有高風險詐騙案例和截圖案例均通過。 開源社區支持OpenEnv用於智能體強化學習 2026-06-08 08:00 UTC+8 OpenEnv是一個用於創建智能體執行環境(如終端、瀏覽器等)的開源工具。今天,我們宣佈OpenEnv將變得更加開放,由一個包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face在內的委員會協調。該項目旨在為開放源代碼的智能體訓練提供通用基礎設施,並專注於作為互操作性層,而不是定義獎勵或訓練循環。
OpenEnv是一個用於創建智能體執行環境的開源工具 現在由Meta-PyTorch、Reflection、Unsloth等主要AI組織組成的委員會治理 Mythograph Atelier #1 - 對你有意義的抽象藝術 2026-06-08 03:10 UTC+8 本文作者介紹了Mythograph Atelier的靈感來源,這是一個創建個性化抽象畫的AI藝術工作室。靈感結合了博物館參觀的觸動、對動態AI原生應用的願景,以及一個好奇的AI概念——它在生成藝術之前通過提問來理解用户。
Mythograph Atelier是一個AI藝術工作室,旨在創建具有個人意義的抽象畫。 AI通過提問了解用户的品味和情感,然後生成藝術。 贊助商特別關注:OpenAI Codex 憑證在 Codex — OpenAI 挑戰賽中的使用 2026-06-07 19:38 UTC+8 在Hugging Face舉辦的“Build Small”黑客馬拉松中,參與者面臨激活OpenAI Codex和Modal憑證的困難,特別是Codex憑證的激活方法不明確。文章詳細介紹了OpenAI Codex Track的獎項設置和參與要求,同時反映了社區在技術支持和文檔方面的需求。
參與者發現無法在系統中輸入Codex憑證密鑰,導致激活失敗。 Modal憑證在第二次嘗試後成功激活,但初始被拒絕。 Her · हेर — Claude Code 會話的偵探 2026-06-07 18:13 UTC+8 Her 是一款用於分析 Claude Code 會話追蹤文件的工具,能夠用自然語言重構會話過程,標記風險操作(如部署、配置更改、密鑰泄露),並顯示令牌消耗和工具使用情況。它完全在本地運行,無需第三方 AI API,並內置了“問她”助手,可基於追蹤文件回答問題。
Her 可解讀 Claude Code 的 .jsonl 會話文件,用自然語言總結事件並標記風險。 所有處理在本地 GPU 上完成,不上傳第三方 API,確保隱私。 五個實驗室,五個思維:用小型模型構建多模型金融戲劇 2026-06-07 03:02 UTC+8 本文介紹了《千令牌之林》v2版本,這是一個基於多個小型語言模型的多智能體經濟模擬遊戲。玩家扮演隱匿的金融家,通過借貸、提供內幕消息(真假皆有)、做空和賄賂來影響市場,而每個智能體(動物角色)使用來自不同實驗室的小型模型(GPT-OSS-20B、MiniCPM3-4B、Nemotron-Mini-4B和微調Qwen 0.5B)。文章詳細討論了異構模型集成的技術挑戰(如vLLM服務層、CUDA工具鏈)、信息不對稱的防火牆設計、記憶管理(採用有界摘要而非完整歷史)以及實驗結果(真相防火牆零泄露、內幕消息優勢、微調模型高可靠性)。最終結論是:小型模型是可靠的格式生成器但推理不可靠,異構模型羣體更有趣且配置成本低,秘密信息必須通過數據流防火牆保護,持久記憶需有界以保持模型專注。
每個智能體使用不同實驗室的小型模型,異構性使市場行為更真實 信息不對稱通過防火牆設計實現,測試證明內幕消息的隱藏標誌從未泄露 職位搜索器:AI驅動的求職助手 2026-06-06 23:36 UTC+8 職位搜索器是一款為應屆畢業生設計的AI工具,通過分析簡歷自動生成LinkedIn搜索查詢,並基於技能、經驗、教育、行業和資歷五個維度對職位進行評分。該項目使用DeepSeek V4 Pro作為教師模型生成標籤,Qwen3-8B作為學生模型進行推理,訓練數據包括2500份簡歷和約10000個職位。所有代碼、數據集和模型均已開源。
自動簡歷分析並生成LinkedIn搜索查詢 基於五個維度的職位匹配評分 人物圖譜:繪製著名思維的地圖 2026-06-06 19:42 UTC+8 Persona Atlas 通過 AI 代理從公開網絡收集信息,為公眾人物構建可度量的行為畫像。它將十道開放問題的答案轉化為嵌入向量,允許用户直觀比較不同人物的思維風格——如幽默、懷疑或抽象——而無需依賴客觀成績。該項目使用小型模型,強調風格而非能力,是“構建小型”黑客馬拉松的產物。
輸入人名,AI 代理自動研究並構建人物檔案。 基於十道開放問題的回答生成嵌入,實現人物間的量化比較。