Hugging Face Blog AI 新闻来源

公开文章 73采集文章 78可信度 90刷新频率 5 分钟

健康状态健康来源类型官方原文权限 官方原文最近入库 2026-06-25ID huggingface-blog运行状态 已启用

Official source; confirm license per article before full body display.

最新公开文章

一行命令在 HF Jobs 上运行 vLLM 服务器

2026-06-26 08:00 UTC+8

本文介绍如何通过一行命令在 Hugging Face 基础设施上快速启动一个私有、兼容 OpenAI 的 LLM 端点，无需配置服务器或 Kubernetes，按秒计费。涵盖从启动、查询、清理到扩展为大模型、创建聊天 UI、SSH 调试及作为编码代理后端的完整流程，并与 Inference Endpoints 进行比较。

使用 hf jobs run 命令结合 vLLM Docker 镜像，通过 --expose 8000 暴露端口，即可在 HF Jobs 上运行 vLLM 服务器。
端点通过 Hugging Face token 进行认证，仅限有读取权限的用户访问，支持使用 curl 或 OpenAI Python 客户端查询。

混合模型在哪些token上预测得更好？

2026-06-26 00:11 UTC+8

Ai2团队比较了7B参数规模的Transformer模型Olmo 3和混合模型Olmo Hybrid，发现混合模型在内容词（名词、动词、形容词）和需要上下文推理的token上表现更优，但在重复token和闭合括号上优势消失。研究表明，基于token的损失过滤可以揭示架构间的细微差异。

混合模型在含义丰富的token（如实词）上预测更准确，而在重复token上优势消失。
混合模型使用递归层替代部分注意力层，具有固定大小的记忆，适合跟踪序列变化。

使用NVIDIA NeMo AutoModel加速Transformer微调

2026-06-25 00:00 UTC+8

NVIDIA NeMo AutoModel基于HuggingFace Transformers v5，通过专家并行、DeepEP融合通信和TransformerEngine内核，将MoE模型微调的训练吞吐量提升3.4-3.7倍，GPU内存减少29-32%，且无需更改API。

NeMo AutoModel继承AutoModelForCausalLM，仅需更改导入行即可实现性能提升。
在550B规模模型上，专家并行使全微调在16节点H100集群上可行，而Transformers v5因内存不足无法运行。

使用CUGA构建真实的智能体应用：轻量级框架上的二十多个工作示例

2026-06-23 20:51 UTC+8

CUGA是IBM开源的智能体框架，处理了智能体构建中的管道工作，让开发者只需编写工具列表和提示词即可。本文通过一个IBM云架构顾问示例，展示了如何用少量代码构建一个完整的智能体应用，并介绍了CUGA的规划、执行、反射步骤和策略系统。

CUGA是一个开源智能体框架，简化了智能体应用的构建过程，开发者只需定义工具和提示。
本文展示了二十多个单文件应用，其中一个IBM云顾问示例详细说明了实现。

在Transformers.js中试验提出的跨域存储API

2026-06-23 08:00 UTC+8

本文介绍了跨域存储（COS）API提案，该API允许Web应用跨域共享大型文件（如AI模型和Wasm运行时），通过加密哈希而非URL标识文件，从而避免重复下载和存储。文章以Transformers.js为例，展示了当前浏览器缓存隔离导致的问题，以及COS如何通过哈希标识、可升级的访问控制和安全完整性检查来解决这些问题。

当前浏览器缓存按源隔离，导致跨域应用重复下载相同的AI模型和Wasm文件。
跨域存储（COS）API使用加密哈希标识文件，实现跨域共享。

每周发布huggingface_hub：借助AI、开源工具和人工审核

2026-06-23 08:00 UTC+8

Hugging Face团队通过结合AI和开源工具，将huggingface_hub的发布周期从4-6周缩短至每周一次，同时保留人工审核环节以确保质量。该流程基于GitHub Actions、OpenCode和开放权重模型，每次发布成本仅约0.25美元。

发布周期从4-6周缩短为每周一次
AI生成发布说明初稿，但通过确定性脚本验证准确性

PP-OCRv6 在 Hugging Face 上：从 1.5M 到 34.5M 参数的 50 种语言 OCR

2026-06-22 21:18 UTC+8

PP-OCRv6 是 PaddleOCR 的最新通用 OCR 模型系列，支持从 1.5M 到 34.5M 参数的三个层级，覆盖 50 种语言。相比 PP-OCRv5_server，检测准确率提升 4.6 个百分点，识别准确率提升 5.1 个百分点。新架构包括 PPLCNetV4 骨干网络、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块。支持 Paddle Inference、Transformers 和 ONNX Runtime 后端。

发布三个模型层级：tiny（1.5M）、small（7.7M）、medium（34.5M），适配不同部署场景。
支持 50 种语言，包括中、英、日及 46 种拉丁语系语言。

我们让本地模型免费（*）为OpenClaw仓库进行问题分类！

2026-06-22 08:00 UTC+8

OpenClaw维护者利用本地开源模型（Gemma、Qwen）在智能体框架中，实时对问题和拉取请求进行分类，性能媲美闭源模型，仅需硬件电费成本。

本地模型（如Gemma和Qwen）能有效对GitHub问题和PR进行分类，用于问题分派。
系统使用带有只读shell（reposhell）的智能体框架，安全地检查代码。

MosaicLeaks：你的研究代理能保守秘密吗？

2026-06-19 02:13 UTC+8

深度研究代理结合私有文档与网页搜索时，可能通过查询日志无意中泄露敏感信息。MosaicLeaks基准量化了这种隐私风险，并提出了一种名为隐私感知深度研究（PA-DR）的训练方法，可以在保持任务性能的同时，将信息泄露减少3倍以上。

MosaicLeaks引入了一个多跳研究链基准，这些链交织了私有本地文档和公共网页查询，测量了三种泄露程度：意图、答案和完整信息。
仅针对任务性能进行训练会同时提高成功率和泄露率；使用PA-DR训练可将答案/完整信息泄露从34.0%降至9.9%，同时保持严格链条成功率为58.7%。

超越LoRA：你能击败最流行的微调技术吗？

2026-06-18 08:00 UTC+8

LoRA是目前最流行的参数高效微调（PEFT）技术，但研究表明其他方法在某些任务上表现更好。本文介绍了Hugging Face的PEFT库及其基准测试，探讨了如何根据具体需求选择合适的PEFT技术，并指出LoRA并非总是最佳选择。

LoRA在PEFT技术中占主导地位，但可能不是最优选择。
Hugging Face的PEFT库提供了统一API和基准测试，帮助用户选择合适的PEFT技术。

它足够智能体化了吗？使用自有工具对开源模型进行基准测试

2026-06-18 08:00 UTC+8

一个全新的基准测试框架专注于评估AI智能体使用软件库的整个过程工作量，以Hugging Face的Transformers库为案例。通过测量令牌使用量、时间、错误率等指标，揭示不同模型和工具层级下的性能权衡，为库维护者和智能体用户提供关键见解。

标准基准测试仅检查最终答案，而该框架测量整个过程的令牌成本、时间和错误
测试了三种工具层级：裸安装、克隆源码和打包Skill，各有不同的开销

MolmoMotion：语言引导的3D运动预测

2026-06-17 23:26 UTC+8

MolmoMotion是一种新型3D运动预测模型，能够根据视频帧、物体上的3D点以及语言指令预测未来几秒内物体点的3D轨迹。该模型在多个下游任务中表现出色，如机器人规划和可控视频生成。同时发布了最大的3D点轨迹数据集MolmoMotion-1M和基准测试PointMotionBench。

MolmoMotion利用语言指令引导3D运动预测，显著优于现有方法。
模型支持自回归和流匹配两种变体，分别适用于确定性和不确定性场景。

从Hugging Face Hub到机器人硬件：Strands Agents与LeRobot的集成

2026-06-17 18:18 UTC+8

AWS开源SDK Strands Robots集成了LeRobot，允许开发者通过单一Agent工作流从Hub数据集训练并在模拟或实体机器人上部署策略。本文介绍了五步流程，并提供了可在笔记本上运行的示例。

Strands Robots SDK将LeRobot暴露为可组合的AgentTools，实现从数据集到机器人硬件的端到端控制。
模拟和硬件场景共享相同的DatasetRecorder和LeRobotDataset格式，确保数据集兼容。

GLM-5.2：专为长周期任务构建

2026-06-17 17:01 UTC+8

GLM-5.2 是 Z.AI 推出的最新旗舰模型，专为长周期任务设计，拥有稳定的 1M 上下文窗口，在编码基准测试中表现优异，并引入 IndexShare 架构以降低计算成本，同时提供灵活的努力水平控制。该模型采用 MIT 开源许可证，无区域限制。

GLM-5.2 提供稳定的 1M token 上下文，支持长周期工程任务。
在 FrontierSWE、PostTrainBench 等长周期编码基准上表现领先，接近封闭源模型。

智能体资源发现：让智能体自己搜索

2026-06-17 08:00 UTC+8

Agentic Resource Discovery（ARD）规范为AI智能体提供了一个发现层，使其能够动态寻找工具、技能和其他智能体，而无需预安装配置。Hugging Face 在其 Hub 上实现了参考工具，支持自然语言搜索。

ARD 定义了跨联邦注册表编目和搜索智能体能力的标准。
Hugging Face 的 Discover 工具实现了 ARD，支持对技能、MCP 服务器和 AI 应用的自然语言搜索。

olmo-eval：面向模型开发循环的评估工作台

2026-06-12 23:56 UTC+8

olmo-eval 是一个新的评估工作台，旨在支持 LLM 开发过程中持续进行的模型评估。它建立在 OLMES 标准之上，提供灵活的任务定义、可交换的运行时策略以及详细的逐问题比较功能，帮助开发者判断每次干预的效果是否显著。

olmo-eval 针对模型开发中的反复评估循环而设计，支持快速添加基准、跨检查点运行和细粒度结果分析。
与 Harbor 等工具不同，olmo-eval 提供轻量级和沙箱两种运行模式，并根据基准需求自动选择。

PyTorch 性能分析（第2部分）：从 nn.Linear 到融合 MLP

2026-06-11 08:00 UTC+8

本文是 PyTorch 性能分析系列的第二部分，深入探讨了 nn.Linear 层的内部机制，包括转置操作、融合偏置的 epilogue 技术，以及 torch.compile 对单个线性层的影响。随后，文章剖析了一个包含 GeGLU 激活的多层感知机（MLP）的性能特征，展示了 GPU 内核的调度和执行过程。

nn.Linear 通过 epilogue 将偏置加法融合到矩阵乘法内核中，避免额外的内存访问。
torch.compile 对单个 nn.Linear 层无明显加速，但能消除 CPU 调度开销。

Cohere 发布 North Mini Code：专为开发者设计的首个模型

2026-06-09 23:56 UTC+8

Cohere 发布了 North Mini Code，一个 300 亿参数的混合专家模型，拥有 30 亿活跃参数，专为代理式软件工程任务设计。该模型在 Apache 2.0 许可证下开源，并在多项编码基准测试中表现优异，超越了同类开源模型。

300 亿参数 MoE 模型，30 亿活跃参数，专注于代理式编码。
在 Artificial Analysis 编码指数上得分 33.4，超越多个更大模型。

多媒体积木块：用Hugging Face Spaces构建3D巴黎画廊

2026-06-09 18:46 UTC+8

作者通过一个编码智能体，利用两个Hugging Face Space（图像生成和3D高斯泼溅重建），仅通过文本提示就构建了一个展示巴黎纪念碑的3D网站。整个过程无需图像生成器或3D工具，智能体通过每个Space的agents.md文件自动调用API并拼接结果。文章阐述了多媒体AI领域的“积木经济”趋势——将模型作为可调用的独立组件，由智能体灵活组合，大幅降低集成门槛。

编码智能体通过调用两个Hugging Face Spaces自动生成图像和3D高斯泼溅，构建了巴黎纪念碑3D展示网站。
每个Gradio Space的agents.md文件为智能体提供了完整的API调用信息，无需手动集成。

NeuroBait：我微调了一个模型来激发ADHD大脑的多巴胺

2026-06-09 17:04 UTC+8

NeuroBait是一个针对ADHD大脑微调的AI模型，旨在通过提供温暖、可操作的小步骤来克服任务启动瘫痪，而不是传统的待办事项列表。该项目源于作者的妻子患有ADHD，通过观察和实践，利用LoRA在Gemma 3 12B模型上训练，并部署在Hugging Face Space上。它不仅是ADHD工具，也能帮助任何感到不知所措的人。

NeuroBait通过生成温暖、流动的文字，提供微小可行的行动，帮助ADHD大脑启动任务。
项目基于对ADHD患者的真实观察，而非理论，使用LoRA微调Gemma 3 12B模型。

将你的 GitHub CI 迁移到 Hugging Face Jobs

2026-06-09 08:00 UTC+8

本文详细介绍了如何将 GitHub Actions CI 迁移到 Hugging Face Jobs，以解决 GitHub 托管的 runner 速度慢、无 GPU 等问题。通过创建调度器 Space、GitHub App 以及修改 runs-on 标签，即可让 CI 作业在 Hugging Face 基础设施上运行，支持 CPU 和 GPU 硬件，并实时流式传输日志。Trackio 的实践表明，CPU 任务时间可缩短约 30%。

GitHub Actions 默认运行在通用机器上，速度慢且不支持 GPU。
使用 Hugging Face Jobs 作为 CI runner，可灵活选择硬件（如 CPU、T4、H200）。

消失的崩盘：五模型经济中的控制与涌现

2026-06-08 21:10 UTC+8

作者在构建小型AI代理经济模拟时发现，原本单一模型下会发生的市场崩盘，在换成五个不同实验室的小模型后消失了。通过多次尝试，作者意识到不能通过机械冲击来控制异质代理群体的行为，而应在结算环节施加确定性覆盖来获得可靠结果。

单一模型下银行挤兑导致蜂蜜价格崩溃，但换成五个不同的小模型后，代理选择囤积而非抛售。
通过外部冲击（如谣言、库存过剩）无法迫使异质代理群体抛售，每次尝试均告失败。

构建巴基斯坦通知助手：一款针对本地安全问题的简易AI工具

2026-06-08 19:46 UTC+8

作者为Hugging Face的Build Small黑客马拉松开发了一款专注于巴基斯坦本地安全问题的AI工具——巴基斯坦通知助手。该工具使用小模型（Qwen3.5 4B）分析可疑消息，提供风险标签、解释和下一步安全建议，支持英文和乌尔都语（包括从右到左的布局）。文章详细分享了模型选型、技术栈、用户界面设计以及使用Codex加速开发的经验。

巴基斯坦通知助手是一款针对巴基斯坦本地诈骗消息的AI安全工具，支持文本和截图分析。
最终采用Qwen3.5 4B Q8模型（通过llama.cpp），在评估中所有高风险诈骗案例和截图案例均通过。

开源社区支持OpenEnv用于智能体强化学习

2026-06-08 08:00 UTC+8

OpenEnv是一个用于创建智能体执行环境（如终端、浏览器等）的开源工具。今天，我们宣布OpenEnv将变得更加开放，由一个包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face在内的委员会协调。该项目旨在为开放源代码的智能体训练提供通用基础设施，并专注于作为互操作性层，而不是定义奖励或训练循环。

OpenEnv是一个用于创建智能体执行环境的开源工具
现在由Meta-PyTorch、Reflection、Unsloth等主要AI组织组成的委员会治理

Mythograph Atelier #1 - 对你有意义的抽象艺术

2026-06-08 03:10 UTC+8

本文作者介绍了Mythograph Atelier的灵感来源，这是一个创建个性化抽象画的AI艺术工作室。灵感结合了博物馆参观的触动、对动态AI原生应用的愿景，以及一个好奇的AI概念——它在生成艺术之前通过提问来理解用户。

Mythograph Atelier是一个AI艺术工作室，旨在创建具有个人意义的抽象画。
AI通过提问了解用户的品味和情感，然后生成艺术。

赞助商特别关注：OpenAI Codex 凭证在 Codex — OpenAI 挑战赛中的使用

2026-06-07 19:38 UTC+8

在Hugging Face举办的“Build Small”黑客马拉松中，参与者面临激活OpenAI Codex和Modal凭证的困难，特别是Codex凭证的激活方法不明确。文章详细介绍了OpenAI Codex Track的奖项设置和参与要求，同时反映了社区在技术支持和文档方面的需求。

参与者发现无法在系统中输入Codex凭证密钥，导致激活失败。
Modal凭证在第二次尝试后成功激活，但初始被拒绝。

Her · हेर — Claude Code 会话的侦探

2026-06-07 18:13 UTC+8

Her 是一款用于分析 Claude Code 会话追踪文件的工具，能够用自然语言重构会话过程，标记风险操作（如部署、配置更改、密钥泄露），并显示令牌消耗和工具使用情况。它完全在本地运行，无需第三方 AI API，并内置了“问她”助手，可基于追踪文件回答问题。

Her 可解读 Claude Code 的 .jsonl 会话文件，用自然语言总结事件并标记风险。
所有处理在本地 GPU 上完成，不上传第三方 API，确保隐私。

五个实验室，五个思维：用小型模型构建多模型金融戏剧

2026-06-07 03:02 UTC+8

本文介绍了《千令牌之林》v2版本，这是一个基于多个小型语言模型的多智能体经济模拟游戏。玩家扮演隐匿的金融家，通过借贷、提供内幕消息（真假皆有）、做空和贿赂来影响市场，而每个智能体（动物角色）使用来自不同实验室的小型模型（GPT-OSS-20B、MiniCPM3-4B、Nemotron-Mini-4B和微调Qwen 0.5B）。文章详细讨论了异构模型集成的技术挑战（如vLLM服务层、CUDA工具链）、信息不对称的防火墙设计、记忆管理（采用有界摘要而非完整历史）以及实验结果（真相防火墙零泄露、内幕消息优势、微调模型高可靠性）。最终结论是：小型模型是可靠的格式生成器但推理不可靠，异构模型群体更有趣且配置成本低，秘密信息必须通过数据流防火墙保护，持久记忆需有界以保持模型专注。

每个智能体使用不同实验室的小型模型，异构性使市场行为更真实
信息不对称通过防火墙设计实现，测试证明内幕消息的隐藏标志从未泄露

职位搜索器：AI驱动的求职助手

2026-06-06 23:36 UTC+8

职位搜索器是一款为应届毕业生设计的AI工具，通过分析简历自动生成LinkedIn搜索查询，并基于技能、经验、教育、行业和资历五个维度对职位进行评分。该项目使用DeepSeek V4 Pro作为教师模型生成标签，Qwen3-8B作为学生模型进行推理，训练数据包括2500份简历和约10000个职位。所有代码、数据集和模型均已开源。

自动简历分析并生成LinkedIn搜索查询
基于五个维度的职位匹配评分

人物图谱：绘制著名思维的地图

2026-06-06 19:42 UTC+8

Persona Atlas 通过 AI 代理从公开网络收集信息，为公众人物构建可度量的行为画像。它将十道开放问题的答案转化为嵌入向量，允许用户直观比较不同人物的思维风格——如幽默、怀疑或抽象——而无需依赖客观成绩。该项目使用小型模型，强调风格而非能力，是“构建小型”黑客马拉松的产物。

输入人名，AI 代理自动研究并构建人物档案。
基于十道开放问题的回答生成嵌入，实现人物间的量化比较。

Hugging Face Blog