AI News HubLIVE
公开文章 73采集文章 78可信度 90刷新频率 5 分钟
健康状态 健康来源类型 官方原文权限 官方原文最近入库 2026-06-25ID huggingface-blog运行状态 已启用

Official source; confirm license per article before full body display.

最新公开文章

一行命令在 HF Jobs 上运行 vLLM 服务器

本文介绍如何通过一行命令在 Hugging Face 基础设施上快速启动一个私有、兼容 OpenAI 的 LLM 端点,无需配置服务器或 Kubernetes,按秒计费。涵盖从启动、查询、清理到扩展为大模型、创建聊天 UI、SSH 调试及作为编码代理后端的完整流程,并与 Inference Endpoints 进行比较。

  • 使用 hf jobs run 命令结合 vLLM Docker 镜像,通过 --expose 8000 暴露端口,即可在 HF Jobs 上运行 vLLM 服务器。
  • 端点通过 Hugging Face token 进行认证,仅限有读取权限的用户访问,支持使用 curl 或 OpenAI Python 客户端查询。
站内正文

混合模型在哪些token上预测得更好?

Ai2团队比较了7B参数规模的Transformer模型Olmo 3和混合模型Olmo Hybrid,发现混合模型在内容词(名词、动词、形容词)和需要上下文推理的token上表现更优,但在重复token和闭合括号上优势消失。研究表明,基于token的损失过滤可以揭示架构间的细微差异。

  • 混合模型在含义丰富的token(如实词)上预测更准确,而在重复token上优势消失。
  • 混合模型使用递归层替代部分注意力层,具有固定大小的记忆,适合跟踪序列变化。
站内正文

使用NVIDIA NeMo AutoModel加速Transformer微调

NVIDIA NeMo AutoModel基于HuggingFace Transformers v5,通过专家并行、DeepEP融合通信和TransformerEngine内核,将MoE模型微调的训练吞吐量提升3.4-3.7倍,GPU内存减少29-32%,且无需更改API。

  • NeMo AutoModel继承AutoModelForCausalLM,仅需更改导入行即可实现性能提升。
  • 在550B规模模型上,专家并行使全微调在16节点H100集群上可行,而Transformers v5因内存不足无法运行。
站内正文

使用CUGA构建真实的智能体应用:轻量级框架上的二十多个工作示例

CUGA是IBM开源的智能体框架,处理了智能体构建中的管道工作,让开发者只需编写工具列表和提示词即可。本文通过一个IBM云架构顾问示例,展示了如何用少量代码构建一个完整的智能体应用,并介绍了CUGA的规划、执行、反射步骤和策略系统。

  • CUGA是一个开源智能体框架,简化了智能体应用的构建过程,开发者只需定义工具和提示。
  • 本文展示了二十多个单文件应用,其中一个IBM云顾问示例详细说明了实现。
站内正文

在Transformers.js中试验提出的跨域存储API

本文介绍了跨域存储(COS)API提案,该API允许Web应用跨域共享大型文件(如AI模型和Wasm运行时),通过加密哈希而非URL标识文件,从而避免重复下载和存储。文章以Transformers.js为例,展示了当前浏览器缓存隔离导致的问题,以及COS如何通过哈希标识、可升级的访问控制和安全完整性检查来解决这些问题。

  • 当前浏览器缓存按源隔离,导致跨域应用重复下载相同的AI模型和Wasm文件。
  • 跨域存储(COS)API使用加密哈希标识文件,实现跨域共享。
站内正文

每周发布huggingface_hub:借助AI、开源工具和人工审核

Hugging Face团队通过结合AI和开源工具,将huggingface_hub的发布周期从4-6周缩短至每周一次,同时保留人工审核环节以确保质量。该流程基于GitHub Actions、OpenCode和开放权重模型,每次发布成本仅约0.25美元。

  • 发布周期从4-6周缩短为每周一次
  • AI生成发布说明初稿,但通过确定性脚本验证准确性
站内正文

PP-OCRv6 在 Hugging Face 上:从 1.5M 到 34.5M 参数的 50 种语言 OCR

PP-OCRv6 是 PaddleOCR 的最新通用 OCR 模型系列,支持从 1.5M 到 34.5M 参数的三个层级,覆盖 50 种语言。相比 PP-OCRv5_server,检测准确率提升 4.6 个百分点,识别准确率提升 5.1 个百分点。新架构包括 PPLCNetV4 骨干网络、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块。支持 Paddle Inference、Transformers 和 ONNX Runtime 后端。

  • 发布三个模型层级:tiny(1.5M)、small(7.7M)、medium(34.5M),适配不同部署场景。
  • 支持 50 种语言,包括中、英、日及 46 种拉丁语系语言。
站内正文

我们让本地模型免费(*)为OpenClaw仓库进行问题分类!

OpenClaw维护者利用本地开源模型(Gemma、Qwen)在智能体框架中,实时对问题和拉取请求进行分类,性能媲美闭源模型,仅需硬件电费成本。

  • 本地模型(如Gemma和Qwen)能有效对GitHub问题和PR进行分类,用于问题分派。
  • 系统使用带有只读shell(reposhell)的智能体框架,安全地检查代码。
站内正文

MosaicLeaks:你的研究代理能保守秘密吗?

深度研究代理结合私有文档与网页搜索时,可能通过查询日志无意中泄露敏感信息。MosaicLeaks基准量化了这种隐私风险,并提出了一种名为隐私感知深度研究(PA-DR)的训练方法,可以在保持任务性能的同时,将信息泄露减少3倍以上。

  • MosaicLeaks引入了一个多跳研究链基准,这些链交织了私有本地文档和公共网页查询,测量了三种泄露程度:意图、答案和完整信息。
  • 仅针对任务性能进行训练会同时提高成功率和泄露率;使用PA-DR训练可将答案/完整信息泄露从34.0%降至9.9%,同时保持严格链条成功率为58.7%。
站内正文

超越LoRA:你能击败最流行的微调技术吗?

LoRA是目前最流行的参数高效微调(PEFT)技术,但研究表明其他方法在某些任务上表现更好。本文介绍了Hugging Face的PEFT库及其基准测试,探讨了如何根据具体需求选择合适的PEFT技术,并指出LoRA并非总是最佳选择。

  • LoRA在PEFT技术中占主导地位,但可能不是最优选择。
  • Hugging Face的PEFT库提供了统一API和基准测试,帮助用户选择合适的PEFT技术。
站内正文

它足够智能体化了吗?使用自有工具对开源模型进行基准测试

一个全新的基准测试框架专注于评估AI智能体使用软件库的整个过程工作量,以Hugging Face的Transformers库为案例。通过测量令牌使用量、时间、错误率等指标,揭示不同模型和工具层级下的性能权衡,为库维护者和智能体用户提供关键见解。

  • 标准基准测试仅检查最终答案,而该框架测量整个过程的令牌成本、时间和错误
  • 测试了三种工具层级:裸安装、克隆源码和打包Skill,各有不同的开销
站内正文

MolmoMotion:语言引导的3D运动预测

MolmoMotion是一种新型3D运动预测模型,能够根据视频帧、物体上的3D点以及语言指令预测未来几秒内物体点的3D轨迹。该模型在多个下游任务中表现出色,如机器人规划和可控视频生成。同时发布了最大的3D点轨迹数据集MolmoMotion-1M和基准测试PointMotionBench。

  • MolmoMotion利用语言指令引导3D运动预测,显著优于现有方法。
  • 模型支持自回归和流匹配两种变体,分别适用于确定性和不确定性场景。
站内正文

从Hugging Face Hub到机器人硬件:Strands Agents与LeRobot的集成

AWS开源SDK Strands Robots集成了LeRobot,允许开发者通过单一Agent工作流从Hub数据集训练并在模拟或实体机器人上部署策略。本文介绍了五步流程,并提供了可在笔记本上运行的示例。

  • Strands Robots SDK将LeRobot暴露为可组合的AgentTools,实现从数据集到机器人硬件的端到端控制。
  • 模拟和硬件场景共享相同的DatasetRecorder和LeRobotDataset格式,确保数据集兼容。
站内正文

GLM-5.2:专为长周期任务构建

GLM-5.2 是 Z.AI 推出的最新旗舰模型,专为长周期任务设计,拥有稳定的 1M 上下文窗口,在编码基准测试中表现优异,并引入 IndexShare 架构以降低计算成本,同时提供灵活的努力水平控制。该模型采用 MIT 开源许可证,无区域限制。

  • GLM-5.2 提供稳定的 1M token 上下文,支持长周期工程任务。
  • 在 FrontierSWE、PostTrainBench 等长周期编码基准上表现领先,接近封闭源模型。
站内正文

智能体资源发现:让智能体自己搜索

Agentic Resource Discovery(ARD)规范为AI智能体提供了一个发现层,使其能够动态寻找工具、技能和其他智能体,而无需预安装配置。Hugging Face 在其 Hub 上实现了参考工具,支持自然语言搜索。

  • ARD 定义了跨联邦注册表编目和搜索智能体能力的标准。
  • Hugging Face 的 Discover 工具实现了 ARD,支持对技能、MCP 服务器和 AI 应用的自然语言搜索。
站内正文

olmo-eval:面向模型开发循环的评估工作台

olmo-eval 是一个新的评估工作台,旨在支持 LLM 开发过程中持续进行的模型评估。它建立在 OLMES 标准之上,提供灵活的任务定义、可交换的运行时策略以及详细的逐问题比较功能,帮助开发者判断每次干预的效果是否显著。

  • olmo-eval 针对模型开发中的反复评估循环而设计,支持快速添加基准、跨检查点运行和细粒度结果分析。
  • 与 Harbor 等工具不同,olmo-eval 提供轻量级和沙箱两种运行模式,并根据基准需求自动选择。
站内正文

PyTorch 性能分析(第2部分):从 nn.Linear 到融合 MLP

本文是 PyTorch 性能分析系列的第二部分,深入探讨了 nn.Linear 层的内部机制,包括转置操作、融合偏置的 epilogue 技术,以及 torch.compile 对单个线性层的影响。随后,文章剖析了一个包含 GeGLU 激活的多层感知机(MLP)的性能特征,展示了 GPU 内核的调度和执行过程。

  • nn.Linear 通过 epilogue 将偏置加法融合到矩阵乘法内核中,避免额外的内存访问。
  • torch.compile 对单个 nn.Linear 层无明显加速,但能消除 CPU 调度开销。
站内正文

Cohere 发布 North Mini Code:专为开发者设计的首个模型

Cohere 发布了 North Mini Code,一个 300 亿参数的混合专家模型,拥有 30 亿活跃参数,专为代理式软件工程任务设计。该模型在 Apache 2.0 许可证下开源,并在多项编码基准测试中表现优异,超越了同类开源模型。

  • 300 亿参数 MoE 模型,30 亿活跃参数,专注于代理式编码。
  • 在 Artificial Analysis 编码指数上得分 33.4,超越多个更大模型。
站内正文

多媒体积木块:用Hugging Face Spaces构建3D巴黎画廊

作者通过一个编码智能体,利用两个Hugging Face Space(图像生成和3D高斯泼溅重建),仅通过文本提示就构建了一个展示巴黎纪念碑的3D网站。整个过程无需图像生成器或3D工具,智能体通过每个Space的agents.md文件自动调用API并拼接结果。文章阐述了多媒体AI领域的“积木经济”趋势——将模型作为可调用的独立组件,由智能体灵活组合,大幅降低集成门槛。

  • 编码智能体通过调用两个Hugging Face Spaces自动生成图像和3D高斯泼溅,构建了巴黎纪念碑3D展示网站。
  • 每个Gradio Space的agents.md文件为智能体提供了完整的API调用信息,无需手动集成。
站内正文

NeuroBait:我微调了一个模型来激发ADHD大脑的多巴胺

NeuroBait是一个针对ADHD大脑微调的AI模型,旨在通过提供温暖、可操作的小步骤来克服任务启动瘫痪,而不是传统的待办事项列表。该项目源于作者的妻子患有ADHD,通过观察和实践,利用LoRA在Gemma 3 12B模型上训练,并部署在Hugging Face Space上。它不仅是ADHD工具,也能帮助任何感到不知所措的人。

  • NeuroBait通过生成温暖、流动的文字,提供微小可行的行动,帮助ADHD大脑启动任务。
  • 项目基于对ADHD患者的真实观察,而非理论,使用LoRA微调Gemma 3 12B模型。
站内正文

将你的 GitHub CI 迁移到 Hugging Face Jobs

本文详细介绍了如何将 GitHub Actions CI 迁移到 Hugging Face Jobs,以解决 GitHub 托管的 runner 速度慢、无 GPU 等问题。通过创建调度器 Space、GitHub App 以及修改 runs-on 标签,即可让 CI 作业在 Hugging Face 基础设施上运行,支持 CPU 和 GPU 硬件,并实时流式传输日志。Trackio 的实践表明,CPU 任务时间可缩短约 30%。

  • GitHub Actions 默认运行在通用机器上,速度慢且不支持 GPU。
  • 使用 Hugging Face Jobs 作为 CI runner,可灵活选择硬件(如 CPU、T4、H200)。
站内正文

消失的崩盘:五模型经济中的控制与涌现

作者在构建小型AI代理经济模拟时发现,原本单一模型下会发生的市场崩盘,在换成五个不同实验室的小模型后消失了。通过多次尝试,作者意识到不能通过机械冲击来控制异质代理群体的行为,而应在结算环节施加确定性覆盖来获得可靠结果。

  • 单一模型下银行挤兑导致蜂蜜价格崩溃,但换成五个不同的小模型后,代理选择囤积而非抛售。
  • 通过外部冲击(如谣言、库存过剩)无法迫使异质代理群体抛售,每次尝试均告失败。
站内正文

构建巴基斯坦通知助手:一款针对本地安全问题的简易AI工具

作者为Hugging Face的Build Small黑客马拉松开发了一款专注于巴基斯坦本地安全问题的AI工具——巴基斯坦通知助手。该工具使用小模型(Qwen3.5 4B)分析可疑消息,提供风险标签、解释和下一步安全建议,支持英文和乌尔都语(包括从右到左的布局)。文章详细分享了模型选型、技术栈、用户界面设计以及使用Codex加速开发的经验。

  • 巴基斯坦通知助手是一款针对巴基斯坦本地诈骗消息的AI安全工具,支持文本和截图分析。
  • 最终采用Qwen3.5 4B Q8模型(通过llama.cpp),在评估中所有高风险诈骗案例和截图案例均通过。
站内正文

开源社区支持OpenEnv用于智能体强化学习

OpenEnv是一个用于创建智能体执行环境(如终端、浏览器等)的开源工具。今天,我们宣布OpenEnv将变得更加开放,由一个包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face在内的委员会协调。该项目旨在为开放源代码的智能体训练提供通用基础设施,并专注于作为互操作性层,而不是定义奖励或训练循环。

  • OpenEnv是一个用于创建智能体执行环境的开源工具
  • 现在由Meta-PyTorch、Reflection、Unsloth等主要AI组织组成的委员会治理
站内正文

Mythograph Atelier #1 - 对你有意义的抽象艺术

本文作者介绍了Mythograph Atelier的灵感来源,这是一个创建个性化抽象画的AI艺术工作室。灵感结合了博物馆参观的触动、对动态AI原生应用的愿景,以及一个好奇的AI概念——它在生成艺术之前通过提问来理解用户。

  • Mythograph Atelier是一个AI艺术工作室,旨在创建具有个人意义的抽象画。
  • AI通过提问了解用户的品味和情感,然后生成艺术。
站内正文

赞助商特别关注:OpenAI Codex 凭证在 Codex — OpenAI 挑战赛中的使用

在Hugging Face举办的“Build Small”黑客马拉松中,参与者面临激活OpenAI Codex和Modal凭证的困难,特别是Codex凭证的激活方法不明确。文章详细介绍了OpenAI Codex Track的奖项设置和参与要求,同时反映了社区在技术支持和文档方面的需求。

  • 参与者发现无法在系统中输入Codex凭证密钥,导致激活失败。
  • Modal凭证在第二次尝试后成功激活,但初始被拒绝。
站内正文

Her · हेर — Claude Code 会话的侦探

Her 是一款用于分析 Claude Code 会话追踪文件的工具,能够用自然语言重构会话过程,标记风险操作(如部署、配置更改、密钥泄露),并显示令牌消耗和工具使用情况。它完全在本地运行,无需第三方 AI API,并内置了“问她”助手,可基于追踪文件回答问题。

  • Her 可解读 Claude Code 的 .jsonl 会话文件,用自然语言总结事件并标记风险。
  • 所有处理在本地 GPU 上完成,不上传第三方 API,确保隐私。
站内正文

五个实验室,五个思维:用小型模型构建多模型金融戏剧

本文介绍了《千令牌之林》v2版本,这是一个基于多个小型语言模型的多智能体经济模拟游戏。玩家扮演隐匿的金融家,通过借贷、提供内幕消息(真假皆有)、做空和贿赂来影响市场,而每个智能体(动物角色)使用来自不同实验室的小型模型(GPT-OSS-20B、MiniCPM3-4B、Nemotron-Mini-4B和微调Qwen 0.5B)。文章详细讨论了异构模型集成的技术挑战(如vLLM服务层、CUDA工具链)、信息不对称的防火墙设计、记忆管理(采用有界摘要而非完整历史)以及实验结果(真相防火墙零泄露、内幕消息优势、微调模型高可靠性)。最终结论是:小型模型是可靠的格式生成器但推理不可靠,异构模型群体更有趣且配置成本低,秘密信息必须通过数据流防火墙保护,持久记忆需有界以保持模型专注。

  • 每个智能体使用不同实验室的小型模型,异构性使市场行为更真实
  • 信息不对称通过防火墙设计实现,测试证明内幕消息的隐藏标志从未泄露
站内正文

职位搜索器:AI驱动的求职助手

职位搜索器是一款为应届毕业生设计的AI工具,通过分析简历自动生成LinkedIn搜索查询,并基于技能、经验、教育、行业和资历五个维度对职位进行评分。该项目使用DeepSeek V4 Pro作为教师模型生成标签,Qwen3-8B作为学生模型进行推理,训练数据包括2500份简历和约10000个职位。所有代码、数据集和模型均已开源。

  • 自动简历分析并生成LinkedIn搜索查询
  • 基于五个维度的职位匹配评分
站内正文

人物图谱:绘制著名思维的地图

Persona Atlas 通过 AI 代理从公开网络收集信息,为公众人物构建可度量的行为画像。它将十道开放问题的答案转化为嵌入向量,允许用户直观比较不同人物的思维风格——如幽默、怀疑或抽象——而无需依赖客观成绩。该项目使用小型模型,强调风格而非能力,是“构建小型”黑客马拉松的产物。

  • 输入人名,AI 代理自动研究并构建人物档案。
  • 基于十道开放问题的回答生成嵌入,实现人物间的量化比较。
站内正文

全部来源