Hugging Face

来源分布

Hugging Face Blog32
Hacker News AI6
MarkTechPost4
AWS Machine Learning Blog2
AI Business1
arXiv AI1
KDnuggets1
Latent Space1

主题分布

Agent29
芯片28
研究23
模型14
政策11
创业融资3
机器人1

日期线

2026-06-095
2026-07-075
2026-06-174
2026-07-084
2026-06-233
2026-06-303
2026-07-013
2026-07-063

最新动态

通过数据捕获、Hugging Face、NVMe 和 Route 53 集成增强 Amazon SageMaker HyperPod 上的企业推理能力

2026-07-10 00:38 UTC+8

本文介绍了 Amazon SageMaker HyperPod 推理的五项新功能：多层数据捕获以进行审计和模型改进、从 Hugging Face Hub 直接部署、本地 NVMe 模型加载以加快冷启动速度、自动 Route 53 DNS 自定义域名管理以及通过自定义服务账户实现 pod 级 IAM。这些功能共同为企业在生产环境中部署和运行大模型提供了更快速、更可观测、更灵活的推理基础设施。

多层数据捕获支持从端点、负载均衡器和模型 pod 三个层级记录推理输入和输出，提供深度可观测性。
可直接从 Hugging Face Hub 部署模型，无需预置权重，支持门控访问、版本固定和令牌隔离。

英伟达与Hugging Face合作开发开源机器人模型

2026-07-09 03:35 UTC+8

英伟达与Hugging Face合作，旨在通过开源机器人模型提升物理AI的可访问性和部署，进一步巩固英伟达在该领域的强势地位。

英伟达与Hugging Face宣布合作，共同开发开源机器人模型。
此举旨在促进物理AI的可访问性和部署。

智能体的数据

2026-07-09 01:16 UTC+8

NVIDIA 通过开放数据和合成数据推动智能体 AI 发展，强调数据质量、可检查性和信任。

NVIDIA 发布了 Nemotron 系列开放数据集，包括预训练和后训练样本。
合成数据有助于在保护公司机密的同时共享有用信号。

[AINews] Lilian Weng总结35篇关于RSI的套件工程论文

2026-07-08 10:20 UTC+8

本期AINews涵盖了2026年7月6日至7日的广泛AI发展。亮点包括Lilian Weng对递归自我改进中套件工程深入分析、Meta推出Muse Image和预览Muse Video（具有代理生成循环）、以及Anthropic、LangChain和Google在代理平台上的重大产品更新。其他值得注意的内容：NVIDIA的Audex音频模型、Cohere的阿拉伯语ASR、与Hugging Face和NVIDIA的机器人集成、Liquid AI的Antidoom方法减少推理循环失败、以及Anthropic有争议的J-space可解释性研究。还涵盖了代理和法律AI的基准测试、研究自动化和推理效率进展。

Lilian Weng的博文将递归自我改进重新聚焦于套件工程而非直接权重修改，强调套件工程对于指定目标和上下文至关重要。
Meta的Muse Image和Muse Video展示了具有规划、工具使用和自我细化的代理生成，迅速登上公共排行榜高位。

原生速度的vLLM transformers建模后端

2026-07-08 08:00 UTC+8

Hugging Face的Transformers库的vLLM后端现在在多种LLM架构上达到了与原生vLLM实现相当甚至更快的推理速度。模型作者无需额外编码即可自动利用其Transformers实现获得超快推理。

Transformers vLLM后端在Qwen3 4B、32B和235B MoE模型上达到或超过了原生vLLM的吞吐量。
通过torch.fx和ast在运行时动态应用推理特定的层融合，匹配自定义代码实现的速度。

高通收购Nexa AI，开源面向Hexagon NPU的GenAI运行时GenieX

2026-07-08 06:44 UTC+8

高通收购了Nexa AI，并开源了其GenAI运行时GenieX，该运行时专为Hexagon NPU优化，支持在Snapdragon设备上本地运行LLM和VLM。GenieX提供CLI、Python、Kotlin/Java、Docker及OpenAI兼容服务器接口，支持Hugging Face的GGUF模型和Qualcomm AI Hub的预编译包。

高通收购Nexa AI并开源GenieX运行时
GenieX支持Snapdragon设备上的NPU、GPU和CPU推理

从Hugging Face一键直达Amazon SageMaker Studio

2026-07-08 05:15 UTC+8

Hugging Face与Amazon SageMaker AI深度集成，开发者现在可以通过一键操作从模型发现直接进入SageMaker Studio进行实验。该集成自动配置权限、显示GPU配额，并支持模型微调和部署，大幅缩短从灵感到部署的路径。

一键从Hugging Face模型页面跳转至SageMaker Studio，模型预加载、环境自动配置。
新Studio环境自动配置完整权限，包括微调、训练、笔记本实验和端点部署。

NVIDIA与Hugging Face为开放机器人社区带来新模型和框架至LeRobot

2026-07-07 14:00 UTC+8

NVIDIA和Hugging Face合作，将NVIDIA Isaac GR00T 1.7模型和Isaac Teleop框架集成到Hugging Face的开源机器人库LeRobot中，并计划引入NVIDIA Cosmos 3。这些整合为开发者提供了更易访问和标准化的机器人开发路径，推动开放机器人社区的创新。

NVIDIA和Hugging Face合作，将Isaac GR00T 1.7模型和Isaac Teleop框架引入LeRobot。
LeRobot获得NVIDIA物理AI能力，包括数据收集、模型训练和仿真工具。

在任何云上运行AI工作负载，数据存储在Hugging Face：SkyPilot实现零出口存储

2026-07-07 08:00 UTC+8

SkyPilot与Hugging Face合作，允许用户将模型和数据集存储在Hugging Face Hub上，并通过SkyPilot在任何云上运行计算任务，无需支付数据传输费用。

通过hf:// URL和HF_TOKEN直接挂载Hugging Face存储到SkyPilot任务中
支持20多个云平台、Kubernetes和本地集群

LeRobot v0.6.0：想象、评估、改进

2026-07-07 08:00 UTC+8

LeRobot v0.6.0 引入了世界模型策略（VLA-JEPA、FastWAM、LingBot-VA），新一批VLA模型（GR00T N1.7、MolmoAct2等），奖励模型API（Robometer、TOPReward），六个新仿真基准，以及部署CLI、深度感知、数据集注解加速等功能，旨在闭环机器人学习循环。

新增三种世界模型策略，使机器人能够通过想象未来辅助决策。
集成GR00T N1.7、MolmoAct2等VLA模型，支持微调和部署。

一键从 Hugging Face 到 Amazon SageMaker Studio

2026-07-07 06:35 UTC+8

Hugging Face 与 Amazon SageMaker AI 推出深度链接集成，开发者只需一键即可从模型发现直接进入 SageMaker Studio 进行实验。该集成自动配置权限，显示 GPU 配额，简化了模型微调和部署流程。

Hugging Face 模型页面新增“在 SageMaker AI 上定制”和“在 SageMaker AI 上部署”按钮，一键跳转至 SageMaker Studio。
新环境自动预配置权限，无需手动设置 IAM 角色。

IOL-AI 2026挑战：你的模型能解决语言学奥林匹克问题吗？

2026-07-07 04:24 UTC+8

IOL-AI 2026挑战赛在Hugging Face Spaces上发布，旨在测试AI模型解决语言学奥林匹克题目的能力。这是一个开放性的竞赛，鼓励研究者提交创新的解决方案。

挑战赛基于语言学奥林匹克问题，评估AI的推理能力。
在Hugging Face Spaces平台上进行。

PRX 第四部分：我们的数据策略

2026-07-06 23:30 UTC+8

本文详细介绍了PRX（一个7B文本到图像模型）背后的数据管道。关键点包括从公开和内部数据集构建多样化的预训练数据集，使用VLM生成长而准确的标题，并利用Lance构建数据集、MDS进行流式处理。团队解释了选择质量92的JPEG编码、实时计算文本潜在向量以及关于数据碎片化的经验教训。

预训练数据由公开和内部数据集混合组成，并使用VLM重新生成标题以确保一致性。
长而准确的标题至关重要；它们将不完美转化为可控属性。

使用Tunix GRPO、LoRA适配器和GSM8K奖励训练Gemma-3进行结构化数学推理

2026-07-06 12:26 UTC+8

本教程构建了一个端到端的GRPO训练工作流，利用Tunix、JAX、LoRA和自定义奖励函数，教会Gemma-3解决GSM8K数学问题。内容包括环境准备、Hugging Face认证、模型加载、提示格式设计、奖励函数定义、LoRA适配器附加、基线评估以及GRPO训练。

使用Tunix和JAX实现GRPO训练，仅更新LoRA适配器权重，适合单加速器设置。
定义格式奖励和数学正确性奖励，为模型提供多重反馈信号。

🤗 Kernels：重大更新

2026-07-06 08:00 UTC+8

Hugging Face 的 Kernels 项目旨在标准化自定义内核的打包、分发和使用方式。本文总结了近期重大更新：引入新的“内核”仓库类型以提升可发现性；通过受信任的发布者和代码签名增强安全性；重构 CLI 以明确职责划分；扩展对 Torch Stable ABI 和 Apache TVM FFI 等框架的支持；为 AI 代理开发内核奠定基础；以及改进环境配置和兼容性检查工具。

引入新的“内核”仓库类型，方便用户按加速器、操作系统和后端版本筛选内核。
安全性提升：默认仅加载受信任发布者的内核，并增加代码签名功能，使用 Sigstore 的临时密钥。

Leanstral 1.5：人人可用的形式化证明工具

2026-07-03 22:18 UTC+8

Leanstral 1.5 是一款免费、Apache-2.0 许可的模型，拥有 119B 总参数和 6B 活跃参数，在形式化验证方面取得重大突破：在 miniF2F 上达到饱和，解决 PutnamBench 中 587/672 的问题，并在 FATE-H (87%) 和 FATE-X (34%) 上实现最优结果。通过中期训练、监督微调和基于 CISPO 的强化学习，它在基于代理的证明工程和真实代码验证中表现出色，在 57 个测试仓库中发现了 5 个先前未知的 bug。该模型完全开源，可通过 Hugging Face 和免费 API 获取。

Leanstral 1.5 在多个形式化数学基准上达到或接近最优，包括 miniF2F 100% 和 PutnamBench 587/672。
模型在代码验证中展现出强大能力，成功证明 AVL 树时间复杂度并发现真实仓库中的漏洞。

高效小型语言模型的Wiola架构

2026-07-03 12:00 UTC+8

Wiola是一种全新的小型语言模型架构，从基本原理设计，与GPT、LLaMA、Mistral或Falcon等现有模型无结构关联。它引入了五种独立创新的组件：螺旋旋转位置编码（SRPE）、门控跨层注意力（GCLA）、自适应令牌合并（ATM）、双流前馈（DSFF）和WiolaRMSNorm归一化。模型提供四种规模（120M、360M、700M和1.5B参数），完全兼容HuggingFace Transformers生态系统。

Wiola是完全原创的小型语言模型架构，不基于任何现有模型家族。
包含五种新颖组件：SRPE、GCLA、ATM、DSFF和WiolaRMSNorm。

Hugging Face 与 Cerebras 携手将 Gemma 4 引入实时语音 AI

2026-07-01 08:00 UTC+8

Hugging Face 与 Cerebras 合作，利用 Gemma 4 模型打造实时语音 AI 系统，通过开放模块化架构显著降低延迟，实现更自然的对话体验。该系统集成 Nvidia 的语音识别、Cerebras 的推理加速和 Alibaba 的语音合成，已在 9000 多台 Reachy Mini 机器人中应用。

Hugging Face 和 Cerebras 推出基于 Gemma 4 的实时语音 AI 演示，延迟极低。
系统采用开放的级联架构：语音输入→语音识别→模型推理→语音合成→语音输出。

揭秘AI应用在预训练模型中心的安全风险

2026-07-01 03:10 UTC+8

研究人员首次对Hugging Face等平台上的AI应用进行了系统性安全分析，发现了五大威胁类别和十种攻击向量，包括访问控制失效、资源重用不安全、输入验证不足和敏感数据泄露。研究覆盖超过97万个AI应用，数千个泄露凭证，数百个存在输入注入漏洞，数十个含有后门。

AI应用平台如Hugging Face存在严重安全风险，包括访问控制失效和输入注入等。
研究分析超过97万个公开AI应用，发现数千个泄露凭证、数百个可远程执行代码的漏洞。

ScarfBench：面向企业Java框架迁移的AI智能体基准测试

2026-07-01 02:32 UTC+8

IBM Research推出ScarfBench，这是一个用于评估AI智能体在企业Java中跨框架迁移任务的开源基准。该基准包含34个应用程序、102个框架实现和204个迁移任务。目前顶尖智能体的行为成功率低于10%，突显了在迁移过程中保持行为的难度。

ScarfBench评估AI智能体在Spring、Jakarta EE和Quarkus之间的框架迁移能力，要求构建、部署和行为验证。
基准包含34个应用程序、约2000个源文件和测试文件，以及1331个专家编写的测试。

专业化为何不可避免

2026-06-30 22:39 UTC+8

本文从优化理论、进化生物学、竞争市场和机器学习四个角度论证了专业化是资源有限条件下系统提升性能的必然路径。作者指出，通用性并非性能优势，在有限资源下，集中资源于有限任务集比分散到无限范围更有效。文章还澄清了专业化和领域知识的区别，指出规模扩展不会改变这一根本约束。

优化理论中的“没有免费午餐”定理表明，任何算法都有其适用边界，专业化是高性能的关键。
生物学和市场经济中，资源有限导致专业化成为生存和发展策略。

将Every Eval Ever结果集成到Hugging Face模型页面

2026-06-30 08:00 UTC+8

Every Eval Ever (EEE) 与 Hugging Face Community Evals 实现互操作，允许用户交叉发布和解读评估结果，同时链接到开放模型、排行榜和统一的标准化元数据存储。

EEE 和 Hugging Face Community Evals 现已兼容，支持评估结果的交叉发布。
EEE 提供统一的 JSON 模式记录评估细节，包括运行者、模型、设置等。

DiScoFormer：一个用于密度和分数的变换器，跨分布通用

2026-06-30 02:02 UTC+8

DiScoFormer是一种新型变换器模型，能通过一次前向传播从数据点估计分布的密度和分数（对数密度的梯度），无需重新训练。它结合了跨注意力机制和共享骨干网络，利用密度与分数的数学关系进行无标签一致性学习。在100维空间中，其分数误差比最佳KDE降低约6.5倍，密度误差降低超过37倍，且能泛化到未见的高斯和非高斯分布。

DiScoFormer通过堆叠变换器块，一次前向传播同时估计密度和分数。
模型利用密度与分数之间的数学关系，通过一致性损失实现无监督适应。

Kog Laneformer 2B：Kog推理引擎背后的延迟优先模型

2026-06-29 16:40 UTC+8

Kog发布了Laneformer 2B，一个23亿参数的指令微调编码模型，专为高速单请求推理从头设计。通过将模型架构与推理引擎协同设计，Kog引入了延迟张量并行（DTP）和车道结构Transformer以隐藏通信开销。该模型在编码基准上取得竞争性结果（HumanEval+ 45.1%，MBPP+ 51.6%），现已在Hugging Face上开源。

Laneformer 2B是一个23亿参数的编码模型，优化了低延迟推理。
它使用新颖的车道结构架构和延迟张量并行，最小化通信成本。

在Colab中构建稳定的Fable 5 Traces工作流：解析工具调用、审计数据与训练基线模型

2026-06-28 15:02 UTC+8

本教程详细介绍如何在Colab中构建围绕Hugging Face的Fable 5 Traces数据集的工作流。通过手动解析合并的JSONL文件避免依赖问题，标准化工具调用，审计数据结构，检测机密模式，并训练纯Python的朴素贝叶斯基线模型来预测输出类型和工具使用。

手动下载并解析JSONL文件，避免使用脆弱的依赖库。
开发解析工具函数，从原始输出中提取工具名称、参数和文本内容。

从NVIDIA Open-SWE-Traces构建监督微调数据：轨迹解析、补丁分析、Token预算与工具使用指标

2026-06-27 08:02 UTC+8

本教程介绍如何使用NVIDIA的Open-SWE-Traces数据集为智能体软件工程轨迹准备监督微调数据。包括从Hugging Face流式加载数据、标准化多轮对话、解析代码补丁、构建分析DataFrame，以及根据成功标签、Token限制、语言过滤和补丁可用性筛选高质量轨迹。

从Hugging Face流式加载Open-SWE-Traces数据集，无需本地下载。
标准化智能体轨迹，提取角色计数、工具使用和代码补丁信息。

一行命令在 HF Jobs 上运行 vLLM 服务器

2026-06-26 08:00 UTC+8

本文介绍如何通过一行命令在 Hugging Face 基础设施上快速启动一个私有、兼容 OpenAI 的 LLM 端点，无需配置服务器或 Kubernetes，按秒计费。涵盖从启动、查询、清理到扩展为大模型、创建聊天 UI、SSH 调试及作为编码代理后端的完整流程，并与 Inference Endpoints 进行比较。

使用 hf jobs run 命令结合 vLLM Docker 镜像，通过 --expose 8000 暴露端口，即可在 HF Jobs 上运行 vLLM 服务器。
端点通过 Hugging Face token 进行认证，仅限有读取权限的用户访问，支持使用 curl 或 OpenAI Python 客户端查询。

混合模型在哪些token上预测得更好？

2026-06-26 00:11 UTC+8

Ai2团队比较了7B参数规模的Transformer模型Olmo 3和混合模型Olmo Hybrid，发现混合模型在内容词（名词、动词、形容词）和需要上下文推理的token上表现更优，但在重复token和闭合括号上优势消失。研究表明，基于token的损失过滤可以揭示架构间的细微差异。

混合模型在含义丰富的token（如实词）上预测更准确，而在重复token上优势消失。
混合模型使用递归层替代部分注意力层，具有固定大小的记忆，适合跟踪序列变化。

使用NVIDIA NeMo AutoModel加速Transformer微调

2026-06-25 00:00 UTC+8

NVIDIA NeMo AutoModel基于HuggingFace Transformers v5，通过专家并行、DeepEP融合通信和TransformerEngine内核，将MoE模型微调的训练吞吐量提升3.4-3.7倍，GPU内存减少29-32%，且无需更改API。

NeMo AutoModel继承AutoModelForCausalLM，仅需更改导入行即可实现性能提升。
在550B规模模型上，专家并行使全微调在16节点H100集群上可行，而Transformers v5因内存不足无法运行。

使用CUGA构建真实的智能体应用：轻量级框架上的二十多个工作示例

2026-06-23 20:51 UTC+8

CUGA是IBM开源的智能体框架，处理了智能体构建中的管道工作，让开发者只需编写工具列表和提示词即可。本文通过一个IBM云架构顾问示例，展示了如何用少量代码构建一个完整的智能体应用，并介绍了CUGA的规划、执行、反射步骤和策略系统。

CUGA是一个开源智能体框架，简化了智能体应用的构建过程，开发者只需定义工具和提示。
本文展示了二十多个单文件应用，其中一个IBM云顾问示例详细说明了实现。

在Transformers.js中试验提出的跨域存储API

2026-06-23 08:00 UTC+8

本文介绍了跨域存储（COS）API提案，该API允许Web应用跨域共享大型文件（如AI模型和Wasm运行时），通过加密哈希而非URL标识文件，从而避免重复下载和存储。文章以Transformers.js为例，展示了当前浏览器缓存隔离导致的问题，以及COS如何通过哈希标识、可升级的访问控制和安全完整性检查来解决这些问题。

当前浏览器缓存按源隔离，导致跨域应用重复下载相同的AI模型和Wasm文件。
跨域存储（COS）API使用加密哈希标识文件，实现跨域共享。

每周发布huggingface_hub：借助AI、开源工具和人工审核

2026-06-23 08:00 UTC+8

Hugging Face团队通过结合AI和开源工具，将huggingface_hub的发布周期从4-6周缩短至每周一次，同时保留人工审核环节以确保质量。该流程基于GitHub Actions、OpenCode和开放权重模型，每次发布成本仅约0.25美元。

发布周期从4-6周缩短为每周一次
AI生成发布说明初稿，但通过确定性脚本验证准确性

PP-OCRv6 在 Hugging Face 上：从 1.5M 到 34.5M 参数的 50 种语言 OCR

2026-06-22 21:18 UTC+8

PP-OCRv6 是 PaddleOCR 的最新通用 OCR 模型系列，支持从 1.5M 到 34.5M 参数的三个层级，覆盖 50 种语言。相比 PP-OCRv5_server，检测准确率提升 4.6 个百分点，识别准确率提升 5.1 个百分点。新架构包括 PPLCNetV4 骨干网络、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块。支持 Paddle Inference、Transformers 和 ONNX Runtime 后端。

发布三个模型层级：tiny（1.5M）、small（7.7M）、medium（34.5M），适配不同部署场景。
支持 50 种语言，包括中、英、日及 46 种拉丁语系语言。

我们让本地模型免费（*）为OpenClaw仓库进行问题分类！

2026-06-22 08:00 UTC+8

OpenClaw维护者利用本地开源模型（Gemma、Qwen）在智能体框架中，实时对问题和拉取请求进行分类，性能媲美闭源模型，仅需硬件电费成本。

本地模型（如Gemma和Qwen）能有效对GitHub问题和PR进行分类，用于问题分派。
系统使用带有只读shell（reposhell）的智能体框架，安全地检查代码。

Salesforce CodeGen教程：生成、验证和重排Python函数，附单元测试和安全检查

2026-06-19 10:44 UTC+8

本教程实现了Salesforce CodeGen的端到端工作流程，从Hugging Face加载模型，超越基础推理，添加函数提取、语法检查、静态安全检查、单元测试验证、最佳N候选重排、多步骤程序合成、提示风格实验，最后可视化迷你基准并导出可复用文件。

从Hugging Face加载Salesforce CodeGen模型并准备代码生成环境
实现函数提取、语法验证、静态安全检查和单元测试验证

MosaicLeaks：你的研究代理能保守秘密吗？

2026-06-19 02:13 UTC+8

深度研究代理结合私有文档与网页搜索时，可能通过查询日志无意中泄露敏感信息。MosaicLeaks基准量化了这种隐私风险，并提出了一种名为隐私感知深度研究（PA-DR）的训练方法，可以在保持任务性能的同时，将信息泄露减少3倍以上。

MosaicLeaks引入了一个多跳研究链基准，这些链交织了私有本地文档和公共网页查询，测量了三种泄露程度：意图、答案和完整信息。
仅针对任务性能进行训练会同时提高成功率和泄露率；使用PA-DR训练可将答案/完整信息泄露从34.0%降至9.9%，同时保持严格链条成功率为58.7%。

超越LoRA：你能击败最流行的微调技术吗？

2026-06-18 08:00 UTC+8

LoRA是目前最流行的参数高效微调（PEFT）技术，但研究表明其他方法在某些任务上表现更好。本文介绍了Hugging Face的PEFT库及其基准测试，探讨了如何根据具体需求选择合适的PEFT技术，并指出LoRA并非总是最佳选择。

LoRA在PEFT技术中占主导地位，但可能不是最优选择。
Hugging Face的PEFT库提供了统一API和基准测试，帮助用户选择合适的PEFT技术。

它足够智能体化了吗？使用自有工具对开源模型进行基准测试

2026-06-18 08:00 UTC+8

一个全新的基准测试框架专注于评估AI智能体使用软件库的整个过程工作量，以Hugging Face的Transformers库为案例。通过测量令牌使用量、时间、错误率等指标，揭示不同模型和工具层级下的性能权衡，为库维护者和智能体用户提供关键见解。

标准基准测试仅检查最终答案，而该框架测量整个过程的令牌成本、时间和错误
测试了三种工具层级：裸安装、克隆源码和打包Skill，各有不同的开销

MolmoMotion：语言引导的3D运动预测

2026-06-17 23:26 UTC+8

MolmoMotion是一种新型3D运动预测模型，能够根据视频帧、物体上的3D点以及语言指令预测未来几秒内物体点的3D轨迹。该模型在多个下游任务中表现出色，如机器人规划和可控视频生成。同时发布了最大的3D点轨迹数据集MolmoMotion-1M和基准测试PointMotionBench。

MolmoMotion利用语言指令引导3D运动预测，显著优于现有方法。
模型支持自回归和流匹配两种变体，分别适用于确定性和不确定性场景。

从Hugging Face Hub到机器人硬件：Strands Agents与LeRobot的集成

2026-06-17 18:18 UTC+8

AWS开源SDK Strands Robots集成了LeRobot，允许开发者通过单一Agent工作流从Hub数据集训练并在模拟或实体机器人上部署策略。本文介绍了五步流程，并提供了可在笔记本上运行的示例。

Strands Robots SDK将LeRobot暴露为可组合的AgentTools，实现从数据集到机器人硬件的端到端控制。
模拟和硬件场景共享相同的DatasetRecorder和LeRobotDataset格式，确保数据集兼容。

GLM-5.2：专为长周期任务构建

2026-06-17 17:01 UTC+8

GLM-5.2 是 Z.AI 推出的最新旗舰模型，专为长周期任务设计，拥有稳定的 1M 上下文窗口，在编码基准测试中表现优异，并引入 IndexShare 架构以降低计算成本，同时提供灵活的努力水平控制。该模型采用 MIT 开源许可证，无区域限制。

GLM-5.2 提供稳定的 1M token 上下文，支持长周期工程任务。
在 FrontierSWE、PostTrainBench 等长周期编码基准上表现领先，接近封闭源模型。

智能体资源发现：让智能体自己搜索

2026-06-17 08:00 UTC+8

Agentic Resource Discovery（ARD）规范为AI智能体提供了一个发现层，使其能够动态寻找工具、技能和其他智能体，而无需预安装配置。Hugging Face 在其 Hub 上实现了参考工具，支持自然语言搜索。

ARD 定义了跨联邦注册表编目和搜索智能体能力的标准。
Hugging Face 的 Discover 工具实现了 ARD，支持对技能、MCP 服务器和 AI 应用的自然语言搜索。

开源能打败OpenAI吗？

2026-06-16 13:41 UTC+8

在中美AI竞赛中，开源与闭源模式的哲学分歧可能决定胜负。中国AI实验室积极发布开源模型，而美国巨头如OpenAI和Anthropic则采用闭源方式。前Hugging Face亚太区负责人王铁振在Rest of World活动中讨论了开源模型的历史、中国AI实验室的盈利方式以及模型蒸馏和知识产权争议。

中美AI竞赛中，开源与闭源模式对立，中国倾向开源，美国偏好闭源。
开源模型通过API订阅、基础设施支持和品牌建设实现盈利。

olmo-eval：面向模型开发循环的评估工作台

2026-06-12 23:56 UTC+8

olmo-eval 是一个新的评估工作台，旨在支持 LLM 开发过程中持续进行的模型评估。它建立在 OLMES 标准之上，提供灵活的任务定义、可交换的运行时策略以及详细的逐问题比较功能，帮助开发者判断每次干预的效果是否显著。

olmo-eval 针对模型开发中的反复评估循环而设计，支持快速添加基准、跨检查点运行和细粒度结果分析。
与 Harbor 等工具不同，olmo-eval 提供轻量级和沙箱两种运行模式，并根据基准需求自动选择。

PyTorch 性能分析（第2部分）：从 nn.Linear 到融合 MLP

2026-06-11 08:00 UTC+8

本文是 PyTorch 性能分析系列的第二部分，深入探讨了 nn.Linear 层的内部机制，包括转置操作、融合偏置的 epilogue 技术，以及 torch.compile 对单个线性层的影响。随后，文章剖析了一个包含 GeGLU 激活的多层感知机（MLP）的性能特征，展示了 GPU 内核的调度和执行过程。

nn.Linear 通过 epilogue 将偏置加法融合到矩阵乘法内核中，避免额外的内存访问。
torch.compile 对单个 nn.Linear 层无明显加速，但能消除 CPU 调度开销。

Cohere 发布 North Mini Code：专为开发者设计的首个模型

2026-06-09 23:56 UTC+8

Cohere 发布了 North Mini Code，一个 300 亿参数的混合专家模型，拥有 30 亿活跃参数，专为代理式软件工程任务设计。该模型在 Apache 2.0 许可证下开源，并在多项编码基准测试中表现优异，超越了同类开源模型。

300 亿参数 MoE 模型，30 亿活跃参数，专注于代理式编码。
在 Artificial Analysis 编码指数上得分 33.4，超越多个更大模型。

Hugging Face 上目前最好的免费图像生成器！

2026-06-09 22:00 UTC+8

本文从 Hugging Face 上超过 90,000 个文本到图像模型中精选出七个值得在 2026 年使用的模型，涵盖 FLUX.1 Schnell、FLUX.1 Dev、FLUX.1 Kontext Dev、Stable Diffusion 3.5 Large、FLUX.2 Dev、Playground v2.5 和 Kolors，并提供了每个模型的许可证、最佳用途和实际权衡。

FLUX.1 Schnell 是唯一一个采用 Apache 2.0 许可证的主流模型，支持商用且生成速度快。
FLUX.1 Kontext Dev 擅长基于文本指令编辑图像，并能在多次迭代中保持身份一致。

多媒体积木块：用Hugging Face Spaces构建3D巴黎画廊

2026-06-09 18:46 UTC+8

作者通过一个编码智能体，利用两个Hugging Face Space（图像生成和3D高斯泼溅重建），仅通过文本提示就构建了一个展示巴黎纪念碑的3D网站。整个过程无需图像生成器或3D工具，智能体通过每个Space的agents.md文件自动调用API并拼接结果。文章阐述了多媒体AI领域的“积木经济”趋势——将模型作为可调用的独立组件，由智能体灵活组合，大幅降低集成门槛。

编码智能体通过调用两个Hugging Face Spaces自动生成图像和3D高斯泼溅，构建了巴黎纪念碑3D展示网站。
每个Gradio Space的agents.md文件为智能体提供了完整的API调用信息，无需手动集成。

NeuroBait：我微调了一个模型来激发ADHD大脑的多巴胺

2026-06-09 17:04 UTC+8

NeuroBait是一个针对ADHD大脑微调的AI模型，旨在通过提供温暖、可操作的小步骤来克服任务启动瘫痪，而不是传统的待办事项列表。该项目源于作者的妻子患有ADHD，通过观察和实践，利用LoRA在Gemma 3 12B模型上训练，并部署在Hugging Face Space上。它不仅是ADHD工具，也能帮助任何感到不知所措的人。

NeuroBait通过生成温暖、流动的文字，提供微小可行的行动，帮助ADHD大脑启动任务。
项目基于对ADHD患者的真实观察，而非理论，使用LoRA微调Gemma 3 12B模型。

Hush：面向语音AI代理的开源噪声抑制工具

2026-06-09 15:39 UTC+8

Hush是Weya AI开发的开源语音增强模型，专门用于语音AI代理，能在CPU上实时隔离主要说话者，抑制背景噪音和竞争人声，延迟低于1毫秒。模型仅8MB，基于Apache 2.0许可开源，已在Hugging Face音频排行榜位列第五。

实时隔离主要说话者，去除背景噪音和竞争语音，延迟低于1毫秒。
CPU运行，无需GPU，模型仅8MB，适合实时语音流水线。