一行命令在 HF Jobs 上运行 vLLM 服务器 2026-06-26 08:00 UTC+8 本文介绍如何通过一行命令在 Hugging Face 基础设施上快速启动一个私有、兼容 OpenAI 的 LLM 端点,无需配置服务器或 Kubernetes,按秒计费。涵盖从启动、查询、清理到扩展为大模型、创建聊天 UI、SSH 调试及作为编码代理后端的完整流程,并与 Inference Endpoints 进行比较。
使用 hf jobs run 命令结合 vLLM Docker 镜像,通过 --expose 8000 暴露端口,即可在 HF Jobs 上运行 vLLM 服务器。 端点通过 Hugging Face token 进行认证,仅限有读取权限的用户访问,支持使用 curl 或 OpenAI Python 客户端查询。 混合模型在哪些token上预测得更好? 2026-06-26 00:11 UTC+8 Ai2团队比较了7B参数规模的Transformer模型Olmo 3和混合模型Olmo Hybrid,发现混合模型在内容词(名词、动词、形容词)和需要上下文推理的token上表现更优,但在重复token和闭合括号上优势消失。研究表明,基于token的损失过滤可以揭示架构间的细微差异。
混合模型在含义丰富的token(如实词)上预测更准确,而在重复token上优势消失。 混合模型使用递归层替代部分注意力层,具有固定大小的记忆,适合跟踪序列变化。 使用NVIDIA NeMo AutoModel加速Transformer微调 2026-06-25 00:00 UTC+8 NVIDIA NeMo AutoModel基于HuggingFace Transformers v5,通过专家并行、DeepEP融合通信和TransformerEngine内核,将MoE模型微调的训练吞吐量提升3.4-3.7倍,GPU内存减少29-32%,且无需更改API。
NeMo AutoModel继承AutoModelForCausalLM,仅需更改导入行即可实现性能提升。 在550B规模模型上,专家并行使全微调在16节点H100集群上可行,而Transformers v5因内存不足无法运行。 使用CUGA构建真实的智能体应用:轻量级框架上的二十多个工作示例 2026-06-23 20:51 UTC+8 CUGA是IBM开源的智能体框架,处理了智能体构建中的管道工作,让开发者只需编写工具列表和提示词即可。本文通过一个IBM云架构顾问示例,展示了如何用少量代码构建一个完整的智能体应用,并介绍了CUGA的规划、执行、反射步骤和策略系统。
CUGA是一个开源智能体框架,简化了智能体应用的构建过程,开发者只需定义工具和提示。 本文展示了二十多个单文件应用,其中一个IBM云顾问示例详细说明了实现。 在Transformers.js中试验提出的跨域存储API 2026-06-23 08:00 UTC+8 本文介绍了跨域存储(COS)API提案,该API允许Web应用跨域共享大型文件(如AI模型和Wasm运行时),通过加密哈希而非URL标识文件,从而避免重复下载和存储。文章以Transformers.js为例,展示了当前浏览器缓存隔离导致的问题,以及COS如何通过哈希标识、可升级的访问控制和安全完整性检查来解决这些问题。
当前浏览器缓存按源隔离,导致跨域应用重复下载相同的AI模型和Wasm文件。 跨域存储(COS)API使用加密哈希标识文件,实现跨域共享。 每周发布huggingface_hub:借助AI、开源工具和人工审核 2026-06-23 08:00 UTC+8 Hugging Face团队通过结合AI和开源工具,将huggingface_hub的发布周期从4-6周缩短至每周一次,同时保留人工审核环节以确保质量。该流程基于GitHub Actions、OpenCode和开放权重模型,每次发布成本仅约0.25美元。
发布周期从4-6周缩短为每周一次 AI生成发布说明初稿,但通过确定性脚本验证准确性 PP-OCRv6 在 Hugging Face 上:从 1.5M 到 34.5M 参数的 50 种语言 OCR 2026-06-22 21:18 UTC+8 PP-OCRv6 是 PaddleOCR 的最新通用 OCR 模型系列,支持从 1.5M 到 34.5M 参数的三个层级,覆盖 50 种语言。相比 PP-OCRv5_server,检测准确率提升 4.6 个百分点,识别准确率提升 5.1 个百分点。新架构包括 PPLCNetV4 骨干网络、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块。支持 Paddle Inference、Transformers 和 ONNX Runtime 后端。
发布三个模型层级:tiny(1.5M)、small(7.7M)、medium(34.5M),适配不同部署场景。 支持 50 种语言,包括中、英、日及 46 种拉丁语系语言。 我们让本地模型免费(*)为OpenClaw仓库进行问题分类! 2026-06-22 08:00 UTC+8 OpenClaw维护者利用本地开源模型(Gemma、Qwen)在智能体框架中,实时对问题和拉取请求进行分类,性能媲美闭源模型,仅需硬件电费成本。
本地模型(如Gemma和Qwen)能有效对GitHub问题和PR进行分类,用于问题分派。 系统使用带有只读shell(reposhell)的智能体框架,安全地检查代码。 MosaicLeaks:你的研究代理能保守秘密吗? 2026-06-19 02:13 UTC+8 深度研究代理结合私有文档与网页搜索时,可能通过查询日志无意中泄露敏感信息。MosaicLeaks基准量化了这种隐私风险,并提出了一种名为隐私感知深度研究(PA-DR)的训练方法,可以在保持任务性能的同时,将信息泄露减少3倍以上。
MosaicLeaks引入了一个多跳研究链基准,这些链交织了私有本地文档和公共网页查询,测量了三种泄露程度:意图、答案和完整信息。 仅针对任务性能进行训练会同时提高成功率和泄露率;使用PA-DR训练可将答案/完整信息泄露从34.0%降至9.9%,同时保持严格链条成功率为58.7%。 超越LoRA:你能击败最流行的微调技术吗? 2026-06-18 08:00 UTC+8 LoRA是目前最流行的参数高效微调(PEFT)技术,但研究表明其他方法在某些任务上表现更好。本文介绍了Hugging Face的PEFT库及其基准测试,探讨了如何根据具体需求选择合适的PEFT技术,并指出LoRA并非总是最佳选择。
LoRA在PEFT技术中占主导地位,但可能不是最优选择。 Hugging Face的PEFT库提供了统一API和基准测试,帮助用户选择合适的PEFT技术。 它足够智能体化了吗?使用自有工具对开源模型进行基准测试 2026-06-18 08:00 UTC+8 一个全新的基准测试框架专注于评估AI智能体使用软件库的整个过程工作量,以Hugging Face的Transformers库为案例。通过测量令牌使用量、时间、错误率等指标,揭示不同模型和工具层级下的性能权衡,为库维护者和智能体用户提供关键见解。
标准基准测试仅检查最终答案,而该框架测量整个过程的令牌成本、时间和错误 测试了三种工具层级:裸安装、克隆源码和打包Skill,各有不同的开销 MolmoMotion:语言引导的3D运动预测 2026-06-17 23:26 UTC+8 MolmoMotion是一种新型3D运动预测模型,能够根据视频帧、物体上的3D点以及语言指令预测未来几秒内物体点的3D轨迹。该模型在多个下游任务中表现出色,如机器人规划和可控视频生成。同时发布了最大的3D点轨迹数据集MolmoMotion-1M和基准测试PointMotionBench。
MolmoMotion利用语言指令引导3D运动预测,显著优于现有方法。 模型支持自回归和流匹配两种变体,分别适用于确定性和不确定性场景。 从Hugging Face Hub到机器人硬件:Strands Agents与LeRobot的集成 2026-06-17 18:18 UTC+8 AWS开源SDK Strands Robots集成了LeRobot,允许开发者通过单一Agent工作流从Hub数据集训练并在模拟或实体机器人上部署策略。本文介绍了五步流程,并提供了可在笔记本上运行的示例。
Strands Robots SDK将LeRobot暴露为可组合的AgentTools,实现从数据集到机器人硬件的端到端控制。 模拟和硬件场景共享相同的DatasetRecorder和LeRobotDataset格式,确保数据集兼容。 GLM-5.2:专为长周期任务构建 2026-06-17 17:01 UTC+8 GLM-5.2 是 Z.AI 推出的最新旗舰模型,专为长周期任务设计,拥有稳定的 1M 上下文窗口,在编码基准测试中表现优异,并引入 IndexShare 架构以降低计算成本,同时提供灵活的努力水平控制。该模型采用 MIT 开源许可证,无区域限制。
GLM-5.2 提供稳定的 1M token 上下文,支持长周期工程任务。 在 FrontierSWE、PostTrainBench 等长周期编码基准上表现领先,接近封闭源模型。 智能体资源发现:让智能体自己搜索 2026-06-17 08:00 UTC+8 Agentic Resource Discovery(ARD)规范为AI智能体提供了一个发现层,使其能够动态寻找工具、技能和其他智能体,而无需预安装配置。Hugging Face 在其 Hub 上实现了参考工具,支持自然语言搜索。
ARD 定义了跨联邦注册表编目和搜索智能体能力的标准。 Hugging Face 的 Discover 工具实现了 ARD,支持对技能、MCP 服务器和 AI 应用的自然语言搜索。 olmo-eval:面向模型开发循环的评估工作台 2026-06-12 23:56 UTC+8 olmo-eval 是一个新的评估工作台,旨在支持 LLM 开发过程中持续进行的模型评估。它建立在 OLMES 标准之上,提供灵活的任务定义、可交换的运行时策略以及详细的逐问题比较功能,帮助开发者判断每次干预的效果是否显著。
olmo-eval 针对模型开发中的反复评估循环而设计,支持快速添加基准、跨检查点运行和细粒度结果分析。 与 Harbor 等工具不同,olmo-eval 提供轻量级和沙箱两种运行模式,并根据基准需求自动选择。 PyTorch 性能分析(第2部分):从 nn.Linear 到融合 MLP 2026-06-11 08:00 UTC+8 本文是 PyTorch 性能分析系列的第二部分,深入探讨了 nn.Linear 层的内部机制,包括转置操作、融合偏置的 epilogue 技术,以及 torch.compile 对单个线性层的影响。随后,文章剖析了一个包含 GeGLU 激活的多层感知机(MLP)的性能特征,展示了 GPU 内核的调度和执行过程。
nn.Linear 通过 epilogue 将偏置加法融合到矩阵乘法内核中,避免额外的内存访问。 torch.compile 对单个 nn.Linear 层无明显加速,但能消除 CPU 调度开销。 Cohere 发布 North Mini Code:专为开发者设计的首个模型 2026-06-09 23:56 UTC+8 Cohere 发布了 North Mini Code,一个 300 亿参数的混合专家模型,拥有 30 亿活跃参数,专为代理式软件工程任务设计。该模型在 Apache 2.0 许可证下开源,并在多项编码基准测试中表现优异,超越了同类开源模型。
300 亿参数 MoE 模型,30 亿活跃参数,专注于代理式编码。 在 Artificial Analysis 编码指数上得分 33.4,超越多个更大模型。 多媒体积木块:用Hugging Face Spaces构建3D巴黎画廊 2026-06-09 18:46 UTC+8 作者通过一个编码智能体,利用两个Hugging Face Space(图像生成和3D高斯泼溅重建),仅通过文本提示就构建了一个展示巴黎纪念碑的3D网站。整个过程无需图像生成器或3D工具,智能体通过每个Space的agents.md文件自动调用API并拼接结果。文章阐述了多媒体AI领域的“积木经济”趋势——将模型作为可调用的独立组件,由智能体灵活组合,大幅降低集成门槛。
编码智能体通过调用两个Hugging Face Spaces自动生成图像和3D高斯泼溅,构建了巴黎纪念碑3D展示网站。 每个Gradio Space的agents.md文件为智能体提供了完整的API调用信息,无需手动集成。 NeuroBait:我微调了一个模型来激发ADHD大脑的多巴胺 2026-06-09 17:04 UTC+8 NeuroBait是一个针对ADHD大脑微调的AI模型,旨在通过提供温暖、可操作的小步骤来克服任务启动瘫痪,而不是传统的待办事项列表。该项目源于作者的妻子患有ADHD,通过观察和实践,利用LoRA在Gemma 3 12B模型上训练,并部署在Hugging Face Space上。它不仅是ADHD工具,也能帮助任何感到不知所措的人。
NeuroBait通过生成温暖、流动的文字,提供微小可行的行动,帮助ADHD大脑启动任务。 项目基于对ADHD患者的真实观察,而非理论,使用LoRA微调Gemma 3 12B模型。 将你的 GitHub CI 迁移到 Hugging Face Jobs 2026-06-09 08:00 UTC+8 本文详细介绍了如何将 GitHub Actions CI 迁移到 Hugging Face Jobs,以解决 GitHub 托管的 runner 速度慢、无 GPU 等问题。通过创建调度器 Space、GitHub App 以及修改 runs-on 标签,即可让 CI 作业在 Hugging Face 基础设施上运行,支持 CPU 和 GPU 硬件,并实时流式传输日志。Trackio 的实践表明,CPU 任务时间可缩短约 30%。
GitHub Actions 默认运行在通用机器上,速度慢且不支持 GPU。 使用 Hugging Face Jobs 作为 CI runner,可灵活选择硬件(如 CPU、T4、H200)。 消失的崩盘:五模型经济中的控制与涌现 2026-06-08 21:10 UTC+8 作者在构建小型AI代理经济模拟时发现,原本单一模型下会发生的市场崩盘,在换成五个不同实验室的小模型后消失了。通过多次尝试,作者意识到不能通过机械冲击来控制异质代理群体的行为,而应在结算环节施加确定性覆盖来获得可靠结果。
单一模型下银行挤兑导致蜂蜜价格崩溃,但换成五个不同的小模型后,代理选择囤积而非抛售。 通过外部冲击(如谣言、库存过剩)无法迫使异质代理群体抛售,每次尝试均告失败。 构建巴基斯坦通知助手:一款针对本地安全问题的简易AI工具 2026-06-08 19:46 UTC+8 作者为Hugging Face的Build Small黑客马拉松开发了一款专注于巴基斯坦本地安全问题的AI工具——巴基斯坦通知助手。该工具使用小模型(Qwen3.5 4B)分析可疑消息,提供风险标签、解释和下一步安全建议,支持英文和乌尔都语(包括从右到左的布局)。文章详细分享了模型选型、技术栈、用户界面设计以及使用Codex加速开发的经验。
巴基斯坦通知助手是一款针对巴基斯坦本地诈骗消息的AI安全工具,支持文本和截图分析。 最终采用Qwen3.5 4B Q8模型(通过llama.cpp),在评估中所有高风险诈骗案例和截图案例均通过。 开源社区支持OpenEnv用于智能体强化学习 2026-06-08 08:00 UTC+8 OpenEnv是一个用于创建智能体执行环境(如终端、浏览器等)的开源工具。今天,我们宣布OpenEnv将变得更加开放,由一个包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face在内的委员会协调。该项目旨在为开放源代码的智能体训练提供通用基础设施,并专注于作为互操作性层,而不是定义奖励或训练循环。
OpenEnv是一个用于创建智能体执行环境的开源工具 现在由Meta-PyTorch、Reflection、Unsloth等主要AI组织组成的委员会治理 Mythograph Atelier #1 - 对你有意义的抽象艺术 2026-06-08 03:10 UTC+8 本文作者介绍了Mythograph Atelier的灵感来源,这是一个创建个性化抽象画的AI艺术工作室。灵感结合了博物馆参观的触动、对动态AI原生应用的愿景,以及一个好奇的AI概念——它在生成艺术之前通过提问来理解用户。
Mythograph Atelier是一个AI艺术工作室,旨在创建具有个人意义的抽象画。 AI通过提问了解用户的品味和情感,然后生成艺术。 赞助商特别关注:OpenAI Codex 凭证在 Codex — OpenAI 挑战赛中的使用 2026-06-07 19:38 UTC+8 在Hugging Face举办的“Build Small”黑客马拉松中,参与者面临激活OpenAI Codex和Modal凭证的困难,特别是Codex凭证的激活方法不明确。文章详细介绍了OpenAI Codex Track的奖项设置和参与要求,同时反映了社区在技术支持和文档方面的需求。
参与者发现无法在系统中输入Codex凭证密钥,导致激活失败。 Modal凭证在第二次尝试后成功激活,但初始被拒绝。 Her · हेर — Claude Code 会话的侦探 2026-06-07 18:13 UTC+8 Her 是一款用于分析 Claude Code 会话追踪文件的工具,能够用自然语言重构会话过程,标记风险操作(如部署、配置更改、密钥泄露),并显示令牌消耗和工具使用情况。它完全在本地运行,无需第三方 AI API,并内置了“问她”助手,可基于追踪文件回答问题。
Her 可解读 Claude Code 的 .jsonl 会话文件,用自然语言总结事件并标记风险。 所有处理在本地 GPU 上完成,不上传第三方 API,确保隐私。 五个实验室,五个思维:用小型模型构建多模型金融戏剧 2026-06-07 03:02 UTC+8 本文介绍了《千令牌之林》v2版本,这是一个基于多个小型语言模型的多智能体经济模拟游戏。玩家扮演隐匿的金融家,通过借贷、提供内幕消息(真假皆有)、做空和贿赂来影响市场,而每个智能体(动物角色)使用来自不同实验室的小型模型(GPT-OSS-20B、MiniCPM3-4B、Nemotron-Mini-4B和微调Qwen 0.5B)。文章详细讨论了异构模型集成的技术挑战(如vLLM服务层、CUDA工具链)、信息不对称的防火墙设计、记忆管理(采用有界摘要而非完整历史)以及实验结果(真相防火墙零泄露、内幕消息优势、微调模型高可靠性)。最终结论是:小型模型是可靠的格式生成器但推理不可靠,异构模型群体更有趣且配置成本低,秘密信息必须通过数据流防火墙保护,持久记忆需有界以保持模型专注。
每个智能体使用不同实验室的小型模型,异构性使市场行为更真实 信息不对称通过防火墙设计实现,测试证明内幕消息的隐藏标志从未泄露 职位搜索器:AI驱动的求职助手 2026-06-06 23:36 UTC+8 职位搜索器是一款为应届毕业生设计的AI工具,通过分析简历自动生成LinkedIn搜索查询,并基于技能、经验、教育、行业和资历五个维度对职位进行评分。该项目使用DeepSeek V4 Pro作为教师模型生成标签,Qwen3-8B作为学生模型进行推理,训练数据包括2500份简历和约10000个职位。所有代码、数据集和模型均已开源。
自动简历分析并生成LinkedIn搜索查询 基于五个维度的职位匹配评分 人物图谱:绘制著名思维的地图 2026-06-06 19:42 UTC+8 Persona Atlas 通过 AI 代理从公开网络收集信息,为公众人物构建可度量的行为画像。它将十道开放问题的答案转化为嵌入向量,允许用户直观比较不同人物的思维风格——如幽默、怀疑或抽象——而无需依赖客观成绩。该项目使用小型模型,强调风格而非能力,是“构建小型”黑客马拉松的产物。
输入人名,AI 代理自动研究并构建人物档案。 基于十道开放问题的回答生成嵌入,实现人物间的量化比较。