2026-06-02 22:13 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

Holo3.1：快速且本地的计算机使用代理

HCompany发布Holo3.1，这是其计算机使用代理模型系列的重大升级，增强了在桌面、移动和不同代理框架中的鲁棒性，并首次推出量化检查点以支持本地推理。

HCompany于2026年6月2日发布了Holo3.1，这是其计算机使用代理模型系列的重大升级。继3月推出Holo3后，开发者和企业迅速将其部署于浏览器自动化、商业软件和内部工具等场景。然而，团队发现仅靠性能不足以满足用户需求——用户需要跨桌面和移动环境的无缝体验，以及从云端到完全本地执行的灵活部署。

Holo3.1正是为此而生。该模型在三个关键维度上提升了鲁棒性：环境支持（Web、桌面、移动）、代理框架兼容性以及部署目标。特别地，Holo3.1首次发布了量化检查点，包括FP8、Q4 GGUF和NVFP4，为本地推理优化。

在移动自动化方面，Holo3.1的35B-A3B模型在AndroidWorld上从67%提升至79.3%，而4B和9B小模型也从58%提升至72%。在跨框架性能上，Holo3.1引入了函数调用协议，与原有的结构化JSON输出互补，在OSWorld和内部基准测试中与原生执行达到近乎一致的表现，同时在与Holotab产品框架的集成中比Holo3提升了25%以上。

为支持成本效益和私有部署，Holo3.1提供了多种模型尺寸：超轻量级的0.8B、经济高效的4B、平衡性能与延迟的9B，以及最先进的35B-A3B。量化版本是本次发布的亮点：NVFP4（W4A16）在DGX Spark上实现了1.41倍于FP8和1.74倍于BF16的总吞吐量。结合与NVIDIA合作开发的代理框架优化，端到端平均步骤时间从6.8秒缩短至3.3秒，提速约2倍。

Holo3.1还发布了Q4 GGUF检查点，专为在Windows或Mac机器上本地运行代理设计，模型可运行在同一设备（如Apple Silicon）或同一网络的DGX Spark上，确保数据完全私有且不离开用户网络。

Holo3.1系列已在Hugging Face和Holo Models API上提供。开发者可通过技术博客和Hugging Face集合获取详情。HCompany期待看到社区基于Holo3.1构建更多创新应用。