AI News HubLIVE
站内改写1 分钟阅读

Holo3.1:快速且本地的计算机使用代理

HCompany发布Holo3.1,这是其计算机使用代理模型系列的重大升级,增强了在桌面、移动和不同代理框架中的鲁棒性,并首次推出量化检查点以支持本地推理。

HCompany于2026年6月2日发布了Holo3.1,这是其计算机使用代理模型系列的重大升级。继3月推出Holo3后,开发者和企业迅速将其部署于浏览器自动化、商业软件和内部工具等场景。然而,团队发现仅靠性能不足以满足用户需求——用户需要跨桌面和移动环境的无缝体验,以及从云端到完全本地执行的灵活部署。

Holo3.1正是为此而生。该模型在三个关键维度上提升了鲁棒性:环境支持(Web、桌面、移动)、代理框架兼容性以及部署目标。特别地,Holo3.1首次发布了量化检查点,包括FP8、Q4 GGUF和NVFP4,为本地推理优化。

在移动自动化方面,Holo3.1的35B-A3B模型在AndroidWorld上从67%提升至79.3%,而4B和9B小模型也从58%提升至72%。在跨框架性能上,Holo3.1引入了函数调用协议,与原有的结构化JSON输出互补,在OSWorld和内部基准测试中与原生执行达到近乎一致的表现,同时在与Holotab产品框架的集成中比Holo3提升了25%以上。

为支持成本效益和私有部署,Holo3.1提供了多种模型尺寸:超轻量级的0.8B、经济高效的4B、平衡性能与延迟的9B,以及最先进的35B-A3B。量化版本是本次发布的亮点:NVFP4(W4A16)在DGX Spark上实现了1.41倍于FP8和1.74倍于BF16的总吞吐量。结合与NVIDIA合作开发的代理框架优化,端到端平均步骤时间从6.8秒缩短至3.3秒,提速约2倍。

Holo3.1还发布了Q4 GGUF检查点,专为在Windows或Mac机器上本地运行代理设计,模型可运行在同一设备(如Apple Silicon)或同一网络的DGX Spark上,确保数据完全私有且不离开用户网络。

Holo3.1系列已在Hugging Face和Holo Models API上提供。开发者可通过技术博客和Hugging Face集合获取详情。HCompany期待看到社区基于Holo3.1构建更多创新应用。