AI News HubLIVE
站内改写2 分钟阅读

OpenJarvis:首个完全本地运行的AI智能体框架,工具、记忆与学习皆在设备端

斯坦福大学和Lambda Labs发布了OpenJarvis,一个开源框架,可在设备上完全运行推理、智能体、记忆和学习。该框架将个人AI系统分解为五个可组合的原语,在基准测试中平均仅落后最佳云模型3.2个百分点,而边际API成本降低约800倍,延迟降低约4倍。

来源MarkTechPost作者: Asif Razzaq

斯坦福大学和Lambda Labs的研究人员发布了OpenJarvis,这是一个开源框架,能够在用户设备上完全运行推理、智能体、记忆和学习功能。该框架旨在让个人AI真正本地化,无需持续依赖云API。

OpenJarvis并非单一模型,而是一个框架,它可以将任何支持的模型与可配置的智能体栈组合使用。研究团队在11个本地模型(来自Qwen3.5、Gemma4、Nemotron和Granite四个系列)上进行了评估,并与Claude Opus 4.6、GPT-5.4和Gemini 3.1 Pro等云基线进行了对比。结果显示,最佳本地模型Qwen3.5-122B平均准确率达到80.3%,而最佳云模型Claude Opus 4.6为83.5%,差距仅为3.2个百分点。同时,本地模型的边际API成本约为云模型的1/800(每查询约0.001美分 vs 0.009美分),端到端延迟也降低了约4倍。

框架的核心架构由五个类型化的原语组成,通过一个名为“spec”的声明性配置对象进行组合。这五个原语是:智能(模型、权重、生成参数和量化格式)、引擎(推理运行时,如Ollama、vLLM等)、智能体(推理循环、系统提示和工具使用策略)、工具与记忆(外部接口、检索后端、25+数据连接器和32+消息通道,支持MCP)以及学习(优化器,可接受LoRA、DSPy、GEPA或LLM引导的规范搜索)。每个原语都可以独立替换,并且spec被序列化为可移植的TOML文件。

OpenJarvis的第二大贡献是LLM引导的规范搜索。这是一种本地-云协作方法:在搜索时,前沿云模型充当教师,读取轨迹、诊断故障集群,并提出跨原语的编辑建议。编辑只有在改进目标故障集群且不引起其他方面显著回归时才会被接受(默认容忍度为1%)。优化后的spec完全在设备上运行,推理时无需任何云调用。教师仅在搜索时使用;按每天100次查询计算,六个月后摊销的教师成本降至每次查询不到0.001美元。

研究团队通过8项基准测试(涵盖508个任务)评估了OpenJarvis,包括工具调用、智能体工作流、编程、客户服务、通用助手和深度研究等。在“交换测试”中,将现有框架中的云模型替换为Qwen3.5-9B会导致准确率下降25-39个百分点;而在相同模型下使用OpenJarvis的spec,残余下降缩小至5.6-16.5个百分点,恢复了56-77%的可移植性损失。LLM引导的规范搜索将Qwen3.5-9B学生的性能提升至PinchBench 100%、LiveCodeBench 83%、LiveResearchBench 91%,整个基准套件的平均增益在13.1至31.5个百分点之间。

安装过程简单,只需一条命令,大约三分钟即可完成。框架提供八个内置智能体,支持按需、定时和连续三种执行模式,可连接25+数据源,并通过32+消息通道暴露智能体。技能可从外部目录导入,遵循agentskills.io规范。

OpenJarvis以Apache 2.0许可发布,框架于2026年3月12日发布。研究论文于2026年5月16日提交至arXiv。研究团队指出,所有结果均基于每种配置五次运行的平均值,使用GPT-5-mini作为评判者,并在单一机器上运行。但总体而言,OpenJarvis以微小的准确率代价,换来了显著的成本、延迟和隐私优势。