OpenJarvis:首個完全本地運行的AI智能體框架,工具、記憶與學習皆在設備端
斯坦福大學和Lambda Labs發佈了OpenJarvis,一個開源框架,可在設備上完全運行推理、智能體、記憶和學習。該框架將個人AI系統分解為五個可組合的原語,在基準測試中平均僅落後最佳雲模型3.2個百分點,而邊際API成本降低約800倍,延遲降低約4倍。
斯坦福大學和Lambda Labs的研究人員發佈了OpenJarvis,這是一個開源框架,能夠在用户設備上完全運行推理、智能體、記憶和學習功能。該框架旨在讓個人AI真正本地化,無需持續依賴雲API。
OpenJarvis並非單一模型,而是一個框架,它可以將任何支持的模型與可配置的智能體棧組合使用。研究團隊在11個本地模型(來自Qwen3.5、Gemma4、Nemotron和Granite四個系列)上進行了評估,並與Claude Opus 4.6、GPT-5.4和Gemini 3.1 Pro等雲基線進行了對比。結果顯示,最佳本地模型Qwen3.5-122B平均準確率達到80.3%,而最佳雲模型Claude Opus 4.6為83.5%,差距僅為3.2個百分點。同時,本地模型的邊際API成本約為雲模型的1/800(每查詢約0.001美分 vs 0.009美分),端到端延遲也降低了約4倍。
框架的核心架構由五個類型化的原語組成,通過一個名為“spec”的聲明性配置對象進行組合。這五個原語是:智能(模型、權重、生成參數和量化格式)、引擎(推理運行時,如Ollama、vLLM等)、智能體(推理循環、系統提示和工具使用策略)、工具與記憶(外部接口、檢索後端、25+數據連接器和32+消息通道,支持MCP)以及學習(優化器,可接受LoRA、DSPy、GEPA或LLM引導的規範搜索)。每個原語都可以獨立替換,並且spec被序列化為可移植的TOML文件。
OpenJarvis的第二大貢獻是LLM引導的規範搜索。這是一種本地-雲協作方法:在搜索時,前沿雲模型充當教師,讀取軌跡、診斷故障集羣,並提出跨原語的編輯建議。編輯只有在改進目標故障集羣且不引起其他方面顯著迴歸時才會被接受(默認容忍度為1%)。優化後的spec完全在設備上運行,推理時無需任何雲調用。教師僅在搜索時使用;按每天100次查詢計算,六個月後攤銷的教師成本降至每次查詢不到0.001美元。
研究團隊通過8項基準測試(涵蓋508個任務)評估了OpenJarvis,包括工具調用、智能體工作流、編程、客户服務、通用助手和深度研究等。在“交換測試”中,將現有框架中的雲模型替換為Qwen3.5-9B會導致準確率下降25-39個百分點;而在相同模型下使用OpenJarvis的spec,殘餘下降縮小至5.6-16.5個百分點,恢復了56-77%的可移植性損失。LLM引導的規範搜索將Qwen3.5-9B學生的性能提升至PinchBench 100%、LiveCodeBench 83%、LiveResearchBench 91%,整個基準套件的平均增益在13.1至31.5個百分點之間。
安裝過程簡單,只需一條命令,大約三分鐘即可完成。框架提供八個內置智能體,支持按需、定時和連續三種執行模式,可連接25+數據源,並通過32+消息通道暴露智能體。技能可從外部目錄導入,遵循agentskills.io規範。
OpenJarvis以Apache 2.0許可發佈,框架於2026年3月12日發佈。研究論文於2026年5月16日提交至arXiv。研究團隊指出,所有結果均基於每種配置五次運行的平均值,使用GPT-5-mini作為評判者,並在單一機器上運行。但總體而言,OpenJarvis以微小的準確率代價,換來了顯著的成本、延遲和隱私優勢。