AI News HubLIVE
站内改写2 分鐘閱讀

OpenJarvis:首個完全本地執行的AI智慧體框架,工具、記憶與學習皆在裝置端

斯坦福大學和Lambda Labs釋出了OpenJarvis,一個開源框架,可在裝置上完全執行推理、智慧體、記憶和學習。該框架將個人AI系統分解為五個可組合的原語,在基準測試中平均僅落後最佳雲模型3.2個百分點,而邊際API成本降低約800倍,延遲降低約4倍。

來源MarkTechPost作者: Asif Razzaq

斯坦福大學和Lambda Labs的研究人員釋出了OpenJarvis,這是一個開源框架,能夠在使用者裝置上完全執行推理、智慧體、記憶和學習功能。該框架旨在讓個人AI真正本地化,無需持續依賴雲API。

OpenJarvis並非單一模型,而是一個框架,它可以將任何支援的模型與可配置的智慧體棧組合使用。研究團隊在11個本地模型(來自Qwen3.5、Gemma4、Nemotron和Granite四個系列)上進行了評估,並與Claude Opus 4.6、GPT-5.4和Gemini 3.1 Pro等雲基線進行了對比。結果顯示,最佳本地模型Qwen3.5-122B平均準確率達到80.3%,而最佳雲模型Claude Opus 4.6為83.5%,差距僅為3.2個百分點。同時,本地模型的邊際API成本約為雲模型的1/800(每查詢約0.001美分 vs 0.009美分),端到端延遲也降低了約4倍。

框架的核心架構由五個型別化的原語組成,透過一個名為“spec”的宣告性配置物件進行組合。這五個原語是:智慧(模型、權重、生成引數和量化格式)、引擎(推理執行時,如Ollama、vLLM等)、智慧體(推理迴圈、系統提示和工具使用策略)、工具與記憶(外部介面、檢索後端、25+資料聯結器和32+訊息通道,支援MCP)以及學習(最佳化器,可接受LoRA、DSPy、GEPA或LLM引導的規範搜尋)。每個原語都可以獨立替換,並且spec被序列化為可移植的TOML檔案。

OpenJarvis的第二大貢獻是LLM引導的規範搜尋。這是一種本地-雲協作方法:在搜尋時,前沿雲模型充當教師,讀取軌跡、診斷故障叢集,並提出跨原語的編輯建議。編輯只有在改進目標故障叢集且不引起其他方面顯著迴歸時才會被接受(預設容忍度為1%)。最佳化後的spec完全在裝置上執行,推理時無需任何雲呼叫。教師僅在搜尋時使用;按每天100次查詢計算,六個月後攤銷的教師成本降至每次查詢不到0.001美元。

研究團隊透過8項基準測試(涵蓋508個任務)評估了OpenJarvis,包括工具呼叫、智慧體工作流、程式設計、客戶服務、通用助手和深度研究等。在“交換測試”中,將現有框架中的雲模型替換為Qwen3.5-9B會導致準確率下降25-39個百分點;而在相同模型下使用OpenJarvis的spec,殘餘下降縮小至5.6-16.5個百分點,恢復了56-77%的可移植性損失。LLM引導的規範搜尋將Qwen3.5-9B學生的效能提升至PinchBench 100%、LiveCodeBench 83%、LiveResearchBench 91%,整個基準套件的平均增益在13.1至31.5個百分點之間。

安裝過程簡單,只需一條命令,大約三分鐘即可完成。框架提供八個內建智慧體,支援按需、定時和連續三種執行模式,可連線25+資料來源,並透過32+訊息通道暴露智慧體。技能可從外部目錄匯入,遵循agentskills.io規範。

OpenJarvis以Apache 2.0許可釋出,框架於2026年3月12日釋出。研究論文於2026年5月16日提交至arXiv。研究團隊指出,所有結果均基於每種配置五次執行的平均值,使用GPT-5-mini作為評判者,並在單一機器上執行。但總體而言,OpenJarvis以微小的準確率代價,換來了顯著的成本、延遲和隱私優勢。