AI News HubLIVE
站內改寫1 分鐘閱讀

大型行動模型(LAM)與智能體LLM:真正的區別是什麼?

大型行動模型(LAM)和智能體LLM是AI中兩個重要的概念,但經常被混淆。本文解析了它們的區別:智能體LLM通過外部編排層獲得行動能力,而LAM從訓練之初就以生成正確、可執行的動作為目標。文章還提供了何時使用每種系統的實用指南。

來源Analytics Vidhya作者: Sree Vamsi

當你對AI説“潤色我的郵件併發送”時,不同的系統會有截然不同的反應:一個聊天機器人只會給你一段説明;智能體LLM會嘗試打開你的郵箱,但有時會出錯;而LAM則直接完成,確認並繼續。這個場景揭示了大語言模型(LLM)與大型行動模型(LAM)之間的關鍵區別,這是當前AI領域最實用但最模糊的區分之一。

智能體LLM本質上是一個放置在推理循環中的語言模型,配有工具調用能力。它遵循“推理-行動-觀察”的循環,但行動能力完全依賴於外部框架。一旦去除框架,它就變回一個聊天機器人。這種架構的優點是靈活,同一個模型可以完成多種任務;但缺點是可靠性不足,容易選錯工具、產生幻覺參數或陷入死循環。例如,一個智能體LLM可能錯誤地調用刪除函數而不是發送函數,導致嚴重後果。

而LAM採用不同的方法:從訓練第一天起,生成正確、可執行的行動就是首要目標。訓練數據不是網絡文本,而是行動軌跡——包括點擊、API調用、UI交互和多步驟任務完成。例如,Salesforce的xLAM-1B模型只有10億參數,卻在函數調用基準上超越了175倍大的GPT-3.5。LAM的“感知-規劃-行動-學習”循環使其在固定行動空間中表現出色。

實際應用中,最強大的生產系統不會二選一,而是結合兩者:用智能體LLM進行推理和開放解釋,然後將高風險的行動(如支付、數據更改)通過受保護的LAM執行。選擇哪個取決於行動空間是開放還是封閉:若行動已知且固定,LAM更可靠、更快速、更經濟;若任務開放或不明,智能體LLM提供更大的靈活性。常見問題包括:LAM不僅是微調後的LLM;小團隊應從智能體LLM開始;兩者互補,不會互相淘汰。