大型行動模型(LAM)與智慧體LLM:真正的區別是什麼?
大型行動模型(LAM)和智慧體LLM是AI中兩個重要的概念,但經常被混淆。本文解析了它們的區別:智慧體LLM透過外部編排層獲得行動能力,而LAM從訓練之初就以生成正確、可執行的動作為目標。文章還提供了何時使用每種系統的實用指南。
當你對AI說“潤色我的郵件併傳送”時,不同的系統會有截然不同的反應:一個聊天機器人只會給你一段說明;智慧體LLM會嘗試開啟你的郵箱,但有時會出錯;而LAM則直接完成,確認並繼續。這個場景揭示了大語言模型(LLM)與大型行動模型(LAM)之間的關鍵區別,這是當前AI領域最實用但最模糊的區分之一。
智慧體LLM本質上是一個放置在推理迴圈中的語言模型,配有工具呼叫能力。它遵循“推理-行動-觀察”的迴圈,但行動能力完全依賴於外部框架。一旦去除框架,它就變回一個聊天機器人。這種架構的優點是靈活,同一個模型可以完成多種任務;但缺點是可靠性不足,容易選錯工具、產生幻覺引數或陷入死迴圈。例如,一個智慧體LLM可能錯誤地呼叫刪除函式而不是傳送函式,導致嚴重後果。
而LAM採用不同的方法:從訓練第一天起,生成正確、可執行的行動就是首要目標。訓練資料不是網路文本,而是行動軌跡——包括點選、API呼叫、UI互動和多步驟任務完成。例如,Salesforce的xLAM-1B模型只有10億引數,卻在函式呼叫基準上超越了175倍大的GPT-3.5。LAM的“感知-規劃-行動-學習”迴圈使其在固定行動空間中表現出色。
實際應用中,最強大的生產系統不會二選一,而是結合兩者:用智慧體LLM進行推理和開放解釋,然後將高風險的行動(如支付、資料更改)透過受保護的LAM執行。選擇哪個取決於行動空間是開放還是封閉:若行動已知且固定,LAM更可靠、更快速、更經濟;若任務開放或不明,智慧體LLM提供更大的靈活性。常見問題包括:LAM不僅是微調後的LLM;小團隊應從智慧體LLM開始;兩者互補,不會互相淘汰。