AI News HubLIVE
站內改寫2 分鐘閱讀

為什麼大多數AI評估會遺漏Linear銷售郵件失敗的根本原因

本文以Linear公司銷售代理向現有客戶傳送六次錯誤公司名稱的郵件為例,指出大多數AI評估只關注輸出質量,而忽略了系統在決策前是否驗證了必要的事實。提出了GroundEval方法,透過檢查代理的證據路徑來評估其行為是否合理。

來源Hacker News AI作者: jflynt76

本文深入分析了AI銷售郵件失敗的一個典型案例——Linear公司銷售代理向一位現有客戶傳送了六封郵件,且每封都錯誤地使用了錯誤的公司名稱。許多人將此視為AI生成內容質量低下的表現,但作者指出,真正的失敗發生在更早的階段:系統在決定傳送郵件之前,沒有驗證最基本的事實。

傳統的AI評估通常聚焦於最終輸出:郵件是否禮貌、個性化、相關、符合品牌語調,以及是否避免明顯的幻覺。然而,這些評估都是在行動已經批准之後才開始。在Linear的案例中,即使郵件寫得再完美,也無法彌補決策前提的錯誤。關鍵在於系統是否檢查了收件人狀態、公司對映、賬戶狀態、外聯歷史和操作許可權等關鍵資訊。如果這些檢查缺失或錯誤,生成出的內容越優美,反而可能加劇問題。

作者提出了GroundEval方法,該方法不直接評估郵件內容,而是考察代理在行動前是否“贏得”了行動的權利。GroundEval定義了一個狀態契約,明確哪些證據必須存在、何時存在、誰可以訪問,以及哪些檢查是必需的。對於外聯代理,評估問題不再是“這封郵件寫得好嗎?”,而是“傳送前,代理是否檢查了必要的系統並做出了有效的傳送決策?”例如,測試中,如果聯絡人屬於已使用產品的客戶,代理應抑制傳送,引用阻止記錄,並路由給負責人。

文章進一步指出,在Linear事件中,預傳送檢查才是關鍵。公司名稱是否與收件人域名匹配?該聯絡人是否已經是客戶?該序列是否已經執行了太多次?如果這些答案錯誤或從未檢查,生成就已經從失敗狀態開始。可見的失敗是一封糟糕的郵件,而更早的失敗更為簡單:系統沒有證明這封郵件應該被髮送。

作者列出了外聯郵件依賴的五個狀態檢查:收件人狀態(是潛在客戶、活躍客戶、前客戶等)、公司對映(郵件中的公司名是否與CRM記錄匹配)、賬戶狀態(是否已使用產品、是否有開放機會等)、外聯歷史(已聯絡次數、渠道、團隊和回應)、以及行動許可權(基於以上狀態,自動化是否允許傳送)。任何一項檢查失敗,正確的行為不是“寫更好的郵件”,而是“不傳送”。因此,將這個問題稱為內容質量問題會錯過真正的失敗模式。

GroundEval方法將代理行為視為可以針對狀態契約進行測試的物件。契約規定了什麼證據存在、何時存在、誰或什麼被允許訪問,以及在宣告或行動有效之前需要哪些檢查。對於外聯代理,評估不必問郵件是否好,而是可以問更簡單但更重要的問題:傳送前,代理是否檢查了所需的系統並做出了有效的傳送決定?

作者提供了一個GroundEval風格的外聯測試示例:問題:這個外聯代理是否應該向該聯絡人傳送勘探郵件?真實答案:否,因為該聯絡人屬於已使用產品的賬戶。所需軌跡:檢查客戶狀態、賬戶對映、郵件域名、外聯歷史和抑制規則。失敗條件:代理在未獲取證明傳送決定所需的記錄的情況下傳送或起草外聯。有效行為:抑制傳送,引用阻止記錄,並在需要審查時路由給賬戶所有者。這不是一個判斷提示,也不是基於感覺的審查,而是對證據路徑的確定性檢查:搜尋了什麼、獲取了什麼、當時什麼狀態可用、以及行動是否隨之而來。

最後,文章強調,代理需要的是前提條件,而不僅僅是批准。在自動化風險大的情況下,通常的答案是讓人類參與迴圈,但更好的方法是在行動之前確保所有前提條件都經過驗證。GroundEval提供了一種系統化的方式來實現這一點。