構建生成式AI應用時的常見陷阱
著名AI專家Chip Huyen總結了構建生成式AI應用時常見的六大陷阱:在不必要時使用生成式AI、混淆糟糕產品與糟糕AI、初始設計過於複雜、過度依賴早期成功、放棄人工評估以及眾包用例缺乏戰略。本文透過具體案例提供了實用建議,幫助團隊避免這些錯誤。
在生成式AI應用開發的早期階段,犯錯是常見的。知名AI專家Chip Huyen根據她的行業經驗,總結了六大常見陷阱,並透過真實的案例提供了避免這些錯誤的建議。
第一大陷阱:在不必要時使用生成式AI。每當新技術出現,高階工程師總會嘆息:“不是所有東西都是釘子。”生成式AI也不例外,其看似無限的能力加劇了凡事都用AI的傾向。Huyen舉例說,一個團隊試圖用生成式AI最佳化家庭能源消耗,他們向LLM輸入高能耗活動清單和即時電價,要求生成降低電費的日程表。實驗顯示可節省30%電費。但Huyen指出,一個簡單的貪心演算法——將最耗電的活動安排在電價最低的時段(如晚上10點後洗衣、充電)——可能同樣有效,甚至更好。實際上,線性規劃等傳統最佳化方法更便宜、更可靠。類似的例子還有用AI檢測網路流量異常、預測客戶來電量和診斷營養不良等。許多情況下,測試解決方案和真正解決問題是兩回事。
第二大陷阱:混淆“糟糕產品”和“糟糕AI”。一些團隊因使用者反饋差而否定生成式AI,但問題並不在AI,而在產品設計。例如,Intuit的稅務聊天機器人最初不受歡迎,調查發現使用者討厭打字。於是Intuit為每次互動新增了建議問題按鈕,降低了使用難度,使用者反饋顯著改善。LinkedIn的技能匹配聊天機器人也發現,使用者並不需要正確的答案,而是需要有用的答案,比如差距分析和改進建議。Huyen強調,由於模型日漸趨同,AI產品之間的差異主要體現在使用者體驗上。
第三大陷阱:初始設計過於複雜。常見的例子包括:直接呼叫API就能解決問題時卻使用代理框架;簡單的基於術語的檢索方案有效時卻糾結於向量資料庫;提示工程可行時卻堅持微調。過早引入外部工具會導致兩個問題:抽象掉關鍵細節,使系統難以理解和除錯;引入不必要的錯誤。Huyen分享了她審查框架程式碼時經常發現預設提示中存在錯別字,如果框架悄悄更新提示,應用行為可能異常。她建議在AI工程早期階段,對任何抽象保持警惕。
第四大陷阱:過度依賴早期成功。LinkedIn用1個月達到了期望體驗的80%,但再用4個月才超過95%。初期成功讓他們低估了後期改進的難度。一家電商AI銷售助手初創公司發現,從0到80%和從80%到90%所花的時間一樣長。他們面臨的挑戰包括準確性/延遲的權衡、工具呼叫困難、語氣要求難以精確遵守、客戶意圖理解困難以及測試用例組合近乎無限。此外,團隊還必須應對API提供商的可靠性問題(如10%的呼叫超時)、合規性(AI輸出版權、資料訪問、隱私)、安全性(濫用、不當輸出)等。Huyen提醒,炫酷的演示不一定能轉化為優秀的產品,計劃時需考慮這些障礙。
第五大陷阱:放棄人工評估。許多團隊採用“AI作為評判者”的方法來自動評估AI應用,但常見錯誤是完全依賴AI而忽略人工評估。AI評判的質量取決於底層模型、提示詞和用例,可能給出誤導性評價。頂尖產品團隊每天都會讓人工專家評估30到1000個輸出樣本。每日人工評估有三個目的:將人類判斷與AI判斷相關聯,如果人類評分下降而AI評分上升,則需檢查AI評判者;更深入瞭解使用者的使用方式;利用對當前事件的認知檢測自動探索可能遺漏的模式。良好的註釋準則也能改進模型指令。Huyen引用Greg Brockman的話:“手動檢查資料可能是機器學習中價值與聲望比最高的活動。”
第六大陷阱:眾包用例。在企業急於採用生成式AI的早期,許多高管無法制定戰略,於是向全公司徵集想法。結果出現了無數文本轉SQL模型、Slack機器人和程式碼外掛。雖然聽取聰明員工的意見是好的,但個人往往關注日常問題而非ROI最高的專案。缺乏整體戰略容易導致一系列低影響力的小應用,並錯誤得出生成式AI無回報的結論。總結而言,成功構建生成式AI產品需要避免這些陷阱:只在必要時使用AI、注重使用者體驗而非技術、保持簡單、合理評估成功、堅持人工評估,並以戰略眼光選擇用例。