构建生成式AI应用时的常见陷阱
著名AI专家Chip Huyen总结了构建生成式AI应用时常见的六大陷阱:在不必要时使用生成式AI、混淆糟糕产品与糟糕AI、初始设计过于复杂、过度依赖早期成功、放弃人工评估以及众包用例缺乏战略。本文通过具体案例提供了实用建议,帮助团队避免这些错误。
在生成式AI应用开发的早期阶段,犯错是常见的。知名AI专家Chip Huyen根据她的行业经验,总结了六大常见陷阱,并通过真实的案例提供了避免这些错误的建议。
第一大陷阱:在不必要时使用生成式AI。每当新技术出现,高级工程师总会叹息:“不是所有东西都是钉子。”生成式AI也不例外,其看似无限的能力加剧了凡事都用AI的倾向。Huyen举例说,一个团队试图用生成式AI优化家庭能源消耗,他们向LLM输入高能耗活动清单和实时电价,要求生成降低电费的日程表。实验显示可节省30%电费。但Huyen指出,一个简单的贪心算法——将最耗电的活动安排在电价最低的时段(如晚上10点后洗衣、充电)——可能同样有效,甚至更好。实际上,线性规划等传统优化方法更便宜、更可靠。类似的例子还有用AI检测网络流量异常、预测客户来电量和诊断营养不良等。许多情况下,测试解决方案和真正解决问题是两回事。
第二大陷阱:混淆“糟糕产品”和“糟糕AI”。一些团队因用户反馈差而否定生成式AI,但问题并不在AI,而在产品设计。例如,Intuit的税务聊天机器人最初不受欢迎,调查发现用户讨厌打字。于是Intuit为每次交互添加了建议问题按钮,降低了使用难度,用户反馈显著改善。LinkedIn的技能匹配聊天机器人也发现,用户并不需要正确的答案,而是需要有用的答案,比如差距分析和改进建议。Huyen强调,由于模型日渐趋同,AI产品之间的差异主要体现在用户体验上。
第三大陷阱:初始设计过于复杂。常见的例子包括:直接调用API就能解决问题时却使用代理框架;简单的基于术语的检索方案有效时却纠结于向量数据库;提示工程可行时却坚持微调。过早引入外部工具会导致两个问题:抽象掉关键细节,使系统难以理解和调试;引入不必要的错误。Huyen分享了她审查框架代码时经常发现默认提示中存在错别字,如果框架悄悄更新提示,应用行为可能异常。她建议在AI工程早期阶段,对任何抽象保持警惕。
第四大陷阱:过度依赖早期成功。LinkedIn用1个月达到了期望体验的80%,但再用4个月才超过95%。初期成功让他们低估了后期改进的难度。一家电商AI销售助手初创公司发现,从0到80%和从80%到90%所花的时间一样长。他们面临的挑战包括准确性/延迟的权衡、工具调用困难、语气要求难以精确遵守、客户意图理解困难以及测试用例组合近乎无限。此外,团队还必须应对API提供商的可靠性问题(如10%的调用超时)、合规性(AI输出版权、数据访问、隐私)、安全性(滥用、不当输出)等。Huyen提醒,炫酷的演示不一定能转化为优秀的产品,计划时需考虑这些障碍。
第五大陷阱:放弃人工评估。许多团队采用“AI作为评判者”的方法来自动评估AI应用,但常见错误是完全依赖AI而忽略人工评估。AI评判的质量取决于底层模型、提示词和用例,可能给出误导性评价。顶尖产品团队每天都会让人工专家评估30到1000个输出样本。每日人工评估有三个目的:将人类判断与AI判断相关联,如果人类评分下降而AI评分上升,则需检查AI评判者;更深入了解用户的使用方式;利用对当前事件的认知检测自动探索可能遗漏的模式。良好的注释准则也能改进模型指令。Huyen引用Greg Brockman的话:“手动检查数据可能是机器学习中价值与声望比最高的活动。”
第六大陷阱:众包用例。在企业急于采用生成式AI的早期,许多高管无法制定战略,于是向全公司征集想法。结果出现了无数文本转SQL模型、Slack机器人和代码插件。虽然听取聪明员工的意见是好的,但个人往往关注日常问题而非ROI最高的项目。缺乏整体战略容易导致一系列低影响力的小应用,并错误得出生成式AI无回报的结论。总结而言,成功构建生成式AI产品需要避免这些陷阱:只在必要时使用AI、注重用户体验而非技术、保持简单、合理评估成功、坚持人工评估,并以战略眼光选择用例。