AI News HubLIVE
站内改写4 分钟阅读

本周AI:生产可行性探讨

本周节目中,主持人Andreas Welsch与嘉宾讨论了OpenAI进入个人金融领域、元认知在AI辅助工作中的重要性、对Token指标的反感以及前向部署工程师的角色。核心问题:AI行业擅长产出,但尚未明确什么产出真正有价值。

来源O'Reilly AI & ML Radar作者: Michelle Smith

在本周的《本周AI》节目中,主持人、AI咨询公司Intelligence Briefing创始人Andreas Welsch邀请了Savvi AI联合创始人兼CEO Maya Mikhailov以及生成式AI与智能自动化领导者Doug Shannon,共同探讨了从业者正在面对的多个相互关联的话题:OpenAI进军个人金融领域、元认知在AI辅助技术工作中的作用、对基于Token的生产力指标日益增长的反对声音,以及前向部署工程师这一新兴角色。这些故事共同描绘了一个行业图景:这个行业擅长生产输出,但仍需厘清什么输出才具有价值。

为什么OpenAI想要你的银行数据

当OpenAI宣布与金融机构合作分析用户交易数据时,媒体报道聚焦于消费者利益:一种更智能的支出跟踪方式,类似于Credit Karma或Minit,但界面更具对话性。然而,这并非该公司的全部兴趣所在,甚至不是主要目标。Maya重新定义了其中的利害关系:“OpenAI想要做的是弄清楚消费者意图。”能够访问用户的金融数据,与其说是帮助人们管理资金,不如说是完善一个可供公司变现的用户画像。OpenAI已经能够通过聊天历史构建出令人惊讶的精准用户画像。加入交易数据后,就能获得之前缺失的细节:某人在为什么存钱、他们焦虑什么、钱实际花在了哪里。这对广告商来说是一项价值巨大的数据资产。

我们以前见过这种模式。正如Andreas所指出的,公司长期持有(并利用)可能具有侵入性的数据来推荐产品。Target预测怀孕的故事已过去十多年,但仍在商学院被教授——包括Andreas本人——因为它恰恰说明了如何结合行为数据推断用户未明确披露的信息,并突显了有效推荐与过度个性化之间的微妙界限,让消费者意识到公司掌握了他们多少信息。Maya表示,公司的画像构建能力没有改变,但AI聊天增加了新的变数。对话式界面让信息披露感觉自然,因此基于聊天历史的知识图谱非常强大。而且,这些工具也更适合分享推荐。“通过这种友好、吸引人的风格,”Maya解释道,“这些推荐会比我在普通搜索引擎中输入的只言片语更加牢固。”

元认知作为专业技能

当你将思考委托给一个通过大量输入平均化得出答案的系统时,你需要知道答案何时足够好、何时不够。Doug说:“我们本质上正在被平均化。”模型在幕后做了许多工作来寻找一个均值响应。人类的工作是质疑问题本身,超越第一个答案,并知道自己的判断是否仍在参与。这就是Doug一直推动重新关注元认知(即“对思考的思考”)的原因。Doug和Maya一致认为,将与你工作无关的认知负荷卸载是可以的。但卸载对你工作价值核心的推理——Doug称之为“认知投降”——则会使组织陷入麻烦。

未来的优势不会来自对AI的访问权限。每个人都将拥有某种访问权限。优势将来自知道该卸载什么、该质疑什么、什么永远不应该离开人类判断。这既是一个技能发展问题,也是一个哲学问题。使用AI工具最有效的人不是使用最多的人,而是那些理解什么该交付、什么该保留的人。这需要领域知识、判断模型答案是否看似合理但实际错误的洞察力,以及足够理解这些系统工作原理以识别何时你在被给予一个平均值而非答案的流畅度。

Token消耗最大化与错误激励

关于“Token最大化”的争论似乎到了紧要关头。亚马逊在员工通过编写低效代码来刷Token用量后,废除了AI生产力排行榜。还有一家公司据报道在一个月内烧掉了5亿美元的Anthropic Token,原因是没有设定限制。Maya认为,鼓励Token最大化的公司正在激励错误的指标。“这就像通过面粉用量来判断哪家面包店最好。正确的问题是‘我们在制作优质产品吗?’”

Andreas分享了他自己的“氛围编码”经历,以此说明Token消耗和技术债务如何在实践中累积。一个开发者从适度计划开始,在半小时内通过运行代理耗尽了额度。他们升级到更高等级,支付五倍的价格,但现在沉没成本逻辑开始起作用。正如Andreas所指出的,现在他们觉得“应该也从订阅中获得五倍的价值”,于是范围从单一工具扩展到一个统一的业务操作系统。三周后,累积的复杂性已经超出了评估能力:反复的安全审计不断发现新问题,每次审计都会产生需要大多数氛围编码人员不具备的网络安全专业知识的建议。这就是Doug关于元认知观点的应用:构建者在主动理解系统实际运作上投入越多,他们判断系统是否有效的洞察力就越好。对于参与度较低的用户,风险在于接受输出、发布债务,并在之后发现后果。

大多数错位源于高管对AI的期望与从业者日常处理的事务之间的差距。Maya解释说,高管看到了一种可能改变生产力曲线的能力。工程师和分析师则生活在技术债务、版本控制问题和监管约束之中,这些不会因为有了更好的代码补全工具而消失。排行榜问题就是这种脱节的一种症状。GitHub最近将Copilot从无限使用改为基于使用量的定价,这可能比任何内部政策变化更快地重新调整这些激励措施。当更多CFO看到实际账单时,排行榜将全部消失。

Doug指出了与LLM“认知投降”相关的另一个问题。当组织鼓励员工在没有治理的情况下将内部流程、专有逻辑和机构知识输入基础模型时,他们不仅仅是在增加Token账单。他们正在放弃使自己与众不同的运营知识。流程文档、工作流逻辑以及关于为何做出某些决策的机构记忆都是知识产权的一种形式。一旦它们被编码到通用模型中,组织从中获得优势就会减少。

前向部署工程师不足以单独解决问题

这些挑战的答案是否就是将熟练的工程师直接部署到客户环境中,以弥合模型产出与组织实际需求之间的差距?这就是AI公司推广的前向部署工程师(FDE)方法的承诺。Doug和Maya都对此模式提出了一些批评。

Maya的反对是结构性的。企业AI部署并非在现有基础设施上添加能力。组织拥有隔离的数据、遗留系统和监管约束,这些不是任何前向部署工程师单凭技术技能就能解决的。她说:“你不能‘仅仅在上面撒一些AI,然后它就能通过一些Token包工作。’”工程师必须了解为什么某些数据不能使用、为什么某个特定模型不能在受监管环境中部署的背景。刚进入组织的前向部署工程师缺乏这种理解,可能会撤销经过仔细考虑且基于未明确记录原因做出的决策。

Doug的担忧在于沟通。根据他的经验,前向部署工程师往往带着强大的技术直觉和有限的组织背景进入。他们很快投入工作,但难以与整个利益相关者堆栈进行沟通。这就是业务分析师存在的原因——在工程师解决客户问题之前,理解客户的问题和实际流程。跳过这一步,就会得到技术上正确但解决错误问题的输出。

Maya和Doug都强调,企业级AI部署从根本上是一个语境问题。模型是能干的。困难的是知道应用哪种能力、在哪里应用、以及存在哪些约束条件。这种知识不在模型中;它存在于那些在组织内工作时间足够长、了解事物为何如此的人身上。

测量问题

本期节目中所有话题都回归到同一个问题:我们到底在测量什么?我们通过这些测量设置了什么激励?Token数量和代码行数并不总是与公司想要的结果相关。需要人类专业知识和业务的语境知识来弄清楚想要实现什么目标,以及测量什么以确保实现目标。

在下周一《本周AI》节目中,RecoMind创始人Miguel Fierro将与主持人Christina Stathopoulos讨论负责任的AI、多模态内容创作,以及LLM如何改变个性化和用户理解。Miguel还将进行现场演示,提供下一代推荐体验的预览——在这里注册。我们将继续每周五在Radar上发布摘要,并在YouTube、Spotify、Apple或其他播客平台上发布完整剧集。