AI News HubLIVE
站内改写4 分钟阅读

Claude Dispatch 与接口的力量

AI的能力远超人们想象,但大部分用户仅通过聊天机器人访问,这导致了认知负担。文章探讨了专门化接口(如编程代理Claude Code)、Google的实验性工具、以及个人代理(如OpenClaw和Claude Cowork)如何通过更好的接口释放AI潜力。

来源One Useful Thing作者: Ethan Mollick

AI已经远比大多数人意识到的更强大。这种所谓的“能力过剩”很大程度上并非来自AI的极限(尽管它们确实还有很多限制),而是源于人们与AI互动的方式。绝大多数人通过聊天机器人访问AI,而且通常是免费版本,模型能力较弱。聊天机器人适合快速提问,但对于真正的工作来说,它是一种糟糕的方式。

事实上,最近的研究表明,使用聊天机器人界面工作时,我们会付出一种“心智税”。一篇新论文让一小群金融专业人士用GPT-4o1完成复杂的估值任务,并通过逐轮对话记录测量了他们的认知负荷。人们确实通过AI获得了生产力提升,但部分提升被AI呈现信息的方式抵消了:巨大的文本墙、提供探索新主题的建议、以及庞杂的讨论。聊天机器人界面成了障碍,而不是工作本身。一旦对话变得混乱,就会一直混乱下去。AI被优化为有用,只会镜像用户提供的任何杂乱结构,而用户则被淹没,无法重新组织。双方都在加剧问题。受影响最大的是经验较少的员工,而这正是最需要AI帮助的人群——如果他们能跟得上自己在做什么的话。

如果你用过聊天机器人完成工作,这应该不奇怪。你问一个具体问题,得到五段话(答案在其中某处!),同时AI还提出三个你没问的新内容。界面本身造成了认知成本,压倒了AI智能带来的好处。那么,更好的界面是什么样的呢?

专门化界面 一种选择是为特定工作或任务构建专门的界面。在所有专门的AI界面中,唯一真正完善的是编程界面。这完全在意料之中:AI实验室由程序员组成,模型在代码上经过大量训练,构建这些工具的人常常是为自己打造的。

我之前写过Claude Code,Anthropic的编码代理,可以自主工作数小时。OpenAI的Codex和Google的Antigravity也做类似的事情。我用Claude Code做了很多事,从赚点小钱到制作游戏,完全没碰代码。我也觉得Codex非常有用,能力相当。这些工具很棒,但实际上是面向程序员的。它们假设你懂Python和Git。它们的界面看起来像1980年代的计算机实验室。对于99%的非开发者知识工作者来说,这些强大的AI工具并未针对他们优化。

Pomelli, Stitch, 和 NotebookLM 在所有AI实验室中,Google似乎在尝试为其他职业构建专门界面方面做得最多。虽然都有点粗糙,但它们展示了当AI工具为其他类型知识专业人士构建时,未来可能是什么样子。Google的Stitch暗示了AI原生设计可能的样子——一个无限画布,你用自然语言描述一个应用,然后得到多个相互连接的屏幕,带有一致的设计系统。类似地,Pomelli让你粘贴网站URL,自动生成品牌一致的社交媒体活动,它使用营销语言而非提示,从而降低技术感。而最知名的NotebookLM提供了一种研究、展示和处理多样化信息源的方式。每一个都展示了未来的方向,但还不是像Claude Code对程序员那样的变革性工具。但还有另一种界面增长迅速:个人代理。

使用你已经拥有的界面 如果你还没听说过,OpenClaw是一个开源AI代理,符号是红龙虾,它是一个安全噩梦,但已成为历史上增长最快的开源项目。OpenClaw之所以成功,是因为它是一个真正的个人代理。系统设计让你通过WhatsApp、Telegram或Slack与你AI代理对话,这些是你与人们聊天时使用的相同应用。你让它查看邮件、订位、找文件,它就在你的电脑上执行。它以一种事后看来显而易见的方式解决了界面问题:不是聊天机器人或命令行,而是让你像与人交谈一样与AI对话,使用你已经非常熟悉的界面,如WhatsApp。

然而,OpenClaw很难用,且安全风险大。Anthropic的答案是带有Dispatch的Claude Cowork。Cowork于1月推出,是面向知识工作者的Claude Code版本。它通过桌面工作区让Claude访问你的本地文件和应用程序。它还通过连接器连接到几十个应用,如果没有连接器,则退化为直接控制你的鼠标和键盘。Dispatch在几周前发布,增加了关键功能:你可以从手机给Claude发消息,而它在你的桌面上工作。你扫描二维码,手机就变成了一个远程控制,控制着坐在你电脑前的AI代理。

结合使用Dispatch和Claude Code,创造了一种与能干助手对话的感觉。例如,我从手机上让Claude准备一份晨间简报,它读取我的日历、邮件和在线频道,然后给我一份下一步需要做什么的报告。但Cowork也能处理更复杂的工作。从手机上,我让它查看我最近做的演示文稿,检查幻灯片3中的图表是否是最新的,如果不是,就更新。你可以看到它在一个地方卡住了(某个网站阻止它下载文件),但除此之外,结果非常令人印象深刻。它打开并“查看”了PowerPoint,并在整个电脑中搜索更新的数据。当我给它一个更新的在线论文链接时,它下载了PDF,找到了较新的图表,裁剪出图表图像,并为我更新了PowerPoint。这是复杂且困难的工作,即使不总是无缝,通常也足够接近,能节省大量时间。

它像OpenClaw一样灵活吗?不。Cowork被沙盒化,更安全但更受限(但这并不意味着没有安全风险)。连接器生态系统在增长但不完整。Cowork能使用你的电脑,这个概念令人印象深刻,但在实践中容易出错。但核心见解与OpenClaw偶然发现的一样。人们不想要聊天机器人。他们想要一个能在实际文件上工作、使用实际工具、以他们与人交流的方式可访问的代理。

按需接口 所有这些都假设我们需要预先决定接口。但最新的AI系统实际上可以为你构建接口。例如,过去几周,Claude获得了在对话中直接生成可视化图表的能力。这些不是静态图像。它们是交互式的、可调整的,Claude可以随着你提出后续问题而修改它们。

这解决了接口问题的一种不同方法。不是让公司为每种工作构建专门接口,而是AI即时生成合适的接口。我猜想未来不是单一接口统治一切,而是AI生成适用于特定时刻的接口:桌面上的代理、对话中的图表、解决某个问题的自定义应用。我们正从适应AI的接口转向AI适应你的接口。

AI能力一直领先于AI可访问性。模型已经足够聪明,能做非凡的事情,但我们却让人们通过聊天机器人访问这种智能。而且,正如认知负荷研究表明的,聊天机器人格式正在积极阻碍他们。随着接口改进,我们将看到当更多人能实际使用AI能力时会发生什么。每一个缩小哪怕部分差距的新接口都将感觉像AI能力的飞跃,即使模型本身没有变化(尽管它们仍在变化)。我猜测人们有时表达的“AI失望”并非来自AI糟糕,而是接口不合适。我们建造了近代史上最强大的技术之一,却让人们通过打字进入聊天窗口来访问它。这很快将会改变。