AI News HubLIVE
站内改写1 分钟阅读

SlimSnap:让AI精准识别你指的按钮

SlimSnap是一款免费的Mac应用,能将带注释的截图转换为结构化JSON,大幅降低AI工具识别UI元素的错误率和Token消耗。它支持Claude Code自动加载,并开放MIT许可证的JSON模式。

来源Product Hunt AI作者: Alexander Bickov

SlimSnap是一款专为解决AI工具截图交互痛点而设计的免费Mac应用。其核心功能是将用户截图及其上的箭头注释转换为结构化JSON,从而让AI(如Claude、ChatGPT等)能够精确理解用户所指的界面元素,而非猜测像素块。

该应用的诞生源于开发者的亲身经历:向Claude Code截图后,AI总是移动错误的输入框。“原因很直接——它读取的是原始像素,根本不知道哪个矩形是我指的,”开发者在新品发布帖中写道。SlimSnap通过为每个元素分配唯一ID、坐标、OCR文本和颜色信息,并支持箭头指向特定元素,从根本上解决了这个问题。

除了准确性的提升,SlimSnap在成本上也优势明显。以Sonnet模型为例,处理一张原始截图需要约1568个Token,而使用SlimSnap生成的JSON仅需约700个Token,节省超过50%;在Opus 4.7+上,原始截图甚至消耗高达4784个Token。开发者强调,节省Token“只是额外奖励”。

目前SlimSnap完全运行在设备端,保障隐私。其JSON模式(MIT协议)和Claude Code自动加载技能均在GitHub上开源。对于Claude Code用户,技能可自动加载最新截图JSON,无需手动粘贴;其他工具如Cursor、Lovable、ChatGPT Vision等,则需要手动复制JSON到对话中。

发布一周内,SlimSnap收到了大量用户反馈,社区讨论了多个待开发功能,包括:滚动内容和下拉菜单的截图支持、嵌套元素层次结构、置信度和重叠指示器、混合模式(JSON+原始图像)、Windows版本以及原生Mac应用截图支持。开发者正在根据用户投票决定下一优先项。

对于用户关心的多按钮混淆问题,开发者解释:每个元素有唯一ID,即使屏幕上出现五个“提交”按钮,它们会被标记为e_button_5、e_button_8等,箭头注释精确指向其中一个。仅在无标签的浮动元素或画布应用中可能存在挑战,但对95%的UI场景有效。

SlimSnap目前免费提供,未来可能根据用户需求扩展至Windows等平台。开发者正积极收集反馈,以确定下一个自动加载器应该首先支持哪个AI工具。