AI News HubLIVE
站内改写1 分鐘閱讀

SlimSnap:讓AI精準識別你指的按鈕

SlimSnap是一款免費的Mac應用,能將帶註釋的截圖轉換為結構化JSON,大幅降低AI工具識別UI元素的錯誤率和Token消耗。它支持Claude Code自動加載,並開放MIT許可證的JSON模式。

來源Product Hunt AI作者: Alexander Bickov

SlimSnap是一款專為解決AI工具截圖交互痛點而設計的免費Mac應用。其核心功能是將用户截圖及其上的箭頭註釋轉換為結構化JSON,從而讓AI(如Claude、ChatGPT等)能夠精確理解用户所指的界面元素,而非猜測像素塊。

該應用的誕生源於開發者的親身經歷:向Claude Code截圖後,AI總是移動錯誤的輸入框。“原因很直接——它讀取的是原始像素,根本不知道哪個矩形是我指的,”開發者在新品發佈帖中寫道。SlimSnap通過為每個元素分配唯一ID、座標、OCR文本和顏色信息,並支持箭頭指向特定元素,從根本上解決了這個問題。

除了準確性的提升,SlimSnap在成本上也優勢明顯。以Sonnet模型為例,處理一張原始截圖需要約1568個Token,而使用SlimSnap生成的JSON僅需約700個Token,節省超過50%;在Opus 4.7+上,原始截圖甚至消耗高達4784個Token。開發者強調,節省Token“只是額外獎勵”。

目前SlimSnap完全運行在設備端,保障隱私。其JSON模式(MIT協議)和Claude Code自動加載技能均在GitHub上開源。對於Claude Code用户,技能可自動加載最新截圖JSON,無需手動粘貼;其他工具如Cursor、Lovable、ChatGPT Vision等,則需要手動複製JSON到對話中。

發佈一週內,SlimSnap收到了大量用户反饋,社區討論了多個待開發功能,包括:滾動內容和下拉菜單的截圖支持、嵌套元素層次結構、置信度和重疊指示器、混合模式(JSON+原始圖像)、Windows版本以及原生Mac應用截圖支持。開發者正在根據用户投票決定下一優先項。

對於用户關心的多按鈕混淆問題,開發者解釋:每個元素有唯一ID,即使屏幕上出現五個“提交”按鈕,它們會被標記為e_button_5、e_button_8等,箭頭註釋精確指向其中一個。僅在無標籤的浮動元素或畫布應用中可能存在挑戰,但對95%的UI場景有效。

SlimSnap目前免費提供,未來可能根據用户需求擴展至Windows等平台。開發者正積極收集反饋,以確定下一個自動加載器應該首先支持哪個AI工具。