SlimSnap:讓AI精準識別你指的按鈕
SlimSnap是一款免費的Mac應用,能將帶註釋的截圖轉換為結構化JSON,大幅降低AI工具識別UI元素的錯誤率和Token消耗。它支援Claude Code自動載入,並開放MIT許可證的JSON模式。
SlimSnap是一款專為解決AI工具截圖互動痛點而設計的免費Mac應用。其核心功能是將使用者截圖及其上的箭頭註釋轉換為結構化JSON,從而讓AI(如Claude、ChatGPT等)能夠精確理解使用者所指的介面元素,而非猜測畫素塊。
該應用的誕生源於開發者的親身經歷:向Claude Code截圖後,AI總是移動錯誤的輸入框。“原因很直接——它讀取的是原始畫素,根本不知道哪個矩形是我指的,”開發者在新品釋出帖中寫道。SlimSnap透過為每個元素分配唯一ID、座標、OCR文本和顏色資訊,並支援箭頭指向特定元素,從根本上解決了這個問題。
除了準確性的提升,SlimSnap在成本上也優勢明顯。以Sonnet模型為例,處理一張原始截圖需要約1568個Token,而使用SlimSnap生成的JSON僅需約700個Token,節省超過50%;在Opus 4.7+上,原始截圖甚至消耗高達4784個Token。開發者強調,節省Token“只是額外獎勵”。
目前SlimSnap完全執行在裝置端,保障隱私。其JSON模式(MIT協議)和Claude Code自動載入技能均在GitHub上開源。對於Claude Code使用者,技能可自動載入最新截圖JSON,無需手動貼上;其他工具如Cursor、Lovable、ChatGPT Vision等,則需要手動複製JSON到對話中。
釋出一週內,SlimSnap收到了大量使用者反饋,社群討論了多個待開發功能,包括:滾動內容和下拉選單的截圖支援、巢狀元素層次結構、置信度和重疊指示器、混合模式(JSON+原始影像)、Windows版本以及原生Mac應用截圖支援。開發者正在根據使用者投票決定下一優先項。
對於使用者關心的多按鈕混淆問題,開發者解釋:每個元素有唯一ID,即使螢幕上出現五個“提交”按鈕,它們會被標記為e_button_5、e_button_8等,箭頭註釋精確指向其中一個。僅在無標籤的浮動元素或畫布應用中可能存在挑戰,但對95%的UI場景有效。
SlimSnap目前免費提供,未來可能根據使用者需求擴充套件至Windows等平臺。開發者正積極收集反饋,以確定下一個自動載入器應該首先支援哪個AI工具。