AI News HubLIVE
站内改写2 分で読了

SlimSnap:AIがあなたの指すボタンを正確に認識

SlimSnapは、注釈付きスクリーンショットを構造化JSONに変換する無料Macアプリで、AIの要素認識精度を向上させ、トークンコストを削減します。オープンソースのスキーマとClaude Codeスキルを提供。

ソースProduct Hunt AI著者: Alexander Bickov

SlimSnapは、AIツールとのスクリーンショット連携における課題を解決するために設計された無料のMacアプリです。その核となる機能は、ユーザーが撮影したスクリーンショットとその上に描かれた矢印注釈を構造化JSONに変換し、AI(Claude、ChatGPTなど)が指定されたUI要素をピクセルの塊ではなく正確に理解できるようにすることです。

このアプリの開発は、開発者自身の経験に基づいています。Claude Codeにスクリーンショットを貼り付けても、AIは常に間違った入力欄を移動させてしまいました。「理由は明白で、AIは生のピクセルを読んでいるため、どの矩形が私の指す入力欄か分からないからです」と開発者はProduct Huntの投稿で述べています。SlimSnapは、各要素に一意のID、座標、OCRテキスト、色情報を割り当て、矢印で特定の要素を指せるようにすることで、この問題を根本的に解決しました。

精度の向上に加えて、SlimSnapはコスト面でも優れています。Sonnetモデルの場合、生のスクリーンショット1枚の処理に約1568トークンが必要ですが、SlimSnapが生成するJSONは約700トークンで済み、50%以上の削減になります。Opus 4.7+では生画像が最大4784トークン消費するため、節約効果はさらに顕著です。開発者は「トークン節約はおまけに過ぎない」と述べています。

現在、SlimSnapは完全にデバイス上で動作し、プライバシーを保護します。JSONスキーマ(MITライセンス)とClaude Code自動ロードスキルはGitHubで公開されています。Claude Codeユーザーは、スキルが最新のスクリーンショットJSONを自動的にロードするため、手動で貼り付ける必要はありません。一方、Cursor、Lovable、ChatGPT Visionなどの他のツールでは、JSONを手動でチャットにコピーする必要があります。

ローンチから1週間で、SlimSnapは多くのユーザーフィードバックを集めました。コミュニティでは、スクロールコンテンツやドロップダウンのキャプチャ、ネストされた要素階層、信頼度と重なりインジケーター、ハイブリッドモード(JSON+生画像)、Windows対応、ネイティブMacアプリのスクリーンショットサポートなど、複数の機能が提案されています。開発者はユーザー投票に基づいて次の優先事項を決める予定です。

複数の類似ボタンが存在する場合の混同について、開発者は次のように説明します:各要素には一意のIDが割り当てられ、たとえ画面に5つの「送信」ボタンがあっても、e_button_5、e_button_8などと識別され、矢印注釈はそのうちの1つを正確に指します。ラベルのない浮動要素やキャンバスベースのアプリでは課題が残るものの、95%のUIワークフローでは十分に機能します。

SlimSnapは現在無料で提供されており、将来的にはWindows対応など、ユーザーの需要に応じて拡張される可能性があります。開発者は次の自動ローダーをどのAIツール向けに構築すべきか、積極的にフィードバックを収集しています。