SlimSnap:スクリーンショット要素をマークして、コーディングエージェント用JSONを取得
SlimSnapはmacOS向けアプリで、スクリーンショットをJSON形式に変換し、Claude CodeやAiderなどのターミナルAIコーディングエージェントが直接読み取れるようにします。領域キャプチャ、矢印注釈、ローカルOCRによるテキスト抽出をサポートし、生画像よりも55~85%少ないトークン消費を実現。すべての処理はMac上でローカルに実行され、アップロードや登録は不要です。
SlimSnap は macOS 向けの軽量アプリで、ターミナルベースの AI コーディングエージェント(Claude Code、Aider、Codex CLI など)が画像を直接処理できないという根本的な問題を解決します。ユーザーはショートカットキー ⌘⇧S で画面上の任意の領域をドラッグ選択するだけでキャプチャを取得できます。アプリは内蔵 OCR を使用して、その領域内のすべてのテキスト要素(ラベル、ボタン、エラーメッセージなど)を自動認識し、各要素の正確な位置(正規化された0~1座標で表されるバウンディングボックス)とともに抽出し、構造化された JSON データを生成します。ユーザーは矢印、吹き出し、ハイライトなどの注釈を追加して強調点を示せます。
生成された JSON ファイルはワンクリックでコピーでき、テキスト入力を受け付ける任意の端末やプログラミングエージェントに直接貼り付け可能です。公式データによると、Claude Code (Sonnet) でのスクリーンショット1枚は約1,568ビジョントークンを消費しますが、SlimSnap の JSON は600~800トークンであり、Sonnet モデルで約55%、Opus 4.7 および 4.8 モデルでは最大85%のトークン削減を実現します。これは長時間の反復セッションにおいて、コンテキストウィンドウにより多くのコード用スペースを確保できることを意味します。
プライバシー面では、すべてのキャプチャとOCR処理はユーザーの Mac 上でローカルに行われ、アカウント登録も不要で、スクリーンショットデータがデバイスから離れることはありません。SlimSnap の JSON スキーマと Claude Code スキルは GitHub 上で MIT ライセンスとして公開されていますが、macOS アプリ自体はクローズドソースです。現在は macOS のみ対応しており、開発者はユーザーからの要望に応じて Windows や Linux 版の可能性を検討しています。
よくある質問に対して、SlimSnap チームは明確に回答しています:ChatGPT にスクリーンショットを直接貼り付けるのと比較して、SlimSnap は長期の反復セッションでより安価で信頼性が高い;トリミングしてもトークンコストは変わらない(API の画像あたりの上限が固定のため);ダークモードの UI でも同様に動作し、低コントラストテーマのみ追加確認が必要。JSON 形式は要素のテキスト、位置、色を保持しますが、ピクセルレベルの美的詳細は失われます。ただし、特定の要素を修正するタスクでは JSON の方が正確です。ユーザーはメールで新プラットフォームのサポートをリクエストできます。