ParseHawk:完全ローカルなドキュメントAI、API・CLI・Web UIを提供
ParseHawkは、PDF、スキャン、画像、テキストファイル、Markdownから構造化JSONを抽出するローカルファーストのドキュメントAIです。機密文書をサードパーティのAI APIに送信することなく、vLLM(Linux NVIDIA / macOS Apple Silicon)上で動作し、Web UI、REST API、CLIを提供します。ユーザーはカスタム抽出スキーマを定義し、ゼロショットまたは少数ショット抽出を行い、検証済みJSON出力を得られます。本記事では、システム要件、クイックスタート、抽出器とスキーマ、実行時のデフォルト、設定、テレメトリー、ローカルデータ管理について説明します。
ParseHawkは、開発者やチーム向けに設計されたローカルファーストのドキュメントAIツールです。非構造化ドキュメントから構造化データを抽出することを目的としており、従来のクラウドサービスとは異なり、デフォルトでユーザーのハードウェア上で動作するため、請求書、契約書、医療記録などの機密情報を第三者APIに送信する必要がありません。
このツールはPDF、スキャン画像、テキストファイル、Markdownなど多様な入力形式に対応しています。ユーザーはJSON Schema(Draft 2020-12準拠)を定義して抽出対象を指定し、自然言語による指示でゼロショット抽出を行えます。文書タイプに応じてさらにガイダンスが必要な場合は、少数の例(few-shot)を追加することで抽出品質を向上させることができます。すべての抽出結果はスキーマに対して検証され、正確なJSON出力が保証されます。
ParseHawkの基本動作は、デフォルトのNuExtract3-W4A16モデルをvLLM経由でローカル実行することに依存しています。LinuxではNVIDIA GPUとDockerコンテナを使用し、macOS Apple SiliconではvLLM Metalを直接利用します。推奨メモリは、macOSで16GB以上のユニファイドメモリ、Linuxで16GB以上のVRAMです。最大モデル長やGPUメモリ利用率、PDFレンダリングDPIなど、多くの設定を環境変数またはCLIコマンドで調整可能です。
ユーザーは、Web UI(Viteベース)、REST API(自動生成OpenAPIドキュメント)、コマンドライン(parsehawk)の3つの方法でParseHawkを操作できます。CLIはファイルアップロード、抽出器作成、ジョブ投入などのデータ操作に加え、ローカルスタックの起動・停止・診断を統合的に管理します。クイックスタートはparsehawk startを実行するだけで、WebインターフェースとAPIドキュメントが利用可能になります。
プライバシー面では、ParseHawkは匿名の使用統計(インストールイベントと実行開始イベント)のみを収集し、ファイル内容や抽出データは一切送信しません。ユーザーは環境変数を設定することでオプトアウトできます。すべてのローカルデータはデフォルトでdata/ディレクトリに保存され、SQLiteデータベース、アップロードファイル、ログなどが含まれます。データはいつでも削除可能で、再起動によりリセットできます。
開発者向けには、git、just、uv、pnpmを用いた完全な開発環境が用意されており、プロダクションモード(Docker)とローカルソースモードの両方をサポートします。ParseHawkは、機密文書を扱うチームにとって、強力かつ安全なローカライズソリューションを提供します。