n8n用LlamaParseプラットフォームノード:AIによる文書の解析、分類、抽出、検索
LlamaParseプラットフォームコミュニティノード(v5およびv6)は、n8nの公式検証済みコミュニティノードになりました。このノードは5つのLlamaCloudリソース(Parse、Classify、Split、Extract、Retrieve)を公開し、n8n AIエージェントのツールとして使用できます。v5ではSDKを廃止し直接HTTP呼び出しに変更、抽出機能をV2に移行、APIベースURLを設定可能にしました。v6では複数のノードを1つに統合し、インデックス操作を追加しました。記事では、検索ツールをエージェントツールとして使用する方法、分類→抽出→検証パイプライン、異なる解析モードでの出力評価の3つのワークフロー例を紹介しています。
- LlamaParseプラットフォームノードは、Parse、Classify、Split、Extract、Retrieveの5つのリソースを提供し、いずれもAIエージェントのツールとして使用可能。
- v5ではSDKを廃止し直接HTTP呼び出しに変更、ExtractをV2に移行、APIベースURLを設定可能にした。
LiteParse が Markdown 出力に対応
LiteParse 2.1 は最速のオープンソース・モデルフリー PDF→Markdown パイプラインを提供し、3つのベンチマークでトップスコアを達成、多言語ランタイムをサポート。
- LiteParse 2.1 は AI モデルを使わないヒューリスティックな PDF→Markdown を実現。
- ParseBench、opendataloader-bench、olmOCR-bench で総合トップスコア。
Claudeエージェント向けのより高速で低コストなPDF解析スキルの構築:LiteParseのケーススタディ
このブログ記事では、Claudeエージェント向けのLiteParse文書解析スキルを、評価、トレース分析、反復によってより安く、速く、高品質なものに改善した方法を詳述します。再解析、不要なOCR、過剰なgrep呼び出しなどのアンチパターンを特定・修正し、コストを37%削減し、すべての評価指標でスコアを向上させました。
- pdfQAベンチマークとトレース分析を用いて、LiteParseスキルを体系的に最適化し、再解析、OCRの乱用、過剰なgrepなどのアンチパターンに対処しました。
- 一度だけ解析、OCR無効化などのハードルールと、grep、sed、BM25検索の組み合わせにより、キャッシュ書き込みコストを3分の1以下に削減。
LlamaIndex ニュースレター 6-10-26
今週は、CVPR 2026でのParseBench発表、ビジュアルドキュメントインテリジェンス向けParse-Flowのローンチ、Anthropic Fable 5ベンチマーク結果、LlamaParseの新しいGranular Bounding Box、そしてAI初のピックルボールトーナメントThe Agent Openをお届けします。
- ParseBenchがCVPR 2026で初披露、AIエージェント向け文書解析ベンチマーク。
- Anthropic Fable 5がParseBenchでコンテンツ忠実度90.02%を達成、競合に12ポイント以上の差。
PDFを検索可能にする方法:手法と限界
この記事では、PDFの検索可能性の真の意味を探ります。Adobe Acrobatや無料オンラインツールなどの迅速なOCR手法は、簡素な文書には有効ですが、表、マルチカラムレイアウト、低品質スキャンでは失敗します。テキストレイヤーの精度が95%でもエラーが残り、検索が目的に到達できないことがあります。大規模な文書処理やAI統合には、LlamaParseのようなツールで構造化出力(Markdownなど)を生成し、読み取り順序と表構造を保持する必要があります。真の検索可能性は、テキストレイヤーの有無ではなく、精度と構造に依存します。
- 迅速なOCR手法(Acrobat、無料ツールなど)は簡素な文書に有効だが、表、マルチカラム、低品質スキャンでは失敗する。
- テキストレイヤーの精度が95%でも、1ページあたり約150文字の誤りが残り、検索がヒットしない。
契約メタデータの抽出:方法、課題、ワークフロー
組織は、言語、構造、フォーマットの多様性により、複雑な法的契約から構造化メタデータを抽出する際に大きな課題に直面しています。最新のシステムは、レイアウト認識解析、機械学習、セマンティック抽出、スキーママッピングを組み合わせて、非構造化法的合意を機械可読データに変換します。LlamaParseは、これらの機能を統合した構造化プラットフォームを提供し、本番ワークフローに対応します。
- 契約メタデータ抽出はOCRを超え、法的言語と文書構造の理解が必要です。
- 主要なステップには、文書取り込み、レイアウト認識解析、条項検出、スキーママッピングが含まれます。
Parse-Flow:オープンソースのビジュアルドキュメントインテリジェンスワークフローデザイナー
Parse-Flow は、ビジュアルワークフローデザイナー、非同期ワーカー、ライブイベントダッシュボードを備えたオープンソースプロジェクトで、ドキュメント処理の4つの基本操作(解析、分類、分割、抽出)を統合します。バックエンドは llama-agents ワークフローエンジンに基づき、Redis と Postgres でジョブキューとイベント永続化を実現。本記事では、システムアーキテクチャ、ワークフロー定義、ステートマシンによる実行エンジン、設計上の利点について詳述します。
- Parse-Flow は解析、分類、分割、抽出の4つのプリミティブをビジュアルワークフローに統合します。
- バックエンドは3ステップのステートマシン(ブートストラップ、ワーカー、ルーター)でユーザー定義のワークフローを解釈します。
grep vs. RAG:AIエージェントに適した検索戦略の選択
本記事では、AIエージェントにおけるgrep(語彙検索)とRAG(意味検索)を比較します。grepは小規模なプレーンテキストコーパスで高速かつ正確ですが、PDFなどの非構造化ドキュメントを扱えず、スケーラビリティに欠けます。RAGは解析、チャンク化、埋め込み、ベクトルインデックスによりスケーラブルな意味検索を実現し、語彙に依存しない検索を可能にします。推奨されるアプローチはレイヤー化です:非構造化ドキュメントを解析し、大規模には意味検索を使用し、適切なケースではgrepを保持します。
- grepは小規模なプレーンテキストコーパスでの正確なマッチングに優れるが、非構造化フォーマットや大規模には不向き。
- 意味検索(RAG)は埋め込みとANNインデックスにより、スケーラビリティ、再現率、ノイズの問題を解決。
LlamaIndex ニュースレター 5-19-26
今週のLlamaIndexニュースレターでは、AIエージェント向け初のOCRベンチマーク「ParseBench」、安全なドキュメント操作のためのSandboxed-Lit CLIエージェント、セルフホスト可能なドキュメント解析サーバー「LiteParse-Server」などの新オープンソースツールを紹介します。また、シンガポールとNYCでのコミュニティイベントの様子もお届けします。
- ParseBenchはAIエージェント専用に設計された初のドキュメントOCRベンチマークで、ウェビナーで公開されます。
- Sandboxed-Lit CLIエージェントは、ドキュメント解析とサンドボックス環境を組み合わせ、PDFや画像、Officeファイルを安全に操作できます。
LiteParseを使用した財務デューデリジェンスエージェントの構築方法
本記事では、SEC提出書類を取り込み、それらを検索し、正確な引用とともに質問に回答するAIエージェントのデモアプリを紹介します。重要な要素はLiteParseで、テキストとそのバウンディングボックス座標を抽出します。このプロジェクトではベクターデータベースの代わりに単純なキーワード検索を使用し、SEC EDGARと統合して直接書類を取得します。
- LiteParseはテキストとともにバウンディングボックス座標を抽出し、正確な引用ハイライトを可能にします。
- エージェントはキーワードマッチングを使用した検索を行い、小規模なドキュメントセットに適しています。
住宅ローン書類自動化:融資処理を変革する
住宅ローン書類の自動化は、インテリジェント文書処理を活用して、書類中心のワークフローを構造化された機械駆動のプロセスに変換し、効率を向上させエラーを削減します。この記事では、住宅ローン書類処理の複雑さ、自動化ワークフロー(取り込み、分類、抽出、検証、人間によるレビュー、システム統合)、課題、およびLlamaParseを使用した実装のベストプラクティスについて説明します。
- 住宅ローン書類処理は、形式の多様性、規制の厳しさ、正確性要件により複雑です。
- インテリジェント文書処理は、機械学習、コンピュータビジョン、構造化解析を組み合わせて、書類を使用可能なデータに変換します。
KYCにおけるOCR:標準テキスト抽出が不十分な理由
本記事では、KYC(顧客確認)ワークフローにおける標準OCR技術の限界を考察します。実際の身分証明書は摩耗、傾いた写真、ホログラム、非ラテン文字などに対応する必要があり、標準OCRでは不十分です。代理型OCR(LlamaParseなど)は、レイアウト認識、モデルオーケストレーション、自己修正ループにより90-95%以上のストレートスルー処理を実現し、銀行、保険、暗号資産取引所などの業界におけるコンプライアンス要件に対応します。
- 標準OCRは摩耗や歪みのある実際の身分証明書を正確に処理できない。
- フィールドレベルの精度は99.9%必要であり、エラーはコンプライアンスリスクや顧客離れを引き起こす。
LlamaIndex ニュースレター:インテリジェントテーブル抽出とLiteSearch
今週のLlamaIndexニュースレターでは、インテリジェントテーブル抽出、ローカル文書検索システムLiteSearch、改善されたWord文書処理、Gemini Live APIとの統合、さらに法的発見やコミュニティプロジェクトのガイドを紹介します。
- 複雑な文書向けのインテリジェントテーブル抽出の進歩。
- 完全ローカルの文書検索システムLiteSearchの発表。
LlamaIndex ニュースレター 2026-04-14
今週のニュースレターでは、AIエージェント向けに設計された初のOCRベンチマークであるParseBench、LiteParseの急成長、構造認識PDF QAパイプライン、VLM駆動のOCR運用インサイト、NYCフィンテックワークショップ、セキュアなドキュメントエージェントなどを紹介します。
- AIエージェント向けに設計された初のOCRベンチマーク、ParseBenchを公開
- LiteParseがわずか3週間で4000以上のGitHubスターを獲得
LlamaIndex ニュースレター 2026-04-21
今週のハイライトは、AIエージェント向け初のドキュメントOCRベンチマーク「ParseBench」のリリース、LiteParseのLlamaIndexエコシステムへの正式参加、Anthropic Opus 4.7の総合ベンチマーク、そして来週のNYCフィンテックウィークAIイベントです。
- ParseBenchリリース:AIエージェント向け初のドキュメントOCRベンチマーク。
- LiteParseが公式ウェブサイトを開設、50以上のフォーマットに対応、クラウド不要。
LlamaParse MCP: AIエージェントのためのエージェント型OCRツール
LlamaParse Platform MCPがリファクタリングされ、ストレージ・検索からドキュメント処理へ焦点を移しました。本記事では、MCPが公開するツール、接続方法、設計上の決定事項(OAuth認証、ファイルアップロード解決策、可観測性、レート制限など)について説明します。
- MCPサーバーはhttps://mcp.llamaindex.ai/mcpで利用可能。Claude Desktop、Cursorなどのクライアントに対応。
- 認証にはWorkOS OAuthを採用し、APIキーの手動管理が不要。
liteparse-server の紹介:AI ワークフローのためのセルフホスト型ドキュメント解析とOCR
liteparse-server は、LiteParse ドキュメント解析エンジンをラップしたセルフホスト型 HTTP API で、PDF、Office 文書、画像をサポートし、正確な空間レイアウトテキスト抽出と OCR を提供します。クラウド解析のレイテンシ、コスト、プライバシーの問題に対処し、RAG やビジョンモデルのワークフローに適しています。2つのデプロイモード:スリムサーバー(依存関係なし)とフルスタック(Redis キャッシュ、レート制限、OpenTelemetry トレーシング、Prometheus メトリクス)。
- セルフホスト型ドキュメント解析API、PDF、Word、Excel、PowerPoint、画像をサポート。
- 境界ボックス付きの構造化テキスト抽出とビジョンモデル向けページスクリーンショットエンドポイント。
読めないものを解析する:LlamaParseが法的ディスカバリ文書を処理する方法
LlamaParseはマルチモーダルモデルを使用して複雑な法的ディスカバリ文書を解析し、低品質スキャン、視覚コンテンツ、カスタム解析指示を処理して、ダウンストリームの検索と分類を改善します。
- ディスカバリ文書は多くの場合、スキャンされ品質が低く、従来のOCRでは解析が困難
- LlamaParseは視覚モデルを使用してテキストを抽出し、ページレイアウトを理解
ParseBench: AIエージェント向け初のドキュメント解析ベンチマーク
ParseBenchは、AIエージェントが実際のエンタープライズ文書を解析する品質を測定する新しいベンチマークであり、表、グラフ、コンテンツの忠実性、意味的書式設定、視覚的グラウンディングの5つの次元をカバーします。約2,000ページのエンタープライズ文書と167,000以上のテストルールを用いた14の手法の評価では、単一の手法がすべてに優れるわけではないが、LlamaParse Agenticが84.9%の総合スコアで、5つの主要次元すべてで競争力のある唯一の手法であることが示されました。
- ParseBenchは約2,000ページのエンタープライズ文書と167,000以上のテストルールを5つの能力次元で含みます。
- グラフは最大の課題であり、50%を超えるプロバイダーはわずか4社です。