レイクハウスは構造化データを見事に処理します。非構造化データが次の課題です。
この記事では、AIエージェントが組織内の非構造化データ(PDF、契約書、メールなど)の約80%にアクセスできない問題を考察し、UnstructuredプラットフォームがそれらのデータをDatabricksレイクハウスでエージェントが利用可能な知識に変換する方法を紹介しています。単一のパイプラインで65以上のファイル形式を処理し、メダリオンアーキテクチャとUnity Catalogによるガバナンスを強調しています。
企業はAIに多額の投資を行っていますが、エージェントは期待通りの成果を上げていません。その原因はデータにあります。AIエージェントは組織内の構造化データの約20%にしかアクセスできず、残りの80%の非構造化データ(PDF、契約書、メール、通話録音、スキャン文書など)は手の届かないところにあります。これらのデータには重要な意思決定や組織の知識が含まれていますが、現在のAIパイプラインでは活用できません。
Databricksレイクハウスは構造化データとAIのための優れた基盤を提供しますが、非構造化データの取り込みは依然として課題です。Unstructuredプラットフォームはこのギャップを埋めます。SharePoint、Salesforce、Google Driveなどのソースからコンテンツを抽出し、単一のパイプラインで抽出、正確なチャンク化、メタデータのエンリッチメント、埋め込みを実行し、処理後のデータをUnity Catalogに書き込みます。
Unstructuredの出力はメダリオンアーキテクチャにマッピングできます。生データはBronzeレイヤーに格納され、変換とエンリッチメントを経てSilverレイヤーへ、最終的にユースケースに応じてGoldレイヤーに格納されます。例えば、Agentic RAG用の埋め込みコンテンツや、BIツールが直接クエリできる構造化データ抽出などです。Icebergテーブルもサポートしていますが、現時点ではベクターデータ型に対応していないため、抽出ユースケースに適しています。
ガバナンス面では、Unstructuredは顧客のセキュリティモデルに従い、SaaS、ハイブリッドSaaS、VPC、ベアメタルから選択可能です。PrivateLinkを介してトラフィックをルーティングし、公共インターネットを経由しません。SOC 2 Type 2、ISO 27001、HIPAA、FedRAMP、GDPRに準拠しています。さらに、Unity Catalog内の既存のガバナンスポリシーを継承するため、別途アクセス制御を設定する必要はありません。Unity AI Gatewayと組み合わせることで、生のドキュメントから本番AIエージェントまで完全な監査チェーンが実現します。
非構造化データがレイクハウスに取り込まれると、AIエージェントはビジネスの完全なコンテキスト(ポリシー、契約、意思決定、組織知識)にアクセスできるようになります。データイニシアチブは停滞せず、エンジニアリングチームはシステムを繋ぎ合わせるよりもコア機能の構築に集中できます。Unstructuredは既存のインフラと並行して動作し、Databricks環境を中断しません。
2026年6月15日~18日に開催されるDatabricks Data + AI Summitにご参加の際は、最も厄介なユースケースをお持ちください。Unstructuredは、あらゆるドキュメント、メール、ファイルをレイクハウス内でエージェントが利用可能な、ガバナンスされた知識に変えることを目指しています。