AI News HubLIVE
站内改写3 分で読了

GenieとAIエージェントで太陽光・風力発電の保守レポートを変革

PlenitudeはDatabricks Genie上にエージェントベースのシステムを構築し、太陽光・風力発電の保守PDFレポートを統一的でクエリ可能なデータモデルに変換。自然言語での質問や複数プラント間の分析を可能にします。

PlenitudeとDatabricksは、太陽光・風力発電プラントの保守レポート(PDF)を構造化データに変換するエージェントベースのシステムを開発しました。従来のPDF形式では、テキスト、表、画像が混在し、手動での読み取りが必要で、複数プラント間の比較が困難でした。新システムは、イベント駆動型のPDF取り込み、LLMによる抽出、Delta Lakeへの保存を経て、統一されたデータ層を構築します。

システムアーキテクチャは3層で構成されます。第1層は解析で、Databricksのai_parse_document関数を使用して各ページからテキスト、表、メタデータを抽出します。この関数は複雑な表も処理でき、ページ上の位置情報やHTML表現を保持します。第2層は正規化と保存で、ページID、オブジェクトID、バウンディングボックス座標、コンテンツタイプ、月、年、ファイル名、カテゴリ、国などのメタデータとともにDelta Lakeテーブルに1行ずつ格納します。これにより、PDFは統一されたクエリ可能なデータセットに変換され、他のデータソースとの結合が容易になり、元のドキュメントへの完全なトレーサビリティが保持されます。第3層はGenieスペースとエージェントモードで、ユーザーは自然言語で構造化データに問い合わせられます。GenieはUnity Catalogのセマンティックメタデータを利用してテーブルとカラムを識別し、詳細なカラム説明、ナレッジストア、SQLサンプルを活用してクエリを生成、実行し、回答、可視化、エクスポート可能な結果を返します。

信頼性の高い結果を得るために、Plenitudeはメタデータと明示的な指示の重要性を強調しています。豊富なテーブル・カラム記述がGenieにフィールドの意味を伝えます。例えば、page_idは元のレポートのソースページを識別し、typeは要素がテキストか表かを示し、coordsは空間位置をエンコードし、contentは抽出されたテキストまたは表の表現を含みます。これらのメタデータは生のJSONをGenieが推論できる知識に変換します。さらに、Genieスペースのローカルナレッジストアに追加されたドメイン固有の指示が、複数ページにわたる表の処理、HTMLアーティファクトの無視、ヘッダー行の除外、プラント固有のフィルター適用などをガイドします。実際の例として、完全なメタデータがあっても、GenieがYTD列を合計したり、欠落した月を無視したりして、誤った四半期合計を計算する可能性があります。「月レベルの列のみ使用し、YTDフィールドは使わない」「合計前に必須の月がすべて存在することを検証する」といった明確な指示を追加することで、チームはGenieに一貫した結果を保証する運用ガードレールを提供します。

Genieに加えて、PlenitudeはAgent Bricksを使用して反復可能なワークフローを構築しています。Agent Bricksにより、「LLM+プロンプト」パターンからエージェントワークフローに移行し、複雑なタスクの分解、Genieツールフローの呼び出しによるSQLの生成と実行、レポート生成やアラート作成などのダウンストリームアクションのトリガーが可能になります。自動液体クラスタリングは、エージェント駆動のクエリ性能を最適化します。これは、テーブルの実際の使用パターンを学習し、レイアウトを適応させることで、手動チューニングの必要性を減らします。セキュリティ面では、PlenitudeはUnity Catalog関数と行レベルフィルタリングを組み合わせてデータアクセスを制御します。関数は現在のユーザーがアクセスできる国を決定し、テーブルはその関数に基づいて行をフィルタリングするため、各ユーザーは許可された国のデータのみ表示されます。Genie Roomを介して対話する場合、すべてのクエリはフィルタリングされたテーブルで実行され、行レベルのセキュリティが自動的に適用されます。

将来的には、このシステムは予知保全をサポートします。保守レポートには障害の詳細が含まれており、構造化データモデルは予知保全の強力な基盤となります。インバータは良い例です:障害により1台あたり数メガワット時の損失が発生する可能性があり、繰り返し発生する問題は保守ノートに最初に現れることがよくあります。経時的な障害パターンを分析することで、Plenitudeは潜在的な記録問題の特定、早期警告信号の検出、詳細な調査が必要なプラントの優先順位付け、より高品質な障害履歴を予測モデルに提供することができます。このエージェントベースのシステムは、それらの信号をアクセス可能な分析、トレンド、可視化に変換し、チームが問題に事後対応するのではなく、事前に予測できるようにします。