利用Genie和AI代理革新太陽能與風能維護報告
Plenitude在Databricks Genie上構建了一個基於代理的系統,將太陽能和風能維護的PDF報告轉換為統一、可查詢的資料模型,支援自然語言查詢、跨工廠分析和預測性維護。
Plenitude和Databricks合作開發了一個基於代理的系統,旨在將太陽能和風能工廠的PDF維護報告轉化為結構化資料,從而支援自然語言查詢、跨工廠分析和預測性維護。傳統的維護報告以PDF形式呈現,包含自由文本、表格和影像,導致團隊需要手動閱讀每個文件,跨工廠比較緩慢且不一致。新系統透過事件驅動的PDF攝入、LLM提取和Delta Lake儲存,將報告轉換為統一的資料層。
系統架構分為三層:第一層是解析,使用Databricks的ai_parse_document函式從每個頁面提取文本、表格和後設資料。該函式能夠處理複雜的表格,並保留頁面上的位置資訊和HTML表示。第二層是歸一化和儲存,為每個頁面和物件在Delta Lake表中建立一行,包含頁面ID、物件ID、邊界框座標、內容型別以及月份、年份、檔名稱、類別和國家等後設資料。這樣,PDF被轉換為統一、可查詢的資料集,並且易於與其他資料來源連線,同時保留對原始文件的完全追溯能力。第三層是Genie空間和代理模式,使用者可以透過自然語言與結構化的維護資料互動。Genie利用Unity Catalog中的語義後設資料識別表和列,藉助詳細的列描述、知識庫和SQL示例生成查詢,返回答案、視覺化結果並支援匯出。
為了實現可靠的結果,Plenitude強調了後設資料和顯式指令的重要性。豐富的表和列描述幫助Genie理解欄位含義,例如page_id標識源頁面,type表示元素型別(文本或表格),coords編碼空間位置,content包含提取的文本或表格表示。這些後設資料將原始JSON轉化為Genie可以推理的知識。此外,Genie空間的本地知識庫中的領域特定指令處理多頁表格、忽略HTML工件、排除標題行和應用工廠特定過濾器。一個實際例子:即使有完整的後設資料,Genie在計算季度總計時可能會錯誤地包含YTD列或忽略缺失的月份。透過新增明確指令如“僅使用月份級列,不使用YTD欄位”和“在求和前驗證所有必需月份是否存在”,團隊為Genie提供了操作護欄,確保結果一致。
除了Genie,Plenitude還使用Agent Bricks構建可重複的工作流。Agent Bricks允許從“LLM加提示”模式轉向代理工作流,執行復雜的任務序列,例如分解複雜問題、呼叫Genie工具流生成和執行SQL、觸發下游操作如報告生成或警報建立。自動液體聚類最佳化了代理驅動的查詢效能,因為它能學習實際使用模式並自適應調整佈局,減少了手動調優的需求。在安全性方面,Plenitude透過Unity Catalog函式和行級過濾表實現資料訪問控制。一個函式確定當前使用者可訪問的國家,然後表根據該函式過濾行,確保使用者只能看到授權資料。當使用者透過Genie Room互動時,所有查詢都在過濾後的表上執行,自動應用行級安全。
未來,該系統有望支援預測性維護。維護報告中包含的故障細節為分析故障模式、識別早期預警訊號、優先處理需要深入調查的工廠以及向預測模型提供更高質量的故障歷史提供了基礎。逆變器是一個很好的例子:故障可能導致單個裝置損失數兆瓦時,而重複問題通常首先出現在維護筆記中。透過分析隨時間變化的故障模式,Plenitude可以識別潛在記錄問題、檢測早期警告訊號、優先處理需要深入調查的工廠,並向預測模型輸入更高質量的故障歷史。總之,該代理系統將維護資料轉化為可訪問的分析、趨勢和視覺化,幫助團隊從被動響應轉向主動預防。