AI News HubLIVE
站內改寫2 分鐘閱讀

LlamaIndex 新聞通訊:智慧表格提取與 LiteSearch

本週的 LlamaIndex 新聞通訊重點介紹了智慧表格提取、用於本地文件檢索的 LiteSearch、改進的 Word 文件處理,以及與 Gemini Live API 的整合,同時提供了法律發現和社群專案的指南。

大家好,Llama 愛好者們!🦙

歡迎來到本週的 LlamaIndex 新聞通訊!我們非常高興與大家分享文件解析方面的重大突破,包括超越基本 OCR 的智慧表格提取、Word 文件處理的革命性改進,以及完全本地文件檢索系統 LiteSearch 的推出。此外,我們還帶來了與 Gemini Live API 的激動人心的整合,以及針對法律發現用例的全面指南。

🎉 加入我們在舊金山的活動

慶祝我們遷至“AI 水岸”!我們將於 4 月 2 日在 Second Street 的新辦公室舉辦“第一個星期四”預熱活動。歡迎與我們的團隊見面,享用美食和飲品,並與社群交流。名額有限,請儘早 RSVP!

🤩 亮點

透過智慧表格提取革新文件處理:我們的深度解析文章解釋了現代 OCR 如何重建表格的空間關係、保留標題層級並確保複雜文件中的資料完整性。瞭解三個核心階段,並檢視從發票處理到實驗室結果的實際應用。閱讀完整指南。

LiteSearch:完全本地文件檢索系統:我們的開源工程師構建了一個高效能、本地優先的檢索流水線,使用 LiteParse 演示如何組裝開源工具進行解析、分塊、嵌入和向量儲存,且無需外部依賴。檢視倉庫並探索 LiteParse 文件。

革命性的 Word 文件處理:我們解決了 .docx 解析中的反直覺挑戰,透過將 Word XML 表格元素對映到正確的頁面位置,顯著提高了具有豐富格式、合併單元格和巢狀結構的表格的質量。閱讀完整文章。

☁️ LlamaParse

基於語音的文件助手與 Gemini Live API:我們構建了一個演示,將 Gemini 3.1 的 Live API 與 LiteParse 整合,打造了一個基於 TUI 的語音助手,可以透過語音命令解析文件並即時回讀結果。探索 GitHub 倉庫並檢視 LiteParse 文件。

帶有邊界框的視覺引用:新指南展示瞭如何使用 LiteParse 透過邊界框提取和頁面截圖將文本與頁面元素關聯。瞭解更多關於視覺引用的資訊。

與 Google 合作的智慧金融助手:與 Google 的合作部落格,展示瞭如何使用 LlamaParse 和 Gemini 3 構建金融助手,包括支援 VLM 的代理 OCR,用於準確的文本和表格提取。閱讀部落格並探索倉庫。

法律發現文件處理:全面指南,用於處理困難掃描件、退化文件和複雜的法律發現用例,使用視覺模型和自定義解析指令。閱讀完整部落格。

✨ 社群

GDPR 違規報告自動化:恭喜競賽獲勝者 @zubeensyed,他構建了一個代理 AI 工作流,自動化 GDPR 違規報告的結構化,將事件報告對映到符合第 33 條要求的標準化架構。閱讀解決方案並觀看演示。