AI News HubLIVE
站內改寫2 分鐘閱讀

LlamaIndex 新聞通訊:智能表格提取與 LiteSearch

本週的 LlamaIndex 新聞通訊重點介紹了智能表格提取、用於本地文檔檢索的 LiteSearch、改進的 Word 文檔處理,以及與 Gemini Live API 的集成,同時提供了法律發現和社區項目的指南。

大家好,Llama 愛好者們!🦙

歡迎來到本週的 LlamaIndex 新聞通訊!我們非常高興與大家分享文檔解析方面的重大突破,包括超越基本 OCR 的智能表格提取、Word 文檔處理的革命性改進,以及完全本地文檔檢索系統 LiteSearch 的推出。此外,我們還帶來了與 Gemini Live API 的激動人心的集成,以及針對法律發現用例的全面指南。

🎉 加入我們在舊金山的活動

慶祝我們遷至“AI 水岸”!我們將於 4 月 2 日在 Second Street 的新辦公室舉辦“第一個星期四”預熱活動。歡迎與我們的團隊見面,享用美食和飲品,並與社區交流。名額有限,請儘早 RSVP!

🤩 亮點

通過智能表格提取革新文檔處理:我們的深度解析文章解釋了現代 OCR 如何重建表格的空間關係、保留標題層級並確保複雜文檔中的數據完整性。瞭解三個核心階段,並查看從發票處理到實驗室結果的實際應用。閲讀完整指南。

LiteSearch:完全本地文檔檢索系統:我們的開源工程師構建了一個高性能、本地優先的檢索流水線,使用 LiteParse 演示如何組裝開源工具進行解析、分塊、嵌入和向量存儲,且無需外部依賴。查看倉庫並探索 LiteParse 文檔。

革命性的 Word 文檔處理:我們解決了 .docx 解析中的反直覺挑戰,通過將 Word XML 表格元素映射到正確的頁面位置,顯著提高了具有豐富格式、合併單元格和嵌套結構的表格的質量。閲讀完整文章。

☁️ LlamaParse

基於語音的文檔助手與 Gemini Live API:我們構建了一個演示,將 Gemini 3.1 的 Live API 與 LiteParse 集成,打造了一個基於 TUI 的語音助手,可以通過語音命令解析文檔並實時回讀結果。探索 GitHub 倉庫並查看 LiteParse 文檔。

帶有邊界框的視覺引用:新指南展示瞭如何使用 LiteParse 通過邊界框提取和頁面截圖將文本與頁面元素關聯。瞭解更多關於視覺引用的信息。

與 Google 合作的智能金融助手:與 Google 的合作博客,展示瞭如何使用 LlamaParse 和 Gemini 3 構建金融助手,包括支持 VLM 的代理 OCR,用於準確的文本和表格提取。閲讀博客並探索倉庫。

法律發現文檔處理:全面指南,用於處理困難掃描件、退化文檔和複雜的法律發現用例,使用視覺模型和自定義解析指令。閲讀完整博客。

✨ 社區

GDPR 違規報告自動化:恭喜競賽獲勝者 @zubeensyed,他構建了一個代理 AI 工作流,自動化 GDPR 違規報告的結構化,將事件報告映射到符合第 33 條要求的標準化架構。閲讀解決方案並觀看演示。