LlamaIndex Blog AI 新聞來源

公開文章 19採集文章 23可信度 84刷新頻率 120 分鐘

健康狀態健康來源類型官方原文權限 官方原文最近入庫 2026-06-24ID llamaindex-blog運行狀態 已啟用

Official agent and retrieval infrastructure blog; confirm reuse terms before full body display.

最新公開文章

n8n的LlamaParse平台節點：利用AI解析、分類、提取和檢索文檔

2026-06-25 00:08 UTC+8

LlamaParse平台社區節點已發佈v5和v6版本，現為n8n官方驗證的社區節點。該節點整合了五個LlamaCloud資源（解析、分類、拆分、提取、檢索），支持作為AI Agent工具使用。v5重寫了基礎架構，v6將多個獨立節點整合為一個，並增加了索引管理功能。文章還提供了三種工作流示例：將檢索器作為Agent工具、構建分類-提取-驗證流水線、以及評估不同解析模式的輸出質量。

LlamaParse平台節點提供五個資源：解析、分類、拆分、提取和檢索，均支持作為n8n AI Agent的工具。
v5版本放棄了SDK，改用直接HTTP調用，並遷移提取功能至V2，支持可配置API基礎URL。

LiteParse 新增 Markdown 輸出功能

2026-06-18 23:51 UTC+8

LiteParse 2.1 推出最快的開源無模型 PDF 轉 Markdown 管道，在三大基準測試中均取得領先成績，並支持多語言運行環境。

LiteParse 2.1 實現純啓發式 PDF 轉 Markdown，無需 AI 模型。
在 ParseBench、opendataloader-bench 和 olmOCR-bench 上整體得分最高。

為Claude智能體構建更快、更便宜的PDF解析技能：LiteParse案例研究

2026-06-15 23:45 UTC+8

本文詳細介紹瞭如何通過迭代評估、分析追蹤和優化，為Claude智能體改進LiteParse文檔解析技能，使其更便宜、更快且質量更高。項目發現並修復了反模式，如重複解析、不必要的OCR和低效的grep調用，最終使成本降低37%，並在所有評判指標上獲得更高分數。

利用pdfQA基準測試和追蹤分析，系統優化了LiteParse技能，解決了重複解析、OCR濫用和過度grep等問題。
通過硬性規則（如一次解析、禁用OCR）和工具組合（grep、sed、BM25檢索），減少了80%以上的緩存寫入成本。

LlamaIndex 新聞通訊 6-10-26

2026-06-12 22:11 UTC+8

本期帶來 ParseBench 在 CVPR 2026 的展示、Parse-Flow 視覺文檔智能工作流、Anthropic Fable 5 基準測試結果、LlamaParse 新粒級邊界框，以及 AI 首個匹克球錦標賽 The Agent Open。

ParseBench 在 CVPR 2026 首次亮相，為 AI 智能體提供文檔解析基準。
Anthropic Fable 5 在 ParseBench 上內容忠實度達 90.02%，領先競爭對手 12+ 分。

本文探討了PDF可搜索性的真正含義。快速OCR方法（如Adobe Acrobat、免費在線工具）適用於簡單文檔，但在表格、多欄佈局和低質量掃描件上表現不佳。文本層即使有95%準確率仍會遺留錯誤，導致關鍵信息無法被檢索。對於大規模文檔處理或AI集成，需要像LlamaParse這樣提供結構化輸出（如Markdown）和高準確率的工具，以保留閲讀順序和表格結構。真正的可搜索性取決於準確性和結構，而非僅僅文本層的存在。

快速OCR方法（如Acrobat、免費在線工具）適合清潔文檔，但處理表格、多欄和劣質掃描時失敗。
文本層95%準確率仍導致每頁約150個錯誤字符，使搜索落空。

提取合同元數據：方法、挑戰與工作流程

2026-06-05 03:51 UTC+8

組織在從複雜的法律合同中提取結構化元數據時面臨重大挑戰，因為語言、結構和格式的多樣性。現代系統結合了佈局感知解析、機器學習、語義提取和模式映射，將非結構化的法律協議轉化為機器可讀數據。LlamaParse 提供了一個集成的平台，將這些能力整合到生產工作流中。

合同元數據提取超越OCR，需要理解法律語言和文檔結構。
關鍵步驟包括文檔攝取、佈局感知解析、條款檢測和模式映射。

Parse-Flow：開源可視化文檔智能工作流設計器

2026-06-02 23:45 UTC+8

Parse-Flow 是一個開源項目，通過可視化工作流設計器、異步工作器和實時事件儀表板，將文檔處理的四個基本操作——解析、分類、拆分和提取——整合在一起。後端基於 llama-agents 工作流引擎，使用 Redis 和 Postgres 實現任務隊列與事件持久化。本文詳細介紹了系統架構、工作流定義、基於狀態機的執行引擎以及設計優勢。

Parse-Flow 將解析、分類、拆分和提取四個文檔處理原語集成到可視化工作流中。
後端採用三步驟狀態機（引導、工作器、路由器）解釋用户定義的工作流。

grep vs. RAG：為AI智能體選擇正確的搜索策略

2026-05-27 09:27 UTC+8

本文對比了grep（詞法搜索）與RAG（語義搜索）在AI智能體中的應用場景。grep在小規模純文本語料庫中快速精準，但無法處理PDF等非結構化文檔，且擴展性差。RAG通過解析、分塊、嵌入和向量索引實現規模化語義搜索，支持自然語言查詢，但需要額外基礎設施。作者建議採用分層方法：先用工具解析非結構化文檔，再用語義搜索處理大規模語料，同時在適用場景保留grep。

grep適用於小型純文本語料庫的精確匹配，但無法處理非結構化文檔。
語義搜索（RAG）通過嵌入和近似最近鄰索引實現規模化、詞彙無關的檢索。

LlamaIndex 新聞通訊 5-19-26

2026-05-20 08:23 UTC+8

本期LlamaIndex新聞通訊介紹了ParseBench——首個為AI代理構建的OCR基準測試，以及新的開源工具：用於安全文檔交互的Sandboxed-Lit CLI代理和用於私有部署的LiteParse-Server。此外，還回顧了新加坡和紐約的社區活動。

ParseBench是首個專門為AI代理設計的文檔OCR基準測試，將於網絡研討會上發佈。
Sandboxed-Lit CLI代理結合了文檔解析和沙箱環境，確保代理在處理PDF、圖像等文件時的安全。

如何使用LiteParse構建財務盡職調查代理

2026-05-19 08:05 UTC+8

本文介紹了一個利用LiteParse構建的AI代理演示應用，該代理能夠處理SEC文件、跨文件搜索並回答帶有精確引用的問題。文章詳細講解了項目架構，包括PDF解析、文檔存儲、工具定義、聊天端點和引用系統，並説明了如何集成SEC EDGAR獲取文件。整個項目約600行庫代碼，無需向量數據庫或外部基礎設施。

LiteParse不僅能提取文本，還能提供文本的邊界框座標，實現精確引用高亮。
項目使用關鍵詞匹配而非向量搜索，適用於小型文檔集。

抵押貸款文檔自動化：重塑貸款處理流程

2026-05-15 10:36 UTC+8

抵押貸款文檔自動化利用智能文檔處理技術，將文檔密集型工作流轉化為結構化、機器驅動的流程，從而提高效率、減少錯誤。本文分析了抵押貸款處理的複雜性、自動化工作流（文檔攝取、分類、數據提取、驗證、人工審核及系統集成）、面臨的挑戰，並介紹了使用LlamaParse實施自動化的最佳實踐。

抵押貸款文檔處理因格式多樣、監管嚴格和數據準確性要求高而複雜。
智能文檔處理結合機器學習、計算機視覺和結構化解析，實現文檔到數據的轉換。

KYC中的OCR：為什麼標準文本提取不夠用

2026-05-15 10:35 UTC+8

本文探討了標準OCR技術在KYC（瞭解你的客户）工作流程中的不足，包括對複雜證件、安全特徵和多語言支持的侷限性。介紹了代理型OCR（如LlamaParse）如何通過佈局感知分割、模型編排和自糾錯循環來提高準確率，並分析了銀行業、保險業和加密貨幣交易所中的應用與合規需求。

標準OCR在KYC中難以處理真實證件，如磨損、角度拍攝、全息圖等複雜情況。
字段級準確率需達99.9%，否則會導致合規風險、誤報和客户流失。

LlamaIndex 新聞通訊：智能表格提取與 LiteSearch

2026-05-15 10:35 UTC+8

本週的 LlamaIndex 新聞通訊重點介紹了智能表格提取、用於本地文檔檢索的 LiteSearch、改進的 Word 文檔處理，以及與 Gemini Live API 的集成，同時提供了法律發現和社區項目的指南。

智能表格提取技術的進步，可處理複雜文檔中的空間關係和標題層級。
推出 LiteSearch，一個完全本地的文檔檢索系統。

LlamaIndex 新聞簡報 2026-04-14

2026-05-15 10:34 UTC+8

本期簡報介紹了 ParseBench——首個專為AI代理設計的OCR基準測試，以及LiteParse的快速增長、結構感知PDF QA管道、VLM驅動的OCR生產洞察、紐約金融科技研討會和安全文檔代理等重要更新。

發佈 ParseBench，首個專為AI代理設計的OCR基準測試
LiteParse 在3周內獲得4000+ GitHub星標

LlamaIndex 新聞通訊 2026-04-21

2026-05-15 10:33 UTC+8

本期重點包括首個AI代理文檔OCR基準測試ParseBench的發佈、LiteParse正式加入LlamaIndex生態系統、Anthropic Opus 4.7的全面基準測試以及即將舉行的紐約金融科技周AI活動。

ParseBench發佈：首個針對AI代理的文檔OCR基準測試。
LiteParse官方網站上線，支持50+格式，零雲依賴。

LlamaParse MCP：為AI代理提供智能OCR工具

2026-05-15 10:33 UTC+8

LlamaParse平台MCP已重構，從存儲檢索轉向文檔處理。本文介紹了MCP暴露的工具、連接方式以及設計決策，包括OAuth認證、文件上傳解決方案（URL上傳和令牌端點）、可觀測性和速率限制等。

MCP服務器地址為https://mcp.llamaindex.ai/mcp，支持Claude Desktop、Cursor等客户端。
認證採用WorkOS OAuth，無需手動管理API密鑰。

liteparse-server 介紹：用於 AI 工作流的自託管文檔解析與 OCR

2026-05-15 10:32 UTC+8

liteparse-server 是一個自託管的 HTTP API，封裝了 LiteParse 文檔解析引擎，支持 PDF、Office 文檔和圖像，提供精確的空間佈局文本提取和 OCR 功能。它解決了雲端解析的延遲、成本和隱私問題，適用於 RAG、視覺模型等工作流。支持兩種部署模式：輕量級服務器（無依賴）和完整堆棧（帶 Redis 緩存、限流、OpenTelemetry 追蹤、Prometheus 指標）。

自託管文檔解析 API，支持 PDF、Word、Excel、PowerPoint 和圖像格式。
提供帶邊界框的結構化文本提取和頁面截圖端點，適用於視覺模型。

解析不可讀：LlamaParse如何處理法律發現文件