LlamaIndex Blog AI 新聞來源

公開文章 19採集文章 23可信度 84刷新頻率 120 分鐘

健康狀態健康來源類型官方原文權限 官方原文最近入庫 2026-06-24ID llamaindex-blog運行狀態 已啟用

Official agent and retrieval infrastructure blog; confirm reuse terms before full body display.

最新公開文章

n8n的LlamaParse平臺節點：利用AI解析、分類、提取和檢索文件

2026-06-25 00:08 UTC+8

LlamaParse平臺社群節點已釋出v5和v6版本，現為n8n官方驗證的社群節點。該節點整合了五個LlamaCloud資源（解析、分類、拆分、提取、檢索），支援作為AI Agent工具使用。v5重寫了基礎架構，v6將多個獨立節點整合為一個，並增加了索引管理功能。文章還提供了三種工作流示例：將檢索器作為Agent工具、構建分類-提取-驗證流水線、以及評估不同解析模式的輸出質量。

LlamaParse平臺節點提供五個資源：解析、分類、拆分、提取和檢索，均支援作為n8n AI Agent的工具。
v5版本放棄了SDK，改用直接HTTP呼叫，並遷移提取功能至V2，支援可配置API基礎URL。

LiteParse 新增 Markdown 輸出功能

2026-06-18 23:51 UTC+8

LiteParse 2.1 推出最快的開源無模型 PDF 轉 Markdown 管道，在三大基準測試中均取得領先成績，並支援多語言執行環境。

LiteParse 2.1 實現純啟發式 PDF 轉 Markdown，無需 AI 模型。
在 ParseBench、opendataloader-bench 和 olmOCR-bench 上整體得分最高。

為Claude智慧體構建更快、更便宜的PDF解析技能：LiteParse案例研究

2026-06-15 23:45 UTC+8

本文詳細介紹瞭如何透過迭代評估、分析追蹤和最佳化，為Claude智慧體改進LiteParse文件解析技能，使其更便宜、更快且質量更高。專案發現並修復了反模式，如重複解析、不必要的OCR和低效的grep呼叫，最終使成本降低37%，並在所有評判指標上獲得更高分數。

利用pdfQA基準測試和追蹤分析，系統最佳化了LiteParse技能，解決了重複解析、OCR濫用和過度grep等問題。
透過硬性規則（如一次解析、停用OCR）和工具組合（grep、sed、BM25檢索），減少了80%以上的快取寫入成本。

LlamaIndex 新聞通訊 6-10-26

2026-06-12 22:11 UTC+8

本期帶來 ParseBench 在 CVPR 2026 的展示、Parse-Flow 視覺文件智慧工作流、Anthropic Fable 5 基準測試結果、LlamaParse 新粒級邊界框，以及 AI 首個匹克球錦標賽 The Agent Open。

ParseBench 在 CVPR 2026 首次亮相，為 AI 智慧體提供文件解析基準。
Anthropic Fable 5 在 ParseBench 上內容忠實度達 90.02%，領先競爭對手 12+ 分。

本文探討了PDF可搜尋性的真正含義。快速OCR方法（如Adobe Acrobat、免費線上工具）適用於簡單文件，但在表格、多欄佈局和低質量掃描件上表現不佳。文本層即使有95%準確率仍會遺留錯誤，導致關鍵資訊無法被檢索。對於大規模文件處理或AI整合，需要像LlamaParse這樣提供結構化輸出（如Markdown）和高準確率的工具，以保留閱讀順序和表格結構。真正的可搜尋性取決於準確性和結構，而非僅僅文本層的存在。

快速OCR方法（如Acrobat、免費線上工具）適合清潔文件，但處理表格、多欄和劣質掃描時失敗。
文本層95%準確率仍導致每頁約150個錯誤字元，使搜尋落空。

提取合同後設資料：方法、挑戰與工作流程

2026-06-05 03:51 UTC+8

組織在從複雜的法律合同中提取結構化後設資料時面臨重大挑戰，因為語言、結構和格式的多樣性。現代系統結合了佈局感知解析、機器學習、語義提取和模式對映，將非結構化的法律協議轉化為機器可讀資料。LlamaParse 提供了一個整合的平臺，將這些能力整合到生產工作流中。

合同後設資料提取超越OCR，需要理解法律語言和文件結構。
關鍵步驟包括文件攝取、佈局感知解析、條款檢測和模式對映。

Parse-Flow：開源視覺化文件智慧工作流設計器

2026-06-02 23:45 UTC+8

Parse-Flow 是一個開源專案，透過視覺化工作流設計器、非同步工作器和即時事件儀表板，將文件處理的四個基本操作——解析、分類、拆分和提取——整合在一起。後端基於 llama-agents 工作流引擎，使用 Redis 和 Postgres 實現任務佇列與事件持久化。本文詳細介紹了系統架構、工作流定義、基於狀態機的執行引擎以及設計優勢。

Parse-Flow 將解析、分類、拆分和提取四個文件處理原語整合到視覺化工作流中。
後端採用三步驟狀態機（引導、工作器、路由器）解釋使用者定義的工作流。

grep vs. RAG：為AI智慧體選擇正確的搜尋策略

2026-05-27 09:27 UTC+8

本文對比了grep（詞法搜尋）與RAG（語義搜尋）在AI智慧體中的應用場景。grep在小規模純文本語料庫中快速精準，但無法處理PDF等非結構化文件，且擴充套件性差。RAG透過解析、分塊、嵌入和向量索引實現規模化語義搜尋，支援自然語言查詢，但需要額外基礎設施。作者建議採用分層方法：先用工具解析非結構化文件，再用語義搜尋處理大規模語料，同時在適用場景保留grep。

grep適用於小型純文本語料庫的精確匹配，但無法處理非結構化文件。
語義搜尋（RAG）透過嵌入和近似最近鄰索引實現規模化、詞彙無關的檢索。

LlamaIndex 新聞通訊 5-19-26

2026-05-20 08:23 UTC+8

本期LlamaIndex新聞通訊介紹了ParseBench——首個為AI代理構建的OCR基準測試，以及新的開源工具：用於安全文件互動的Sandboxed-Lit CLI代理和用於私有部署的LiteParse-Server。此外，還回顧了新加坡和紐約的社群活動。

ParseBench是首個專門為AI代理設計的文件OCR基準測試，將於網路研討會上釋出。
Sandboxed-Lit CLI代理結合了文件解析和沙箱環境，確保代理在處理PDF、影像等檔案時的安全。

如何使用LiteParse構建財務盡職調查代理

2026-05-19 08:05 UTC+8

本文介紹了一個利用LiteParse構建的AI代理演示應用，該代理能夠處理SEC檔案、跨檔案搜尋並回答帶有精確引用的問題。文章詳細講解了專案架構，包括PDF解析、文件儲存、工具定義、聊天端點和引用系統，並說明了如何整合SEC EDGAR獲取檔案。整個專案約600行庫程式碼，無需向量資料庫或外部基礎設施。

LiteParse不僅能提取文本，還能提供文本的邊界框座標，實現精確引用高亮。
專案使用關鍵詞匹配而非向量搜尋，適用於小型文件集。

抵押貸款文件自動化：重塑貸款處理流程

2026-05-15 10:36 UTC+8

抵押貸款文件自動化利用智慧文件處理技術，將文件密集型工作流轉化為結構化、機器驅動的流程，從而提高效率、減少錯誤。本文分析了抵押貸款處理的複雜性、自動化工作流（文件攝取、分類、資料提取、驗證、人工稽核及系統整合）、面臨的挑戰，並介紹了使用LlamaParse實施自動化的最佳實踐。

抵押貸款文件處理因格式多樣、監管嚴格和資料準確性要求高而複雜。
智慧文件處理結合機器學習、計算機視覺和結構化解析，實現文件到資料的轉換。

KYC中的OCR：為什麼標準文本提取不夠用

2026-05-15 10:35 UTC+8

本文探討了標準OCR技術在KYC（瞭解你的客戶）工作流程中的不足，包括對複雜證件、安全特徵和多語言支援的侷限性。介紹了代理型OCR（如LlamaParse）如何透過佈局感知分割、模型編排和自糾錯迴圈來提高準確率，並分析了銀行業、保險業和加密貨幣交易所中的應用與合規需求。

標準OCR在KYC中難以處理真實證件，如磨損、角度拍攝、全息圖等複雜情況。
欄位級準確率需達99.9%，否則會導致合規風險、誤報和客戶流失。

LlamaIndex 新聞通訊：智慧表格提取與 LiteSearch

2026-05-15 10:35 UTC+8

本週的 LlamaIndex 新聞通訊重點介紹了智慧表格提取、用於本地文件檢索的 LiteSearch、改進的 Word 文件處理，以及與 Gemini Live API 的整合，同時提供了法律發現和社群專案的指南。

智慧表格提取技術的進步，可處理複雜文件中的空間關係和標題層級。
推出 LiteSearch，一個完全本地的文件檢索系統。

LlamaIndex 新聞簡報 2026-04-14

2026-05-15 10:34 UTC+8

本期簡報介紹了 ParseBench——首個專為AI代理設計的OCR基準測試，以及LiteParse的快速增長、結構感知PDF QA管道、VLM驅動的OCR生產洞察、紐約金融科技研討會和安全文件代理等重要更新。

釋出 ParseBench，首個專為AI代理設計的OCR基準測試
LiteParse 在3周內獲得4000+ GitHub星標

LlamaIndex 新聞通訊 2026-04-21

2026-05-15 10:33 UTC+8

本期重點包括首個AI代理文件OCR基準測試ParseBench的釋出、LiteParse正式加入LlamaIndex生態系統、Anthropic Opus 4.7的全面基準測試以及即將舉行的紐約金融科技周AI活動。

ParseBench釋出：首個針對AI代理的文件OCR基準測試。
LiteParse官方網站上線，支援50+格式，零雲依賴。

LlamaParse MCP：為AI代理提供智慧OCR工具

2026-05-15 10:33 UTC+8

LlamaParse平臺MCP已重構，從儲存檢索轉向文件處理。本文介紹了MCP暴露的工具、連線方式以及設計決策，包括OAuth認證、檔案上傳解決方案（URL上傳和令牌端點）、可觀測性和速率限制等。

MCP伺服器地址為https://mcp.llamaindex.ai/mcp，支援Claude Desktop、Cursor等客戶端。
認證採用WorkOS OAuth，無需手動管理API金鑰。

liteparse-server 介紹：用於 AI 工作流的自託管文件解析與 OCR

2026-05-15 10:32 UTC+8

liteparse-server 是一個自託管的 HTTP API，封裝了 LiteParse 文件解析引擎，支援 PDF、Office 文件和影像，提供精確的空間佈局文本提取和 OCR 功能。它解決了雲端解析的延遲、成本和隱私問題，適用於 RAG、視覺模型等工作流。支援兩種部署模式：輕量級伺服器（無依賴）和完整堆疊（帶 Redis 快取、限流、OpenTelemetry 追蹤、Prometheus 指標）。

自託管文件解析 API，支援 PDF、Word、Excel、PowerPoint 和影像格式。
提供帶邊界框的結構化文本提取和頁面截圖端點，適用於視覺模型。

解析不可讀：LlamaParse如何處理法律發現檔案