AI News HubLIVE
站内改写2 分钟阅读

LlamaParse检索工具包:面向AI代理的文件系统原语

LlamaIndex发布了LlamaParse索引的更新,新增检索工具包,为AI代理提供文件系统级文档遍历工具,以及视觉布局保留、托管基础设施和管道可观测性功能。

LlamaIndex最初作为开源项目,专注于标准化RAG的核心原语:分块、嵌入、索引和检索。对于基本的问答工作负载,这一基础架构运作良好。然而,企业级代理已经彻底超越了这一框架。

传统的RAG将数据访问视为静态的一次性预处理步骤:它只提取少量上下文片段,打包到提示窗口中,然后盲目地期望得到最佳结果。自主代理无法通过模糊的语义搜索栏来导航非结构化语料库。它们需要确定性的、系统级的工具,以实时主动地询问、验证和遍历文档。

今天,我们扩展了LlamaParse索引,新增了检索工具包,提供了文档遍历的文件系统原语、视觉布局保留、托管索引和管道可观测性。

文件系统原语

纯语义搜索一旦答案跨越任意分块边界就会陷入死胡同。此时,试图通过让代理暴力逐文件遍历目录来恢复,会彻底烧毁令牌预算和延迟限制。检索工具包通过将底层语料库暴露为一组文件系统风格的工具来解决此问题,代理可以原生调用这些工具:

  • 混合检索:一种高召回率的初步筛选,结合向量相似性和关键词搜索以及开箱即用的重排序,快速缩小代理的初始搜索空间。
  • 列出文件:文件发现。允许代理明确列出索引中包含的文件,为其提供可用文档结构的清晰地图。
  • 文件Grep:在目标文件上执行服务器端正则表达式扫描。如果代理需要隔离特定的序列号、错误代码或精确短语,它不会浪费令牌加载无关的语义块,而是直接对该文件的解析文本执行正则查询。
  • 文件读取:克服分块碎片化。当top-k块在句子中间截断上下文时,代理调用直接读取API,拉取周围文件上下文并无缝恢复缺失数据。

视觉布局保留

对于仅靠文本提取不够的文档,我们现在在解析时捕获页面截图,并将其直接链接到源分块。金融表格、监管表单和架构图中的布局承载结构含义,若被扁平化为原始文本字符串,则会丢失关键上下文。当检索到的文本不足以解决歧义时,代理可以拉取实际的渲染页面,如同LlamaParse处理的那样。这使代理的推理直接基于源视觉布局,防止在密集表格或多栏文档上产生幻觉。

托管基础设施

设置生产索引管道意味着在编写一行应用代码之前需要做出许多决定:数据源、嵌入模型、向量存储、同步逻辑、检索配置。然后运行它意味着要应对速率限制、API故障和难以诊断的管道中断。LlamaParse索引现在原生地开箱即用地编排这一基础设施层。你只需连接文档,平台便自动提供优化的、生产级基线,消除了手动设置的拖累,让你完全专注于应用。

增量同步:我们跟踪哪些文件已更改,仅处理这些文件。一个包含1000个文档的文件夹若新增50个文件,下次同步时仅运行这50个文件通过管道。解析成本和延迟随实际文档活动而非文件夹大小而扩展。

数据可移植性:如果你需要自带向量存储或嵌入模型,解析输出是可下载的。

管道可观测性

生产检索管道以不明显的方式失败:同步完成,但本应进入索引的分块却未出现;一个阶段报告正常,而后续阶段已无声停顿。等到检索质量下降时,失败已经距离实际发生点好几步之遥。我们已在LlamaParse索引中构建了原生、逐阶段的管道跟踪。管道的每个阶段都有自己的状态和文件计数。当同步完成但文件中索引缺失时,阶段计数显示它们停止的位置。你便能知道是摄取失败还是工作流失败,直接修复而无需重构过程。

集成与可用性

检索工具包及其他更新现已在所有付费层中提供Beta版。所有文件系统工具都作为轻量级API模式暴露,可直接接入你现有的LLM编排框架或工具调用循环。

👉 深入文档查看API规范,或直接从LlamaIndex仪表板初始化你的第一个托管索引。