解析不可读:LlamaParse如何处理法律发现文件
LlamaParse利用多模态模型解析复杂的法律发现文件,处理低质量扫描件、视觉内容,并提供自定义解析指令,以改善下游搜索和分类。
在法律诉讼中,发现(discovery)阶段是双方交换相关文件的过程,通常涉及数十万份文件,被美国联邦法院系统描述为“噩梦”和“泥沼”。律师事务所依赖eDiscovery平台(如Relativity、Everlaw和DISCO)来管理这些文件,但这些平台需要首先正确解析文件。问题在于,对方提供的文件往往难以处理:它们通常是扫描件,分辨率低、黑白、旋转角度不一,传统OCR工具在这些文件上表现不佳,经常产生拼写错误,如“settlement”变成“s ettl em ent”,导致搜索失败。
更关键的是,这些文件不仅包含文本,还有照片、PowerPoint图表、表格和手写注释。文本搜索无法处理这些内容,而手动标记又耗时耗力。LlamaParse正是为解决这一问题而设计的。它使用多模态模型,不仅能提取文本,还能理解页面视觉布局,描述图像和图表,处理复杂表格和混合内容。对于法律发现,这带来了几个传统OCR无法实现的能力:它更好地处理低质量扫描件,即使模糊或倾斜也能输出可用结果;它保留并呈现视觉内容,使照片和图表可以被索引;它允许通过自定义解析指令指导行为,例如提取特定格式的案例编号或证物标记。
设置LlamaParse进行发现文件解析很简单。首先安装llama-cloud包并设置API密钥。API分为两步:上传文件然后启动解析作业。对于发现文件,建议使用“agentic_plus”层级,它针对复杂布局和视觉内容进行了优化。关键功能是custom_prompt,可以输入自然语言指导,例如“这些是法律发现文件,可能是低分辨率扫描件。请提取所有可见文本,纠正OCR伪影,识别并描述照片,提取表格数据,注意手写注释,保留案例编号等。”此外,还可以指定输出格式,如Markdown、文本或结构化的“items”视图。
更好的解析意味着下游系统能更有效地工作。如果搜索索引基于充满OCR错误的文本,语义搜索和分类的召回率会降低。LlamaParse作为基础层,确保文档可读且结构化,从而让上层系统(如法律检索或分类)发挥最大作用。对于希望尝试的用户,LlamaParse提供免费层级,文档中有完整的API说明。