AI News HubLIVE
站内改写1 分钟阅读

更快速、更强大的文档转换:Unstructured 发布新功能和生成式精炼

Unstructured 宣布一系列更新,包括简化的拖放界面、生成式精炼技术以提高输出保真度,以及简化的定价方案。新工作流程结合高分辨率分区与视觉语言模型增强,实现更高精度和结构保存。

Unstructured 始终专注于为下游AI系统提供清洁、高质量的数据。近日,该公司宣布对其文档转换平台进行了一系列重大升级,旨在让企业级数据预处理更简单、更快速、更智能。

全新的“首页”体验:从登录到处理完成仅需三次点击。用户登录后,可直接在首页拖放文件,Unstructured 会自动采用最佳工作流进行处理。处理完成后,用户可以获得高保真度输出、并排预览、边界框可视化以及完整的JSON下载。这一体验支持10MB以内的文件,非常适合快速评估。一旦验证满意,用户可一键切换到工作流构建器,而无需重新配置参数。

生成式精炼(Generative Refinement)是本次更新的核心技术。该技术通过高分辨率分区器(High Res Partitioner)先精确识别文本、表格、图像等元素并锁定其边界框,然后利用视觉语言模型(VLM)对各类元素进行针对性精炼:新推出的生成式OCR文本提取、表格转HTML以及图像描述生成。相比传统OCR或纯VLM解析方法,该方案显著降低了幻觉率,同时提升了表格结构和内容的保真度。Unstructured 表示,这一成果得益于其对传统OCR评估局限性的突破,并将在后续公布更多基准测试结果。

在定价方面,Unstructured 进行了简化,推出三个层级:免费层允许处理多达15,000页,无时间限制,包含所有功能;按需付费层为$0.03/页,无重复收费,涵盖端到端数据转换管线;企业层提供完全隔离的客户托管部署、自定义定价和服务等级协议。

Unstructured 强调,新的转换流程将分区与生成式精炼相结合,是达成精确、结构完整且低幻觉输出——即构建检索增强生成(RAG)或智能体系统——的关键。用户现在即可注册并亲身体验高保真文档转换,也可联系团队获取个性化演示。