AI News HubLIVE
站内改写2 分钟阅读

在 Amazon Bedrock Data Automation 中优化蓝图提取准确性

Amazon Bedrock Data Automation 的新功能蓝图指令优化,通过提供3-10个示例文档和真实值,可在几分钟内自动改进提取指令,无需模型微调,显著提高文档处理准确性。

来源AWS Machine Learning Blog作者: Erik Cordsen

从发票、合同、税表和申请表等非结构化文档中提取结构化数据是许多组织的常见自动化目标。然而,实现高提取精度仍然是一个关键挑战。当文档偏离预期模板、不同供应商的格式各异或扫描质量较差时,准确率会下降。Amazon Bedrock Data Automation (BDA) 允许您通过单个API对文档进行分类、提取、规范化和验证数据。您可以使用可定制的蓝图来生成符合特定文档格式和业务需求的自定义输出。但是,优化蓝图提取准确性以处理生产文档的多样性仍然需要迭代调优。

蓝图指令优化是BDA的一项新功能,可直接解决这一挑战。您提供三到十个示例文档及其预期值,BDA会在几分钟内自动改进您的蓝图指令,从而提高准确性,无需数周时间。无需单独的模型微调。通过本文,您将学会优化蓝图以提高准确性、通过Amazon Bedrock控制台或API运行优化工作流,并应用选择示例和真实值的最佳实践。

传统的文档字段提取方法需要手动迭代:测试不同的措辞、添加上下文、通过试错改进描述。每个周期都需要运行提取、比较结果与预期值、调整指令并重复。对于处理数百个供应商文档的组织,每个文档类型可能需要数周时间。而蓝图指令优化通过单一工作流自动化整个改进循环。BDA分析其提取结果与真实值之间的差异,然后为每个字段改进自然语言指令,在几分钟内提供优化后的指令。

要使用蓝图指令优化,请遵循以下步骤:首先,上传3-10个来自生产工作负载的代表性文档,包括提取困难的边缘案例,并尽可能覆盖生产文档分布的多样性以避免过拟合。其次,为每个示例文档中的每个字段提供正确的预期值(真实值)。然后,启动优化过程,BDA会将初始提取结果与真实值进行比较,并为每个字段改进自然语言指令。最后,检查详细的准确率指标和优化后的指令。优化通常在几分钟内完成,指标包括F1分数(精确率和召回率的综合衡量)和精确匹配率(提取值与真实值完全一致的字段百分比)。优化后的指令会融入从示例中学习到的模式,并增加更多细节和特异性。例如,初始指令“发票号码”可能变为“发票号码,通常位于文档页眉的右上角,格式为数字或字母数字代码,紧随‘发票号’或‘Invoice No.’之后”。

为了说明优化工作流,我们以一家虚构自行车制造公司的采购订单提取场景为例。假设您创建了一个用于提取采购订单中字段的蓝图,包括订单号、商品描述、数量、单价和总计。上传四个代表性采购订单(来自Cycle Central和Bike World等零售商)及其对应的真实值文件后,运行优化。优化前,每个文件的精确匹配率最佳为92%,总体精确匹配率为90%;优化后,每个文件最佳达到100%,总体精确匹配率提升至92%。对于处理高吞吐量的组织来说,即使几个百分点的准确率提升也能直接减少人工审核队列并加快处理速度。

开始使用蓝图指令优化时,您可以通过Amazon Bedrock控制台或API访问。您可以使用自己的文档,或部署示例解决方案,其中包括蓝图、示例PDF文档和真实值JSON文件。前提条件包括:一个AWS账户,在支持的区域启用Amazon Bedrock Data Automation,具有使用BDA和Amazon S3权限的IAM角色,3-10个代表性样本文档,以及每个样本文档的真实值JSON文件。部署示例解决方案时,从GitHub仓库下载CloudFormation模板,在控制台中创建堆栈,然后使用提供的SageMaker AI Notebook运行优化工作流。如果更倾向于使用控制台,也可以手动创建蓝图并上传文档和真实值。优化完成后,BDA会显示每个文件和总体优化前后的准确率指标,您可以保存优化后的蓝图。理解精确匹配率和F1分数等指标有助于决定是否保存优化版本或添加更多示例重新运行。

蓝图指令优化为文档提取提供了一种更快、更高效的途径,显著缩短了从数周调优到几分钟优化的时间,并直接提升了生产环境的准确性。