搭配 Claude 使用 Nova 2 Lite 实现成本优化的文档处理
本篇文章介绍了如何将 Amazon Nova 2 Lite 与 Anthropic 的 Claude Sonnet 4.6 结合使用,构建一个成本优化的文档数字化流水线,专门用于处理扫描的文档(如年鉴页面)。该流水线通过两个模型分工:Nova 2 Lite 负责原生多模态提取(检测照片、提取姓名和坐标),Claude 负责空间推理以匹配姓名和人脸。在 336 页测试中,实现了 3122 个姓名-人脸关联,93% 的置信度≥0.95,每页成本降低约三分之二。
一张扫描的年鉴页面包含176个印刷姓名、4张人像照片,但没有机器可读的结构将两者关联。要数字化这样的页面,需要可靠的带有边界框的照片检测和准确的姓名提取,还需要根据页面布局确定每个名字对应哪张脸。
在这篇文章中,我们展示了如何将 Amazon Nova 2 Lite 与 Anthropic 的 Claude Sonnet 4.6 配对,为大规模文档数字化提供高效解决方案。我们在 Amazon Bedrock 上构建了一个双模型流水线,用于数字化扫描的年鉴页面。Amazon Nova 2 Lite 在一次调用中处理原生多模态提取:检测照片、提取可见姓名及其坐标,并返回页面级元数据。Claude Sonnet 4.6 随后根据页面布局执行空间推理,将姓名与面孔匹配。
我们使用该流水线处理了336张扫描的年鉴页面,生成了3122个姓名-面孔关联,其中93%的置信度得分达到或超过0.95。这种双模型方法每页成本比将整个任务交给单一视觉语言模型的单模型替代方案便宜约三分之二。详细分解请参见成本考量部分。
解决方案概述
流水线包含两个阶段,每个阶段使用针对特定任务选择的不同模型。
首先运行 Amazon Nova 2 Lite。由于它原生处理交错文本和图像,一次 Converse API 调用即可返回三件事:带有边界框和分类的检测到的照片、页面上可见的姓名及其近似位置、以及页面级元数据如标题和类别。我们为此任务设置推理级别为 LOW,测试显示在结构化提取方面 LOW、MEDIUM、HIGH 级别之间没有有意义的准确性差异,而 LOW 是最便宜的选择。Nova 通过 reasoning_config 字段公开此设置。Claude 在第二步中使用单独的 thinking 字段,因此两个模型以不同名称控制推理。
只要求 Nova 2 Lite 提取姓名而非页面上的每一个 OCR 标记,是保持第一阶段低成本的关键。下游空间推理步骤不需要班级名册或事件描述的完整文本,只需要照片附近的姓名。将 Nova 输出限制为姓名,使输出令牌成本约为每页1000个令牌,而完整 OCR 大约产生4500个令牌。
Claude Sonnet 4.6 仅在第二阶段进入,用于空间推理。给定 Nova 提供的带位置的姓名和照片边界框,Claude 确定哪些姓名对应哪些面孔。此步骤需要处理页面布局的可变性,因为年鉴布局因页面而异。字幕可能出现在照片上方或下方,有些页面混合了肖像网格和集体照。Claude 的自适应思考无需为每种布局类型进行额外的提示工程即可处理这种变化。
在此方案中,Nova 2 Lite 原生处理高容量提取工作,一次调用完成。Claude 每页调用一次用于空间推理步骤。
Nova 2 Lite 固定每图像定价:规模化的可预测成本
Amazon Nova 2 Lite 最近对图像输入计费方式的变更使得每页成本在规模化下可预测,这对于处理数十万页的工作负载至关重要。
固定每图像定价:Amazon Nova 2 Lite 按固定每图像费率对图像和文档页面输入计费,无论分辨率或文件大小如何。
这一变化对文档处理流水线意义重大。以前,图像令牌成本因分辨率而异,使得在没有代表性样本进行概念验证的情况下难以预测每页成本。采用固定计费后,Nova 2 Lite 处理的每张图像都按相同的每图像费率计费,与分辨率无关。
对于包括提示和输出在内的完整页面提取,每页成本分解如下(基于公布费率):图像令牌固定230个,提示约500个,输出约1000个,总计每页约0.0027美元。对于年鉴规模的工作负载(每年数十万页),这种固定定价使成本预测变得简单,因为图像输入成本随页数线性增长,且与页面分辨率无关。
自适应思考用于空间推理
Amazon Bedrock 上的 Claude 支持自适应思考,模型根据输入复杂度决定内部推理量。通过将 thinking 配置中的 type 设置为 adaptive 来启用。在336页的运行中,Claude 在每页上都使用了扩展推理,推理痕迹从544到1658个字符不等。即使是较简单的页面也从一定的空间分析中受益,因为年鉴布局很少完全一致。推理痕迹显示 Claude 处理列对齐、姓名位置与面部位置之间的垂直偏移,并在页面有集体照时检查字幕接近度。对于这种结构化空间任务,自适应思考在无需手动调整的情况下为每页提供适当的推理量。
实现步骤
完整的源代码、示例图像和 Jupyter Notebook 可在 AWS Samples GitHub 仓库中找到。
前提条件:具备访问 Amazon Bedrock 的 AWS 账户(区域需同时提供 Amazon Nova 2 Lite 和 Claude Sonnet 4.6)、已在控制台为两个模型启用模型访问、拥有调用 Bedrock 的 IAM 权限、Python 3.10+ 及 boto3 SDK,以及扫描页面图像。
步骤1:使用 Amazon Nova 2 Lite 检测照片并提取姓名:将扫描页面发送给 Nova,附带提示请求检测到的照片(带边界框和分类)和可见姓名(带页面上近似位置)。Nova 通过一次 Converse 调用返回两者。返回的边界框使用0–1000坐标系统,可直接传入步骤2。
步骤2:使用 Claude 匹配姓名与面孔:将 Nova 返回的姓名位置和照片边界框传递给 Claude 进行空间推理。两者使用相同的坐标空间,无需归一化。Claude 输出包含姓名、面孔索引、置信度和推理的关联列表。
这种双模型流水线提供了一个成本效益高、可扩展且准确的文档数字化方案,尤其适用于类似的布局密集型文档处理任务。