搭配 Claude 使用 Nova 2 Lite 實現成本優化的文檔處理
本篇文章介紹瞭如何將 Amazon Nova 2 Lite 與 Anthropic 的 Claude Sonnet 4.6 結合使用,構建一個成本優化的文檔數字化流水線,專門用於處理掃描的文檔(如年鑑頁面)。該流水線通過兩個模型分工:Nova 2 Lite 負責原生多模態提取(檢測照片、提取姓名和座標),Claude 負責空間推理以匹配姓名和人臉。在 336 頁測試中,實現了 3122 個姓名-人臉關聯,93% 的置信度≥0.95,每頁成本降低約三分之二。
一張掃描的年鑑頁面包含176個印刷姓名、4張人像照片,但沒有機器可讀的結構將兩者關聯。要數字化這樣的頁面,需要可靠的帶有邊界框的照片檢測和準確的姓名提取,還需要根據頁面佈局確定每個名字對應哪張臉。
在這篇文章中,我們展示瞭如何將 Amazon Nova 2 Lite 與 Anthropic 的 Claude Sonnet 4.6 配對,為大規模文檔數字化提供高效解決方案。我們在 Amazon Bedrock 上構建了一個雙模型流水線,用於數字化掃描的年鑑頁面。Amazon Nova 2 Lite 在一次調用中處理原生多模態提取:檢測照片、提取可見姓名及其座標,並返回頁面級元數據。Claude Sonnet 4.6 隨後根據頁面佈局執行空間推理,將姓名與面孔匹配。
我們使用該流水線處理了336張掃描的年鑑頁面,生成了3122個姓名-面孔關聯,其中93%的置信度得分達到或超過0.95。這種雙模型方法每頁成本比將整個任務交給單一視覺語言模型的單模型替代方案便宜約三分之二。詳細分解請參見成本考量部分。
解決方案概述
流水線包含兩個階段,每個階段使用針對特定任務選擇的不同模型。
首先運行 Amazon Nova 2 Lite。由於它原生處理交錯文本和圖像,一次 Converse API 調用即可返回三件事:帶有邊界框和分類的檢測到的照片、頁面上可見的姓名及其近似位置、以及頁面級元數據如標題和類別。我們為此任務設置推理級別為 LOW,測試顯示在結構化提取方面 LOW、MEDIUM、HIGH 級別之間沒有有意義的準確性差異,而 LOW 是最便宜的選擇。Nova 通過 reasoning_config 字段公開此設置。Claude 在第二步中使用單獨的 thinking 字段,因此兩個模型以不同名稱控制推理。
只要求 Nova 2 Lite 提取姓名而非頁面上的每一個 OCR 標記,是保持第一階段低成本的關鍵。下游空間推理步驟不需要班級名冊或事件描述的完整文本,只需要照片附近的姓名。將 Nova 輸出限制為姓名,使輸出令牌成本約為每頁1000個令牌,而完整 OCR 大約產生4500個令牌。
Claude Sonnet 4.6 僅在第二階段進入,用於空間推理。給定 Nova 提供的帶位置的姓名和照片邊界框,Claude 確定哪些姓名對應哪些面孔。此步驟需要處理頁面佈局的可變性,因為年鑑佈局因頁面而異。字幕可能出現在照片上方或下方,有些頁面混合了肖像網格和集體照。Claude 的自適應思考無需為每種佈局類型進行額外的提示工程即可處理這種變化。
在此方案中,Nova 2 Lite 原生處理高容量提取工作,一次調用完成。Claude 每頁調用一次用於空間推理步驟。
Nova 2 Lite 固定每圖像定價:規模化的可預測成本
Amazon Nova 2 Lite 最近對圖像輸入計費方式的變更使得每頁成本在規模化下可預測,這對於處理數十萬頁的工作負載至關重要。
固定每圖像定價:Amazon Nova 2 Lite 按固定每圖像費率對圖像和文檔頁面輸入計費,無論分辨率或文件大小如何。
這一變化對文檔處理流水線意義重大。以前,圖像令牌成本因分辨率而異,使得在沒有代表性樣本進行概念驗證的情況下難以預測每頁成本。採用固定計費後,Nova 2 Lite 處理的每張圖像都按相同的每圖像費率計費,與分辨率無關。
對於包括提示和輸出在內的完整頁面提取,每頁成本分解如下(基於公佈費率):圖像令牌固定230個,提示約500個,輸出約1000個,總計每頁約0.0027美元。對於年鑑規模的工作負載(每年數十萬頁),這種固定定價使成本預測變得簡單,因為圖像輸入成本隨頁數線性增長,且與頁面分辨率無關。
自適應思考用於空間推理
Amazon Bedrock 上的 Claude 支持自適應思考,模型根據輸入複雜度決定內部推理量。通過將 thinking 配置中的 type 設置為 adaptive 來啓用。在336頁的運行中,Claude 在每頁上都使用了擴展推理,推理痕跡從544到1658個字符不等。即使是較簡單的頁面也從一定的空間分析中受益,因為年鑑佈局很少完全一致。推理痕跡顯示 Claude 處理列對齊、姓名位置與面部位置之間的垂直偏移,並在頁面有集體照時檢查字幕接近度。對於這種結構化空間任務,自適應思考在無需手動調整的情況下為每頁提供適當的推理量。
實現步驟
完整的源代碼、示例圖像和 Jupyter Notebook 可在 AWS Samples GitHub 倉庫中找到。
前提條件:具備訪問 Amazon Bedrock 的 AWS 賬户(區域需同時提供 Amazon Nova 2 Lite 和 Claude Sonnet 4.6)、已在控制台為兩個模型啓用模型訪問、擁有調用 Bedrock 的 IAM 權限、Python 3.10+ 及 boto3 SDK,以及掃描頁面圖像。
步驟1:使用 Amazon Nova 2 Lite 檢測照片並提取姓名:將掃描頁面發送給 Nova,附帶提示請求檢測到的照片(帶邊界框和分類)和可見姓名(帶頁面上近似位置)。Nova 通過一次 Converse 調用返回兩者。返回的邊界框使用0–1000座標系統,可直接傳入步驟2。
步驟2:使用 Claude 匹配姓名與面孔:將 Nova 返回的姓名位置和照片邊界框傳遞給 Claude 進行空間推理。兩者使用相同的座標空間,無需歸一化。Claude 輸出包含姓名、面孔索引、置信度和推理的關聯列表。
這種雙模型流水線提供了一個成本效益高、可擴展且準確的文檔數字化方案,尤其適用於類似的佈局密集型文檔處理任務。