2026-06-26 22:47 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-26 23:11 UTC+8

構建交互式PDF文本提取：從Amazon S3實時獲取文檔內容

本文介紹如何構建一個基於MCP協議的服務器，從Amazon S3中實時提取PDF文本，實現按需文檔訪問。文章比較了該方案與Amazon Textract的適用場景，並提供了詳細的實施步驟、成本估算和安全考量。

來源AWS Machine Learning Blog作者: Phani Parcha

想象一下：合規官員在審計中需要特定條款，律師在客户等待時需要合同條款，或者金融分析師在會議開始前需要上一季度的報告數據。這些場景都需要對PDF中的文本進行按需訪問，而不是等待批處理作業完成。

本文介紹如何構建一個服務器，實時從Amazon S3中的PDF文件提取文本。該方案基於模型上下文協議（MCP），提供程序化的文檔訪問能力。您將瞭解架構、設置服務器並運行交互式文檔查詢。同時，本文將該方案與Amazon Textract進行對比，幫助您為工作負載選擇合適的工具。

該解決方案源於多個團隊共享的挫折：他們的文檔存儲在Amazon S3中，但要按需獲取文本要麼編寫自定義腳本，要麼依賴批處理管道。MCP服務器方案介於兩者之間，以最少的設置提供交互式訪問。

MCP方案適用於文本型PDF（無需OCR）、交互式工作流、開發和概念驗證環境。對於需要OCR、表單提取和佈局分析的複雜文檔處理，Amazon Textract仍是推薦選擇。

目標用户

與Amazon Textract的對比 Amazon Textract是託管AI服務，專為大規模文檔處理設計，處理掃描件、手寫體和多欄佈局。當需要OCR、表單與表格提取、複雜佈局分析、生產級批處理或企業級支持時，選擇Textract。

MCP方案則適用：文本型PDF（無需OCR）、交互式而非批處理、開發/概念驗證環境、希望AI助手與源文檔之間基礎設施最小化。

方案工作原理 該方案使用MCP協議連接AI助手與S3中的PDF。架構包括：CLI用户界面、MCP通信層、自定義MCP服務器、Amazon S3存儲，以及AWS IAM安全控制。

成本比較 以每月約10,000頁文本PDF的概念驗證環境為例：

以上為示意性估算，實際費率請參考AWS官方定價頁面。

架構概覽 序列圖展示了端到端工作流：AI客户端通過CLI發起請求，系統轉發至MCP服務器，服務器從S3獲取PDF，解析後提取文本並返回客户端。

實施步驟 前提條件：AWS賬户（S3讀取權限）、Python 3.10+、AWS CLI配置、Kiro CLI安裝。

安全考量

該方案提供了從S3文檔中實時獲取文本的能力，無需複雜基礎設施，適合快速開發與概念驗證。