2026-06-26 22:47 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-26 23:11 UTC+8

構建互動式PDF文本提取：從Amazon S3即時獲取文件內容

本文介紹如何構建一個基於MCP協議的伺服器，從Amazon S3中即時提取PDF文本，實現按需文件訪問。文章比較了該方案與Amazon Textract的適用場景，並提供了詳細的實施步驟、成本估算和安全考量。

來源AWS Machine Learning Blog作者: Phani Parcha

想象一下：合規官員在審計中需要特定條款，律師在客戶等待時需要合同條款，或者金融分析師在會議開始前需要上一季度的報告資料。這些場景都需要對PDF中的文本進行按需訪問，而不是等待批處理作業完成。

本文介紹如何構建一個伺服器，即時從Amazon S3中的PDF檔案提取文本。該方案基於模型上下文協議（MCP），提供程式化的文件訪問能力。您將瞭解架構、設定伺服器並執行互動式文件查詢。同時，本文將該方案與Amazon Textract進行對比，幫助您為工作負載選擇合適的工具。

該解決方案源於多個團隊共享的挫折：他們的文件儲存在Amazon S3中，但要按需獲取文本要麼編寫自定義指令碼，要麼依賴批處理管道。MCP伺服器方案介於兩者之間，以最少的設定提供互動式訪問。

MCP方案適用於文本型PDF（無需OCR）、互動式工作流、開發和概念驗證環境。對於需要OCR、表單提取和佈局分析的複雜文件處理，Amazon Textract仍是推薦選擇。

目標使用者

與Amazon Textract的對比 Amazon Textract是託管AI服務，專為大規模文件處理設計，處理掃描件、手寫體和多欄佈局。當需要OCR、表單與表格提取、複雜佈局分析、生產級批處理或企業級支援時，選擇Textract。

MCP方案則適用：文本型PDF（無需OCR）、互動式而非批處理、開發/概念驗證環境、希望AI助手與源文件之間基礎設施最小化。

方案工作原理 該方案使用MCP協議連線AI助手與S3中的PDF。架構包括：CLI使用者介面、MCP通訊層、自定義MCP伺服器、Amazon S3儲存，以及AWS IAM安全控制。

成本比較 以每月約10,000頁文本PDF的概念驗證環境為例：

以上為示意性估算，實際費率請參考AWS官方定價頁面。

架構概覽 序列圖展示了端到端工作流：AI客戶端透過CLI發起請求，系統轉發至MCP伺服器，伺服器從S3獲取PDF，解析後提取文本並返回客戶端。

實施步驟 前提條件：AWS賬戶（S3讀取許可權）、Python 3.10+、AWS CLI配置、Kiro CLI安裝。

安全考量

該方案提供了從S3文件中即時獲取文本的能力，無需複雜基礎設施，適合快速開發與概念驗證。