AI News HubLIVE
站內改寫2 分鐘閱讀

構建互動式PDF文本提取:從Amazon S3即時獲取文件內容

本文介紹如何構建一個基於MCP協議的伺服器,從Amazon S3中即時提取PDF文本,實現按需文件訪問。文章比較了該方案與Amazon Textract的適用場景,並提供了詳細的實施步驟、成本估算和安全考量。

來源AWS Machine Learning Blog作者: Phani Parcha

想象一下:合規官員在審計中需要特定條款,律師在客戶等待時需要合同條款,或者金融分析師在會議開始前需要上一季度的報告資料。這些場景都需要對PDF中的文本進行按需訪問,而不是等待批處理作業完成。

本文介紹如何構建一個伺服器,即時從Amazon S3中的PDF檔案提取文本。該方案基於模型上下文協議(MCP),提供程式化的文件訪問能力。您將瞭解架構、設定伺服器並執行互動式文件查詢。同時,本文將該方案與Amazon Textract進行對比,幫助您為工作負載選擇合適的工具。

該解決方案源於多個團隊共享的挫折:他們的文件儲存在Amazon S3中,但要按需獲取文本要麼編寫自定義指令碼,要麼依賴批處理管道。MCP伺服器方案介於兩者之間,以最少的設定提供互動式訪問。

MCP方案適用於文本型PDF(無需OCR)、互動式工作流、開發和概念驗證環境。對於需要OCR、表單提取和佈局分析的複雜文件處理,Amazon Textract仍是推薦選擇。

目標使用者

  • 合規和法律團隊:在時間敏感的審查中,快速定位政策文件或合同中的特定條款。
  • 金融服務團隊:審計期間即時訪問內部風險政策或監管檔案。
  • 高管團隊:戰略規劃會議中即時查詢財報資料點。

與Amazon Textract的對比 Amazon Textract是託管AI服務,專為大規模文件處理設計,處理掃描件、手寫體和多欄佈局。當需要OCR、表單與表格提取、複雜佈局分析、生產級批處理或企業級支援時,選擇Textract。

MCP方案則適用:文本型PDF(無需OCR)、互動式而非批處理、開發/概念驗證環境、希望AI助手與源文件之間基礎設施最小化。

方案工作原理 該方案使用MCP協議連線AI助手與S3中的PDF。架構包括:CLI使用者介面、MCP通訊層、自定義MCP伺服器、Amazon S3儲存,以及AWS IAM安全控制。

成本比較 以每月約10,000頁文本PDF的概念驗證環境為例:

  • Amazon Textract:頁面處理約15美元,S3儲存2美元,Lambda計算1美元,LLM令牌約5-10美元,總計約23-28美元。
  • MCP伺服器:S3儲存2美元,資料傳輸0.5美元,總計約2.5美元。

以上為示意性估算,實際費率請參考AWS官方定價頁面。

架構概覽 序列圖展示了端到端工作流:AI客戶端透過CLI發起請求,系統轉發至MCP伺服器,伺服器從S3獲取PDF,解析後提取文本並返回客戶端。

實施步驟 前提條件:AWS賬戶(S3讀取許可權)、Python 3.10+、AWS CLI配置、Kiro CLI安裝。

  1. 建立專案資料夾~/s3-pdf-extractor
  2. 進入資料夾,建立Python虛擬環境並啟用。
  3. 安裝依賴:pip install mcp boto3 PyPDF2
  4. 建立伺服器檔案s3_pdf_extractor.py,貼上程式碼(使用PyPDF2提取文本,boto3下載S3檔案)。
  5. 測試伺服器啟動:執行指令碼,無輸出即正確。
  6. 配置Kiro CLI:編輯~/.kiro/settings/tools/mcp.json,新增伺服器配置。
  7. 重啟Kiro CLI並驗證:執行命令extract text from s3://your-bucket/sample.pdf

安全考量

  • IAM整合:使用現有AWS憑證,無需單獨管理API金鑰。
  • 最小許可權:僅授予目標S3桶的讀取許可權。
  • 臨時儲存:伺服器處理完成後自動刪除下載檔案。

該方案提供了從S3文件中即時獲取文本的能力,無需複雜基礎設施,適合快速開發與概念驗證。