AI News HubLIVE
站內改寫2 分鐘閱讀

構建交互式PDF文本提取:從Amazon S3實時獲取文檔內容

本文介紹如何構建一個基於MCP協議的服務器,從Amazon S3中實時提取PDF文本,實現按需文檔訪問。文章比較了該方案與Amazon Textract的適用場景,並提供了詳細的實施步驟、成本估算和安全考量。

來源AWS Machine Learning Blog作者: Phani Parcha

想象一下:合規官員在審計中需要特定條款,律師在客户等待時需要合同條款,或者金融分析師在會議開始前需要上一季度的報告數據。這些場景都需要對PDF中的文本進行按需訪問,而不是等待批處理作業完成。

本文介紹如何構建一個服務器,實時從Amazon S3中的PDF文件提取文本。該方案基於模型上下文協議(MCP),提供程序化的文檔訪問能力。您將瞭解架構、設置服務器並運行交互式文檔查詢。同時,本文將該方案與Amazon Textract進行對比,幫助您為工作負載選擇合適的工具。

該解決方案源於多個團隊共享的挫折:他們的文檔存儲在Amazon S3中,但要按需獲取文本要麼編寫自定義腳本,要麼依賴批處理管道。MCP服務器方案介於兩者之間,以最少的設置提供交互式訪問。

MCP方案適用於文本型PDF(無需OCR)、交互式工作流、開發和概念驗證環境。對於需要OCR、表單提取和佈局分析的複雜文檔處理,Amazon Textract仍是推薦選擇。

目標用户

  • 合規和法律團隊:在時間敏感的審查中,快速定位政策文檔或合同中的特定條款。
  • 金融服務團隊:審計期間即時訪問內部風險政策或監管文件。
  • 高管團隊:戰略規劃會議中即時查詢財報數據點。

與Amazon Textract的對比 Amazon Textract是託管AI服務,專為大規模文檔處理設計,處理掃描件、手寫體和多欄佈局。當需要OCR、表單與表格提取、複雜佈局分析、生產級批處理或企業級支持時,選擇Textract。

MCP方案則適用:文本型PDF(無需OCR)、交互式而非批處理、開發/概念驗證環境、希望AI助手與源文檔之間基礎設施最小化。

方案工作原理 該方案使用MCP協議連接AI助手與S3中的PDF。架構包括:CLI用户界面、MCP通信層、自定義MCP服務器、Amazon S3存儲,以及AWS IAM安全控制。

成本比較 以每月約10,000頁文本PDF的概念驗證環境為例:

  • Amazon Textract:頁面處理約15美元,S3存儲2美元,Lambda計算1美元,LLM令牌約5-10美元,總計約23-28美元。
  • MCP服務器:S3存儲2美元,數據傳輸0.5美元,總計約2.5美元。

以上為示意性估算,實際費率請參考AWS官方定價頁面。

架構概覽 序列圖展示了端到端工作流:AI客户端通過CLI發起請求,系統轉發至MCP服務器,服務器從S3獲取PDF,解析後提取文本並返回客户端。

實施步驟 前提條件:AWS賬户(S3讀取權限)、Python 3.10+、AWS CLI配置、Kiro CLI安裝。

  1. 創建項目文件夾~/s3-pdf-extractor
  2. 進入文件夾,創建Python虛擬環境並激活。
  3. 安裝依賴:pip install mcp boto3 PyPDF2
  4. 創建服務器文件s3_pdf_extractor.py,粘貼代碼(使用PyPDF2提取文本,boto3下載S3文件)。
  5. 測試服務器啓動:運行腳本,無輸出即正確。
  6. 配置Kiro CLI:編輯~/.kiro/settings/tools/mcp.json,添加服務器配置。
  7. 重啓Kiro CLI並驗證:執行命令extract text from s3://your-bucket/sample.pdf

安全考量

  • IAM集成:使用現有AWS憑證,無需單獨管理API密鑰。
  • 最小權限:僅授予目標S3桶的讀取權限。
  • 臨時存儲:服務器處理完成後自動刪除下載文件。

該方案提供了從S3文檔中實時獲取文本的能力,無需複雜基礎設施,適合快速開發與概念驗證。