AI News HubLIVE
站内改写2 分钟阅读

构建交互式PDF文本提取:从Amazon S3实时获取文档内容

本文介绍如何构建一个基于MCP协议的服务器,从Amazon S3中实时提取PDF文本,实现按需文档访问。文章比较了该方案与Amazon Textract的适用场景,并提供了详细的实施步骤、成本估算和安全考量。

来源AWS Machine Learning Blog作者: Phani Parcha

想象一下:合规官员在审计中需要特定条款,律师在客户等待时需要合同条款,或者金融分析师在会议开始前需要上一季度的报告数据。这些场景都需要对PDF中的文本进行按需访问,而不是等待批处理作业完成。

本文介绍如何构建一个服务器,实时从Amazon S3中的PDF文件提取文本。该方案基于模型上下文协议(MCP),提供程序化的文档访问能力。您将了解架构、设置服务器并运行交互式文档查询。同时,本文将该方案与Amazon Textract进行对比,帮助您为工作负载选择合适的工具。

该解决方案源于多个团队共享的挫折:他们的文档存储在Amazon S3中,但要按需获取文本要么编写自定义脚本,要么依赖批处理管道。MCP服务器方案介于两者之间,以最少的设置提供交互式访问。

MCP方案适用于文本型PDF(无需OCR)、交互式工作流、开发和概念验证环境。对于需要OCR、表单提取和布局分析的复杂文档处理,Amazon Textract仍是推荐选择。

目标用户

  • 合规和法律团队:在时间敏感的审查中,快速定位政策文档或合同中的特定条款。
  • 金融服务团队:审计期间即时访问内部风险政策或监管文件。
  • 高管团队:战略规划会议中即时查询财报数据点。

与Amazon Textract的对比 Amazon Textract是托管AI服务,专为大规模文档处理设计,处理扫描件、手写体和多栏布局。当需要OCR、表单与表格提取、复杂布局分析、生产级批处理或企业级支持时,选择Textract。

MCP方案则适用:文本型PDF(无需OCR)、交互式而非批处理、开发/概念验证环境、希望AI助手与源文档之间基础设施最小化。

方案工作原理 该方案使用MCP协议连接AI助手与S3中的PDF。架构包括:CLI用户界面、MCP通信层、自定义MCP服务器、Amazon S3存储,以及AWS IAM安全控制。

成本比较 以每月约10,000页文本PDF的概念验证环境为例:

  • Amazon Textract:页面处理约15美元,S3存储2美元,Lambda计算1美元,LLM令牌约5-10美元,总计约23-28美元。
  • MCP服务器:S3存储2美元,数据传输0.5美元,总计约2.5美元。

以上为示意性估算,实际费率请参考AWS官方定价页面。

架构概览 序列图展示了端到端工作流:AI客户端通过CLI发起请求,系统转发至MCP服务器,服务器从S3获取PDF,解析后提取文本并返回客户端。

实施步骤 前提条件:AWS账户(S3读取权限)、Python 3.10+、AWS CLI配置、Kiro CLI安装。

  1. 创建项目文件夹~/s3-pdf-extractor
  2. 进入文件夹,创建Python虚拟环境并激活。
  3. 安装依赖:pip install mcp boto3 PyPDF2
  4. 创建服务器文件s3_pdf_extractor.py,粘贴代码(使用PyPDF2提取文本,boto3下载S3文件)。
  5. 测试服务器启动:运行脚本,无输出即正确。
  6. 配置Kiro CLI:编辑~/.kiro/settings/tools/mcp.json,添加服务器配置。
  7. 重启Kiro CLI并验证:执行命令extract text from s3://your-bucket/sample.pdf

安全考量

  • IAM集成:使用现有AWS凭证,无需单独管理API密钥。
  • 最小权限:仅授予目标S3桶的读取权限。
  • 临时存储:服务器处理完成后自动删除下载文件。

该方案提供了从S3文档中实时获取文本的能力,无需复杂基础设施,适合快速开发与概念验证。