2026-06-26 22:47 UTC+8站内改写2 分钟阅读更新: 2026-06-26 23:11 UTC+8

构建交互式PDF文本提取：从Amazon S3实时获取文档内容

本文介绍如何构建一个基于MCP协议的服务器，从Amazon S3中实时提取PDF文本，实现按需文档访问。文章比较了该方案与Amazon Textract的适用场景，并提供了详细的实施步骤、成本估算和安全考量。

来源AWS Machine Learning Blog作者: Phani Parcha

想象一下：合规官员在审计中需要特定条款，律师在客户等待时需要合同条款，或者金融分析师在会议开始前需要上一季度的报告数据。这些场景都需要对PDF中的文本进行按需访问，而不是等待批处理作业完成。

本文介绍如何构建一个服务器，实时从Amazon S3中的PDF文件提取文本。该方案基于模型上下文协议（MCP），提供程序化的文档访问能力。您将了解架构、设置服务器并运行交互式文档查询。同时，本文将该方案与Amazon Textract进行对比，帮助您为工作负载选择合适的工具。

该解决方案源于多个团队共享的挫折：他们的文档存储在Amazon S3中，但要按需获取文本要么编写自定义脚本，要么依赖批处理管道。MCP服务器方案介于两者之间，以最少的设置提供交互式访问。

MCP方案适用于文本型PDF（无需OCR）、交互式工作流、开发和概念验证环境。对于需要OCR、表单提取和布局分析的复杂文档处理，Amazon Textract仍是推荐选择。

目标用户

与Amazon Textract的对比 Amazon Textract是托管AI服务，专为大规模文档处理设计，处理扫描件、手写体和多栏布局。当需要OCR、表单与表格提取、复杂布局分析、生产级批处理或企业级支持时，选择Textract。

MCP方案则适用：文本型PDF（无需OCR）、交互式而非批处理、开发/概念验证环境、希望AI助手与源文档之间基础设施最小化。

方案工作原理 该方案使用MCP协议连接AI助手与S3中的PDF。架构包括：CLI用户界面、MCP通信层、自定义MCP服务器、Amazon S3存储，以及AWS IAM安全控制。

成本比较 以每月约10,000页文本PDF的概念验证环境为例：

以上为示意性估算，实际费率请参考AWS官方定价页面。

架构概览 序列图展示了端到端工作流：AI客户端通过CLI发起请求，系统转发至MCP服务器，服务器从S3获取PDF，解析后提取文本并返回客户端。

实施步骤 前提条件：AWS账户（S3读取权限）、Python 3.10+、AWS CLI配置、Kiro CLI安装。

安全考量

该方案提供了从S3文档中实时获取文本的能力，无需复杂基础设施，适合快速开发与概念验证。