AI News HubLIVE
站内改写1 分钟阅读

ParseHawk:完全本地的文档AI,提供API、CLI和Web UI

ParseHawk是一款完全本地运行的文档AI工具,能够将PDF、扫描件、图像、文本文件和Markdown转换为结构化JSON,无需将敏感文档发送至第三方AI API。它基于vLLM,支持Linux NVIDIA和macOS Apple Silicon,提供API、CLI和Web UI,允许用户自定义提取模式、进行零样本或少样本提取,并输出经过验证的JSON。本文介绍了其核心功能、系统要求、快速入门、提取器与模式定义、运行配置、遥测数据以及本地数据管理。

来源Hacker News AI作者: francisrafal

ParseHawk是一款面向开发者和团队的本地优先文档AI工具,其核心能力是从非结构化文档中提取结构化数据。与传统云服务不同,ParseHawk默认在用户自己的硬件上运行,无需将发票、合同、医疗记录等敏感信息上传至第三方API。

工具支持多种输入格式,包括PDF、扫描件、图像、纯文本和Markdown。用户可以通过定义JSON Schema(支持Draft 2020-12)来指定提取目标,并利用自然语言指令进行零样本提取。对于需要更多指导的文档类型,可以添加少量示例(few-shot)来提升提取质量。所有提取结果均经过模式验证,确保输出格式准确。

ParseHawk的架构由底层推理引擎驱动,默认为NuExtract3-W4A16模型,通过vLLM在本地运行。在Linux系统上,它利用NVIDIA GPU和Docker容器;在macOS Apple Silicon上,则直接使用vLLM Metal。推荐至少16GB统一内存(macOS)或16GB显存(Linux)以保证流畅运行。工具还提供丰富的配置项,如最大模型长度、GPU内存利用率、PDF渲染DPI等,用户可通过环境变量或CLI命令调整。

用户可通过三种方式与ParseHawk交互:Web UI(基于Vite构建)、REST API(自动生成OpenAPI文档)和命令行工具(parsehawk)。CLI不仅管理数据操作(文件上传、提取器创建、作业提交),还控制本地栈的启动、停止和诊断。快速启动只需执行parsehawk start,即可在本地打开Web界面和API文档。

在数据隐私方面,ParseHawk仅收集匿名使用统计(安装事件和运行事件),不发送文件内容或提取结果。用户可通过设置环境变量选择退出。所有本地数据默认存储在data/目录下,包括SQLite数据库、上传文件、日志等,可随时删除重置。

对于开发者,项目提供了完整的开发环境配置(需git、just、uv、pnpm),支持产品模式(Docker)和本地源码模式。总体而言,ParseHawk为需要处理私有文档的团队提供了一个强大且安全的本地化解决方案。