2026-06-03 01:57 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

TinyFish 发布 BigSet：一个开源多智能体系统，可从自然语言描述构建结构化实时数据集

TinyFish 推出开源多智能体系统 BigSet，用户只需用一句话描述所需数据，系统便自动推断模式、通过网络搜索和提取、去重并生成可导出的 CSV/XLSX 文件。支持定时刷新，全程无需手动编写爬虫或配置选择器。

来源MarkTechPost作者: Asif Razzaq

TinyFish 近日发布了 BigSet，一个基于 AGPL-3.0 许可证的开源多智能体系统，旨在简化从网络构建结构化数据集的过程。用户只需用一句话描述所需数据，系统便能自动推断模式、通过网络搜索和提取信息、去重，并生成可下载的 CSV 或 XLSX 文件。整个过程无需手动编写爬虫或配置选择器。

BigSet 的核心是两层多智能体架构。首先，使用 Claude Sonnet（通过 OpenRouter）推断数据集模式，包括列名、数据类型、主键和数据来源建议。然后，一个基于 Qwen 的协调者智能体利用 TinyFish Search 进行广泛的网络发现，识别匹配的实体。协调者随后并行派分子智能体，每个子智能体负责一个实体的数据提取，拥有最多 6 次工具调用预算。子智能体使用 TinyFish Fetch 获取网页内容，提取相关字段并插入行。系统还应用主键去重和来源归因，每行都带有可追溯的网页链接。

BigSet 支持定时刷新功能，可设置 30 分钟、6 小时、12 小时、每天或每周的刷新周期，确保数据保持最新。数据集生成通常需要 2-5 分钟，因为智能体在进行真实的网络研究。最终结果可以导出为 CSV 或 XLSX 格式。

技术栈方面，前端使用 Next.js 16、React 19 和 Tailwind 4，后端为 Fastify 和 TypeScript，认证由 Clerk 负责，数据库使用自托管的 Convex。AI 编排采用 Mastra 工作流和 Vercel AI SDK。BigSet 需要用户自托管 Docker 环境，并获取 TinyFish、OpenRouter 和 Clerk 的 API 密钥。安装步骤包括克隆仓库、配置环境变量、运行 make dev 命令等。附带 9 个策展公共数据集供加载。

一个完整的示例：用户输入“开源 LLM 推理引擎，及其 GitHub 星标、支持的硬件和许可证”。系统推断出模式（引擎名称、星标、支持硬件、许可证），协调者发现实体（如 vLLM、llama.cpp 等），然后并行子智能体获取每个实体的数据，最终生成包含来源链接的结构化表格。此过程将通常需要数小时的脚本工作简化为一条句子。

BigSet 与 Firecrawl、Apify、Exa Websets 等工具相比，其独特之处在于输入是自然语言描述而不是 URL，并且自动处理模式推断和去重。