AI News HubLIVE
站内改写1 分钟阅读

TinyFish 发布 BigSet:一个开源多智能体系统,可从自然语言描述构建结构化实时数据集

TinyFish 推出开源多智能体系统 BigSet,用户只需用一句话描述所需数据,系统便自动推断模式、通过网络搜索和提取、去重并生成可导出的 CSV/XLSX 文件。支持定时刷新,全程无需手动编写爬虫或配置选择器。

来源MarkTechPost作者: Asif Razzaq

TinyFish 近日发布了 BigSet,一个基于 AGPL-3.0 许可证的开源多智能体系统,旨在简化从网络构建结构化数据集的过程。用户只需用一句话描述所需数据,系统便能自动推断模式、通过网络搜索和提取信息、去重,并生成可下载的 CSV 或 XLSX 文件。整个过程无需手动编写爬虫或配置选择器。

BigSet 的核心是两层多智能体架构。首先,使用 Claude Sonnet(通过 OpenRouter)推断数据集模式,包括列名、数据类型、主键和数据来源建议。然后,一个基于 Qwen 的协调者智能体利用 TinyFish Search 进行广泛的网络发现,识别匹配的实体。协调者随后并行派分子智能体,每个子智能体负责一个实体的数据提取,拥有最多 6 次工具调用预算。子智能体使用 TinyFish Fetch 获取网页内容,提取相关字段并插入行。系统还应用主键去重和来源归因,每行都带有可追溯的网页链接。

BigSet 支持定时刷新功能,可设置 30 分钟、6 小时、12 小时、每天或每周的刷新周期,确保数据保持最新。数据集生成通常需要 2-5 分钟,因为智能体在进行真实的网络研究。最终结果可以导出为 CSV 或 XLSX 格式。

技术栈方面,前端使用 Next.js 16、React 19 和 Tailwind 4,后端为 Fastify 和 TypeScript,认证由 Clerk 负责,数据库使用自托管的 Convex。AI 编排采用 Mastra 工作流和 Vercel AI SDK。BigSet 需要用户自托管 Docker 环境,并获取 TinyFish、OpenRouter 和 Clerk 的 API 密钥。安装步骤包括克隆仓库、配置环境变量、运行 make dev 命令等。附带 9 个策展公共数据集供加载。

一个完整的示例:用户输入“开源 LLM 推理引擎,及其 GitHub 星标、支持的硬件和许可证”。系统推断出模式(引擎名称、星标、支持硬件、许可证),协调者发现实体(如 vLLM、llama.cpp 等),然后并行子智能体获取每个实体的数据,最终生成包含来源链接的结构化表格。此过程将通常需要数小时的脚本工作简化为一条句子。

BigSet 与 Firecrawl、Apify、Exa Websets 等工具相比,其独特之处在于输入是自然语言描述而不是 URL,并且自动处理模式推断和去重。