2026-06-08 09:40 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

Show HN: Preseason.ai – 基于LLM排名的开发者工具选择开源基准测试

Preseason.ai 是一个开源基准测试平台，通过一系列标准化提示，追踪 AI 模型在不同开发场景下选择的工具，并展示排名结果。测试覆盖从初级到专家的多个级别，包括 AI 支持平台、SaaS 应用、电商等场景。结果显示 Stripe、PostgreSQL、Auth0 等工具在多个类别中领先。

来源Hacker News AI作者: widenrun

Preseason.ai 是一个新兴的开源基准测试项目，旨在揭示大型语言模型（LLM）在真实开发环境中对工具选择的偏好。该项目通过一系列精心设计的“氛围编码”提示，模拟从初级开发者到专家工程师的不同水平，并记录 AI 模型在每种场景下推荐的工具。

目前，Preseason.ai 展示了五个高级场景的基准测试结果：

AI 支持代理平台：要求构建一个生产级 AI 支持平台，包含认证、客户代理、基于检索的答案、人工升级和可搜索的知识资产。模型需要显式建模用户、对话、检索上下文、工具调用、反馈事件和升级状态。结果显示 LangSmith (11.9%)、Auth0 (8.4%)、Cursor (6.1%) 和 Vercel (5.7%) 成为首选工具。

SaaS 应用：构建一个多租户 SaaS 平台，包括订阅计费、席位访问和详细使用计量。Stripe (13.4%)、Prisma (10.7%)、PostgreSQL (9.3%) 和 AWS (7.1%) 被强烈推荐。

电商商店：涵盖客户账户、产品目录、结账、订单处理、库存和折扣。Stripe (12.6%)、PostgreSQL (11.8%)、AWS S3 (11.7%) 和 Auth0 (11.2%) 位列前茅。

AI 收入运营协作者：通过 API 集成 CRM、计费和产品遥测，生成账户摘要、风险标志和推荐操作。LangSmith (12.3%)、LangChain (7.9%)、Cursor (6.0%) 和 PostgreSQL (5.9%) 被推荐。

在线学习平台：支持教师发布、学生注册、视频和文档交付、测验、证书和进度追踪。Stripe (14.5%)、Auth0 (13.0%)、PostgreSQL (12.2%) 和 Prisma (10.5%) 是主要选择。

此外，Preseason.ai 还提供了“活跃对比”板块，直接比较流行工具的受欢迎程度，例如 Auth0 vs Clerk (66% vs 34%)、PostgreSQL vs Supabase (67% vs 33%)、Stripe vs Shopify Payments (97% vs 3%) 等。这些对比数据为开发者选择技术栈提供了有趣且实用的参考。

Preseason.ai 的独特之处在于其透明性和可重复性——所有测试提示和结果都是开源的，任何人都可以审查和复现。这使得它成为一个有价值的工具，帮助开发团队理解 AI 在推荐开发工具时的潜在偏见和趋势，从而做出更明智的决策。