Show HN: Preseason.ai – 基于LLM排名的开发者工具选择开源基准测试
Preseason.ai 是一个开源基准测试平台,通过一系列标准化提示,追踪 AI 模型在不同开发场景下选择的工具,并展示排名结果。测试覆盖从初级到专家的多个级别,包括 AI 支持平台、SaaS 应用、电商等场景。结果显示 Stripe、PostgreSQL、Auth0 等工具在多个类别中领先。
Preseason.ai 是一个新兴的开源基准测试项目,旨在揭示大型语言模型(LLM)在真实开发环境中对工具选择的偏好。该项目通过一系列精心设计的“氛围编码”提示,模拟从初级开发者到专家工程师的不同水平,并记录 AI 模型在每种场景下推荐的工具。
目前,Preseason.ai 展示了五个高级场景的基准测试结果:
- AI 支持代理平台:要求构建一个生产级 AI 支持平台,包含认证、客户代理、基于检索的答案、人工升级和可搜索的知识资产。模型需要显式建模用户、对话、检索上下文、工具调用、反馈事件和升级状态。结果显示 LangSmith (11.9%)、Auth0 (8.4%)、Cursor (6.1%) 和 Vercel (5.7%) 成为首选工具。
- SaaS 应用:构建一个多租户 SaaS 平台,包括订阅计费、席位访问和详细使用计量。Stripe (13.4%)、Prisma (10.7%)、PostgreSQL (9.3%) 和 AWS (7.1%) 被强烈推荐。
- 电商商店:涵盖客户账户、产品目录、结账、订单处理、库存和折扣。Stripe (12.6%)、PostgreSQL (11.8%)、AWS S3 (11.7%) 和 Auth0 (11.2%) 位列前茅。
- AI 收入运营协作者:通过 API 集成 CRM、计费和产品遥测,生成账户摘要、风险标志和推荐操作。LangSmith (12.3%)、LangChain (7.9%)、Cursor (6.0%) 和 PostgreSQL (5.9%) 被推荐。
- 在线学习平台:支持教师发布、学生注册、视频和文档交付、测验、证书和进度追踪。Stripe (14.5%)、Auth0 (13.0%)、PostgreSQL (12.2%) 和 Prisma (10.5%) 是主要选择。
此外,Preseason.ai 还提供了“活跃对比”板块,直接比较流行工具的受欢迎程度,例如 Auth0 vs Clerk (66% vs 34%)、PostgreSQL vs Supabase (67% vs 33%)、Stripe vs Shopify Payments (97% vs 3%) 等。这些对比数据为开发者选择技术栈提供了有趣且实用的参考。
Preseason.ai 的独特之处在于其透明性和可重复性——所有测试提示和结果都是开源的,任何人都可以审查和复现。这使得它成为一个有价值的工具,帮助开发团队理解 AI 在推荐开发工具时的潜在偏见和趋势,从而做出更明智的决策。