Show HN: Preseason.ai – 基於LLM排名的開發者工具選擇開源基準測試
Preseason.ai 是一個開源基準測試平台,通過一系列標準化提示,追蹤 AI 模型在不同開發場景下選擇的工具,並展示排名結果。測試覆蓋從初級到專家的多個級別,包括 AI 支持平台、SaaS 應用、電商等場景。結果顯示 Stripe、PostgreSQL、Auth0 等工具在多個類別中領先。
Preseason.ai 是一個新興的開源基準測試項目,旨在揭示大型語言模型(LLM)在真實開發環境中對工具選擇的偏好。該項目通過一系列精心設計的“氛圍編碼”提示,模擬從初級開發者到專家工程師的不同水平,並記錄 AI 模型在每種場景下推薦的工具。
目前,Preseason.ai 展示了五個高級場景的基準測試結果:
- AI 支持代理平台:要求構建一個生產級 AI 支持平台,包含認證、客户代理、基於檢索的答案、人工升級和可搜索的知識資產。模型需要顯式建模用户、對話、檢索上下文、工具調用、反饋事件和升級狀態。結果顯示 LangSmith (11.9%)、Auth0 (8.4%)、Cursor (6.1%) 和 Vercel (5.7%) 成為首選工具。
- SaaS 應用:構建一個多租户 SaaS 平台,包括訂閲計費、席位訪問和詳細使用計量。Stripe (13.4%)、Prisma (10.7%)、PostgreSQL (9.3%) 和 AWS (7.1%) 被強烈推薦。
- 電商商店:涵蓋客户賬户、產品目錄、結賬、訂單處理、庫存和折扣。Stripe (12.6%)、PostgreSQL (11.8%)、AWS S3 (11.7%) 和 Auth0 (11.2%) 位列前茅。
- AI 收入運營協作者:通過 API 集成 CRM、計費和產品遙測,生成賬户摘要、風險標誌和推薦操作。LangSmith (12.3%)、LangChain (7.9%)、Cursor (6.0%) 和 PostgreSQL (5.9%) 被推薦。
- 在線學習平台:支持教師發佈、學生註冊、視頻和文檔交付、測驗、證書和進度追蹤。Stripe (14.5%)、Auth0 (13.0%)、PostgreSQL (12.2%) 和 Prisma (10.5%) 是主要選擇。
此外,Preseason.ai 還提供了“活躍對比”板塊,直接比較流行工具的受歡迎程度,例如 Auth0 vs Clerk (66% vs 34%)、PostgreSQL vs Supabase (67% vs 33%)、Stripe vs Shopify Payments (97% vs 3%) 等。這些對比數據為開發者選擇技術棧提供了有趣且實用的參考。
Preseason.ai 的獨特之處在於其透明性和可重複性——所有測試提示和結果都是開源的,任何人都可以審查和復現。這使得它成為一個有價值的工具,幫助開發團隊理解 AI 在推薦開發工具時的潛在偏見和趨勢,從而做出更明智的決策。