2026-06-27 09:06 UTC+8站内改写2 分钟阅读更新: 2026-06-27 09:16 UTC+8

Show HN: Tested – 由LLM专家组（Claude、GPT、Gemini、Grok）评分的AI工具

Tested是一个独立的AI工具评测平台，使用四个顶级LLM（Claude、GPT、Gemini、Grok）作为评审团，对40多种AI工具进行打分，避免付费排名。覆盖聊天机器人、编码、图像、视频等多个类别，提供透明分数和定价信息。

来源Hacker News AI作者: pro_methe5

在人工智能工具飞速发展的今天，各类“最佳AI工具”榜单层出不穷，但许多都充斥着付费推广，缺乏客观性。针对这一痛点，一个名为Tested的新平台应运而生。Tested宣称其所有排名均由一个由四个顶级大型语言模型（LLM）组成的独立评审团独立打分，从而彻底摒弃了付费排名的干扰。这四个LLM分别是Anthropic的Claude、OpenAI的GPT、Google的Gemini以及xAI的Grok。

Tested的标语是“We test the tools so the rankings can't be bought”，直白地表达了其去商业化、重客观的核心理念。目前，该平台已收录并评估了超过40款AI工具，覆盖了多达12个类别，包括AI自动化（5款）、AI聊天机器人（2款）、AI编程（6款）、AI图像生成（5款）、AI会议助手（4款）、AI音乐创作（2款）、AI演示制作（2款）、AI搜索（1款）、AI SEO（3款）、AI视频生成（5款）、AI语音（2款）以及AI写作（3款）。

每款工具都会获得一个综合评分（满分10分），以及来自四个LLM的分别评分，所有分数均完全公开。以语音类为例，ElevenLabs以9.3分位居榜首，其中Gemini给出了9.8分的高分，而OpenAI则给出了8.5分，体现了不同模型评价视角的差异。在聊天机器人类别中，ChatGPT以9.4分排名第一，而自家的Claude则以9.0分紧随其后。

Tested的界面设计简洁直观，用户既可以按类别浏览，也可以查看完整的“在架上”（On the rack）排名列表，该列表默认按综合评分从高到低排序。用户还可以使用“基准测试”（Bench tests）功能，直接对比两款工具的性能，例如ElevenLabs与Synthesia的对比。

除了评分，Tested还提供了每款工具的详细定价信息，包括月费（如ChatGPT 20美元/月）或定制价格（Custom），以及是否提供免费套餐。对于需要定制化AI工具的用户，Tested还推出了定制开发服务，用户只需描述需求，平台即可为其构建专属的AI工具。

Tested的诞生为AI工具选型提供了一种全新的、去营销化的参考标准。它通过引入多LLM评审机制，最大程度地抵消了单一模型的偏见，使排名更加公正。无论是开发者寻找最优秀的编码助手，还是营销人员挑选最合适的SEO工具，Tested都能提供有价值的数据支撑。随着AI工具生态的日益丰富，像Tested这样坚持透明和独立的评测平台，其价值将愈发凸显。