Show HN: Tested – 由LLM专家组(Claude、GPT、Gemini、Grok)评分的AI工具
Tested是一个独立的AI工具评测平台,使用四个顶级LLM(Claude、GPT、Gemini、Grok)作为评审团,对40多种AI工具进行打分,避免付费排名。覆盖聊天机器人、编码、图像、视频等多个类别,提供透明分数和定价信息。
在人工智能工具飞速发展的今天,各类“最佳AI工具”榜单层出不穷,但许多都充斥着付费推广,缺乏客观性。针对这一痛点,一个名为Tested的新平台应运而生。Tested宣称其所有排名均由一个由四个顶级大型语言模型(LLM)组成的独立评审团独立打分,从而彻底摒弃了付费排名的干扰。这四个LLM分别是Anthropic的Claude、OpenAI的GPT、Google的Gemini以及xAI的Grok。
Tested的标语是“We test the tools so the rankings can't be bought”,直白地表达了其去商业化、重客观的核心理念。目前,该平台已收录并评估了超过40款AI工具,覆盖了多达12个类别,包括AI自动化(5款)、AI聊天机器人(2款)、AI编程(6款)、AI图像生成(5款)、AI会议助手(4款)、AI音乐创作(2款)、AI演示制作(2款)、AI搜索(1款)、AI SEO(3款)、AI视频生成(5款)、AI语音(2款)以及AI写作(3款)。
每款工具都会获得一个综合评分(满分10分),以及来自四个LLM的分别评分,所有分数均完全公开。以语音类为例,ElevenLabs以9.3分位居榜首,其中Gemini给出了9.8分的高分,而OpenAI则给出了8.5分,体现了不同模型评价视角的差异。在聊天机器人类别中,ChatGPT以9.4分排名第一,而自家的Claude则以9.0分紧随其后。
Tested的界面设计简洁直观,用户既可以按类别浏览,也可以查看完整的“在架上”(On the rack)排名列表,该列表默认按综合评分从高到低排序。用户还可以使用“基准测试”(Bench tests)功能,直接对比两款工具的性能,例如ElevenLabs与Synthesia的对比。
除了评分,Tested还提供了每款工具的详细定价信息,包括月费(如ChatGPT 20美元/月)或定制价格(Custom),以及是否提供免费套餐。对于需要定制化AI工具的用户,Tested还推出了定制开发服务,用户只需描述需求,平台即可为其构建专属的AI工具。
Tested的诞生为AI工具选型提供了一种全新的、去营销化的参考标准。它通过引入多LLM评审机制,最大程度地抵消了单一模型的偏见,使排名更加公正。无论是开发者寻找最优秀的编码助手,还是营销人员挑选最合适的SEO工具,Tested都能提供有价值的数据支撑。随着AI工具生态的日益丰富,像Tested这样坚持透明和独立的评测平台,其价值将愈发凸显。