Show HN: Tested – 由LLM專家組(Claude、GPT、Gemini、Grok)評分的AI工具
Tested是一個獨立的AI工具評測平臺,使用四個頂級LLM(Claude、GPT、Gemini、Grok)作為評審團,對40多種AI工具進行打分,避免付費排名。覆蓋聊天機器人、編碼、影像、影片等多個類別,提供透明分數和定價資訊。
在人工智慧工具飛速發展的今天,各類“最佳AI工具”榜單層出不窮,但許多都充斥著付費推廣,缺乏客觀性。針對這一痛點,一個名為Tested的新平臺應運而生。Tested宣稱其所有排名均由一個由四個頂級大型語言模型(LLM)組成的獨立評審團獨立打分,從而徹底摒棄了付費排名的干擾。這四個LLM分別是Anthropic的Claude、OpenAI的GPT、Google的Gemini以及xAI的Grok。
Tested的標語是“We test the tools so the rankings can't be bought”,直白地表達了其去商業化、重客觀的核心理念。目前,該平臺已收錄並評估了超過40款AI工具,覆蓋了多達12個類別,包括AI自動化(5款)、AI聊天機器人(2款)、AI程式設計(6款)、AI影像生成(5款)、AI會議助手(4款)、AI音樂創作(2款)、AI演示製作(2款)、AI搜尋(1款)、AI SEO(3款)、AI影片生成(5款)、AI語音(2款)以及AI寫作(3款)。
每款工具都會獲得一個綜合評分(滿分10分),以及來自四個LLM的分別評分,所有分數均完全公開。以語音類為例,ElevenLabs以9.3分位居榜首,其中Gemini給出了9.8分的高分,而OpenAI則給出了8.5分,體現了不同模型評價視角的差異。在聊天機器人類別中,ChatGPT以9.4分排名第一,而自家的Claude則以9.0分緊隨其後。
Tested的介面設計簡潔直觀,使用者既可以按類別瀏覽,也可以檢視完整的“在架上”(On the rack)排名列表,該列表預設按綜合評分從高到低排序。使用者還可以使用“基準測試”(Bench tests)功能,直接對比兩款工具的效能,例如ElevenLabs與Synthesia的對比。
除了評分,Tested還提供了每款工具的詳細定價資訊,包括月費(如ChatGPT 20美元/月)或定製價格(Custom),以及是否提供免費套餐。對於需要定製化AI工具的使用者,Tested還推出了定製開發服務,使用者只需描述需求,平臺即可為其構建專屬的AI工具。
Tested的誕生為AI工具選型提供了一種全新的、去營銷化的參考標準。它透過引入多LLM評審機制,最大程度地抵消了單一模型的偏見,使排名更加公正。無論是開發者尋找最優秀的編碼助手,還是營銷人員挑選最合適的SEO工具,Tested都能提供有價值的資料支撐。隨著AI工具生態的日益豐富,像Tested這樣堅持透明和獨立的評測平臺,其價值將愈發凸顯。