Show HN: Tested – 由LLM專家組(Claude、GPT、Gemini、Grok)評分的AI工具
Tested是一個獨立的AI工具評測平台,使用四個頂級LLM(Claude、GPT、Gemini、Grok)作為評審團,對40多種AI工具進行打分,避免付費排名。覆蓋聊天機器人、編碼、圖像、視頻等多個類別,提供透明分數和定價信息。
在人工智能工具飛速發展的今天,各類“最佳AI工具”榜單層出不窮,但許多都充斥着付費推廣,缺乏客觀性。針對這一痛點,一個名為Tested的新平台應運而生。Tested宣稱其所有排名均由一個由四個頂級大型語言模型(LLM)組成的獨立評審團獨立打分,從而徹底摒棄了付費排名的干擾。這四個LLM分別是Anthropic的Claude、OpenAI的GPT、Google的Gemini以及xAI的Grok。
Tested的標語是“We test the tools so the rankings can't be bought”,直白地表達了其去商業化、重客觀的核心理念。目前,該平台已收錄並評估了超過40款AI工具,覆蓋了多達12個類別,包括AI自動化(5款)、AI聊天機器人(2款)、AI編程(6款)、AI圖像生成(5款)、AI會議助手(4款)、AI音樂創作(2款)、AI演示製作(2款)、AI搜索(1款)、AI SEO(3款)、AI視頻生成(5款)、AI語音(2款)以及AI寫作(3款)。
每款工具都會獲得一個綜合評分(滿分10分),以及來自四個LLM的分別評分,所有分數均完全公開。以語音類為例,ElevenLabs以9.3分位居榜首,其中Gemini給出了9.8分的高分,而OpenAI則給出了8.5分,體現了不同模型評價視角的差異。在聊天機器人類別中,ChatGPT以9.4分排名第一,而自家的Claude則以9.0分緊隨其後。
Tested的界面設計簡潔直觀,用户既可以按類別瀏覽,也可以查看完整的“在架上”(On the rack)排名列表,該列表默認按綜合評分從高到低排序。用户還可以使用“基準測試”(Bench tests)功能,直接對比兩款工具的性能,例如ElevenLabs與Synthesia的對比。
除了評分,Tested還提供了每款工具的詳細定價信息,包括月費(如ChatGPT 20美元/月)或定製價格(Custom),以及是否提供免費套餐。對於需要定製化AI工具的用户,Tested還推出了定製開發服務,用户只需描述需求,平台即可為其構建專屬的AI工具。
Tested的誕生為AI工具選型提供了一種全新的、去營銷化的參考標準。它通過引入多LLM評審機制,最大程度地抵消了單一模型的偏見,使排名更加公正。無論是開發者尋找最優秀的編碼助手,還是營銷人員挑選最合適的SEO工具,Tested都能提供有價值的數據支撐。隨着AI工具生態的日益豐富,像Tested這樣堅持透明和獨立的評測平台,其價值將愈發凸顯。