2026-06-27 09:06 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 09:16 UTC+8

Show HN: Tested – 由LLM專家組（Claude、GPT、Gemini、Grok）評分的AI工具

Tested是一個獨立的AI工具評測平台，使用四個頂級LLM（Claude、GPT、Gemini、Grok）作為評審團，對40多種AI工具進行打分，避免付費排名。覆蓋聊天機器人、編碼、圖像、視頻等多個類別，提供透明分數和定價信息。

來源Hacker News AI作者: pro_methe5

在人工智能工具飛速發展的今天，各類“最佳AI工具”榜單層出不窮，但許多都充斥着付費推廣，缺乏客觀性。針對這一痛點，一個名為Tested的新平台應運而生。Tested宣稱其所有排名均由一個由四個頂級大型語言模型（LLM）組成的獨立評審團獨立打分，從而徹底摒棄了付費排名的干擾。這四個LLM分別是Anthropic的Claude、OpenAI的GPT、Google的Gemini以及xAI的Grok。

Tested的標語是“We test the tools so the rankings can't be bought”，直白地表達了其去商業化、重客觀的核心理念。目前，該平台已收錄並評估了超過40款AI工具，覆蓋了多達12個類別，包括AI自動化（5款）、AI聊天機器人（2款）、AI編程（6款）、AI圖像生成（5款）、AI會議助手（4款）、AI音樂創作（2款）、AI演示製作（2款）、AI搜索（1款）、AI SEO（3款）、AI視頻生成（5款）、AI語音（2款）以及AI寫作（3款）。

每款工具都會獲得一個綜合評分（滿分10分），以及來自四個LLM的分別評分，所有分數均完全公開。以語音類為例，ElevenLabs以9.3分位居榜首，其中Gemini給出了9.8分的高分，而OpenAI則給出了8.5分，體現了不同模型評價視角的差異。在聊天機器人類別中，ChatGPT以9.4分排名第一，而自家的Claude則以9.0分緊隨其後。

Tested的界面設計簡潔直觀，用户既可以按類別瀏覽，也可以查看完整的“在架上”（On the rack）排名列表，該列表默認按綜合評分從高到低排序。用户還可以使用“基準測試”（Bench tests）功能，直接對比兩款工具的性能，例如ElevenLabs與Synthesia的對比。

除了評分，Tested還提供了每款工具的詳細定價信息，包括月費（如ChatGPT 20美元/月）或定製價格（Custom），以及是否提供免費套餐。對於需要定製化AI工具的用户，Tested還推出了定製開發服務，用户只需描述需求，平台即可為其構建專屬的AI工具。

Tested的誕生為AI工具選型提供了一種全新的、去營銷化的參考標準。它通過引入多LLM評審機制，最大程度地抵消了單一模型的偏見，使排名更加公正。無論是開發者尋找最優秀的編碼助手，還是營銷人員挑選最合適的SEO工具，Tested都能提供有價值的數據支撐。隨着AI工具生態的日益豐富，像Tested這樣堅持透明和獨立的評測平台，其價值將愈發凸顯。