2026-07-03 12:06 UTC+8站內改寫5 分鐘閱讀更新: 2026-07-03 12:36 UTC+8

每一個AI可見性工具都在對你撒謊

本文深入剖析了當前AI可見性監測工具的侷限性。作者指出，這些工具聲稱能測量品牌在ChatGPT、Claude等AI助手內的可見性，但其資料往往建立在不可靠的抓取、API差異、提示集偏差、地理位置影響和模型漂移之上。文章揭示了儀表盤中看似精確的數字背後隱藏的混亂和不確定性，並提出了更誠實的測量方案。

來源Hacker News AI作者: arberx

文章情報

工程師中級

要點

AI可見性工具給出的排名和百分比看似精確，實則基於不穩定、個性化的樣本，無法代表真實使用者所見。
前端抓取和API呼叫各有偏頗：抓取受限於賬戶狀態、地理位置和反爬機制，API則與消費者應用行為不同。
提示集的選擇和評分公式對結果影響巨大，不同工具對相同資料可得出不同結論。
地理位置和模型更新進一步破壞了排名穩定性，本地化執行和明確方法論是提高可靠性的關鍵。

為什麼重要

這條新聞值得關注，因為AI可見性工具給出的排名和百分比看似精確，實則基於不穩定、個性化的樣本，無法代表真實使用者所見。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

我是一名經驗豐富的軟體工程師，在構建和除錯測量系統方面投入了足夠多的時間，深知何時一個儀表盤在要求你相信一個它無法支撐的數字。如今，一個新的軟體品類承諾告訴品牌他們在大模型產品（如ChatGPT、Claude、Gemini、Perplexity以及Google的AI答案）中的可見程度。然後，它將這些混亂的系統轉化為諸如提及率、引用率、聲量佔比或排名等整齊劃一的說法。

當一個工具聲稱你排在所在類別的第四位、本週上升兩位、或者擁有17%的可見度而競爭對手有31%時，我並不認為這些訊號毫無價值，而是認為這種精確性是編造出來的。這些系統是嘈雜的、個性化的、地理相關的、非確定性的，並且不斷變化，因此一個整潔的排行榜數字隱藏了工程師真正想要檢查的東西：分佈、方法論、方差和原始證據。

大多數供應商試圖測量重要的東西，但機制通常比儀表盤承認的要弱。如果一個工具聲稱能展示“客戶在ChatGPT或Claude中看到的內容”，它很可能是在抓取消費者應用或呼叫API。一次抓取捕獲了一個合成會話，而一次API呼叫使用了與你的客戶不同的表面。兩者都能產生有用的方向性訊號，特別是當它們揭示出在商業提示詞上的不可見性或某個地理區域的空白時，但兩者都不應該在不展示其工作過程的情況下被當作精確、穩定的真相出售。

前端抓取的問題

抓取ChatGPT或Claude的前端一開始聽起來很有說服力。供應商可以如實說，它開啟了應用，提出了問題，並記錄了產品返回的內容。這更接近真實使用者看到的表面，但它仍然測量的是一個受控的表面。

一次抓取來自一個賬戶或一個受控的賬戶池。這意味著一個歷史狀態、一個記憶狀態、一個訂閱層級、一個地理位置、一個瀏覽器會話和一個提示詞。改變其中任何一個，答案都可能改變。一個真實買家詢問“最適合種子期初創公司的CRM”與一個乾淨的瀏覽器從資料中心IP詢問“最佳CRM軟體”是不同的工具。

大規模抓取引入了更多偏差。在任何有意義的規模下，工作必須從某處執行：雲機器、代理路由、託管瀏覽器、無頭會話或其他自動化層。這個自動化層會滲入測量。集中的IP模式、重複登入、奇怪的會話節奏、速率限制壓力，以及AI產品本身可能存在的反濫用處理。

運營者必須做出選擇。乾淨的賬戶是可重複的，但不像客戶。有歷史的賬戶有歷史記錄，控制更弱。一個提出數千個類別提示詞的基準賬戶也會建立自己的個性化軌跡。過一段時間後，這個賬戶的整個生命週期都變成了基準流量。

這對本地和商業提示詞影響最大。“我附近最好的商業屋頂公司”隨地點變化。“紐約市最佳AEO代理”也隨地點變化。答案取決於使用者的地理位置、檢索系統、賬戶以及那一刻拉取的來源。一個單一的前端答案只是一個實驗室樣本。

相同提示詞在不同執行中變化

對AI可見性排名最簡單的辯護是：我們每週問相同的問題，統計你是否出現。這隻在相同問題有穩定答案的前提下有效。但相同的詞語往往產生不同的答案。

即使是溫度為零的大模型呼叫在生產環境中也不是完全穩定的。Thinking Machines Lab解釋了技術原因之一：批處理和核心行為在生產負載下可能變化。他們的例子顯示相同的溫度零請求產生了多個獨特的補全。

SparkToro和Gumshoe看到了相同問題的營銷版本。他們讓志願者透過ChatGPT、Claude和Google的AI產品重複執行商業提示詞。他們的研究發現品牌推薦在不同執行中變化很大。

這是核心測量問題。如果從同一系統的下一次抽取可能命名不同的品牌集，那麼“你排名第四”就變成了分佈中的一個樣本。一個誠實的儀表盤應該顯示分佈。

消費者應用和API行為不同

一些工具跳過瀏覽器抓取，轉而呼叫供應商API。運營案例很強大。API呼叫更容易重複、稽核、大規模執行成本更低，且不太可能因網頁應用變化而中斷。

權衡：API和消費者應用行為不同。

消費者產品可能有記憶、賬戶個性化、模型路由、網頁檢索、位置推斷、購物模組、本地模組、引用和產品特定展示。API給你一個可程式設計的模型呼叫，帶有你啟用的工具和引數。OpenAI的API文件要求你在需要接地檢索時新增諸如網頁搜尋等工具。Google的Gemini API有其自己的接地和搜尋配置。

差距是雙向的。原始API呼叫可能低估應用所知，因為它瀏覽方式不同。瀏覽器抓取可能高估真實使用者所見，因為它捕獲了一個個性化會話並聲稱具有代表性。

API可以是受控測量的正確表面。就把它當作那樣銷售。避免稱其為“消費者應用向你的買家展示的內容。”

提示集製造了分數

AI可見性工具監控一個提示集。他們取樣市場，而不是覆蓋真實買家問題的完整長尾。

提示集是決定性的。

如果我追蹤“紐約市最佳AEO代理”、“AI搜尋最佳化顧問”和“答案引擎最佳化審計”，我得到一幅圖景。如果我追蹤“SEO機構”、“數字營銷公司”和“AI營銷軟體”，我得到另一幅。兩個提示集都可以有效。它們回答不同的問題。

標題數字取決於選擇的提示詞、它們的權重、執行頻率和競爭對手集。Profound自己的提示詞設計指南說其使用者通常追蹤100到1000個提示詞，幾百個是典型的。儀表盤正在對市場進行取樣。

評分公式同樣重要。一個儀表盤可以評分提及頻率。另一個可以加權引用位置。另一個可以計數來源連結。另一個可以混合情感。Digital Applied的AI聲量佔比框架給出了一個清晰的例子：相同品牌、相同資料，基於提及的聲量佔比為20%，基於位置的為16.8%，基於引用的為31.4%。

相同證據。三個標題數字。三個競爭地位。

從業者出於充分理由持懷疑態度。在同一個Digital Applied文章中，SALT.agency的Dan Taylor批評供應商在一個人工環境中測量小且靜態的提示集。Digiday報道了買家方面相同的運營問題。/prompt的CEO Paul Dyer說，如果你給三個工具相同的提示詞，你會得到三個不同的答案。

沒有提示詞列表、每個提示詞的執行次數、地理位置、模型、賬戶狀態和評分公式，儀表盤展示的是一個構建的指標。構建的指標可能有用，但需要一個標籤。

地理位置打破了排行榜

對於本地、區域和服務區域企業，地理位置改變了問題。一位在布魯克林、奧斯汀、倫敦或密歇根農村的使用者可能對相同詞語得到不同的推薦，因為答案引擎推斷本地意圖。

一個單一的全球可見性排名往往毫無意義。“在ChatGPT中可見”在哪裡？從哪個使用者位置？在哪個本地檢索上下文中？使用哪個城市或服務區域短語？

前端抓取使這一點尤其混亂。從雲伺服器執行的合成瀏覽器會話看起來不像你關心的市場上的買家。你可以嘗試代理。你可以嘗試賬戶池。你可以嘗試瀏覽器自動化。現在你的“真相”取決於前端是否接受了你的抓取器講述的位置故事。

基於API的測量在這裡有一條更清晰的道路：在供應商支援的地方傳遞明確的位置上下文，並在你關心的地理區域執行相同的提示詞。你得到一個可控的位置變數，而不是一個偶然的抓取器偽影。Canonry就走這條路。

為什麼本地執行對本地SEO很重要

這是Canonry以本地為先的設計改變測量問題的地方。

大多數託管儀表盤從供應商基礎設施執行探測。對於全國性的SaaS查詢，這可能沒問題。對於本地客戶，它常常是錯誤的工具。皇后區的管道工、奧斯汀的牙醫或密歇根的屋頂承包商需要理解買家在服務區域內看到的答案。另一個地區的抓取叢集是薄弱的替代品。

Canonry可以在市場上的機器上執行。代理可以從自己的辦公室、技術員的筆記型電腦或更接近目標消費者的另一臺機器上執行檢查。非確定性仍然存在。API結果可能仍然不同於消費者UI。勝利更窄且更實際：從測量中去掉外包的雲地理位置。

對於本地SEO和本地AEO，這個細節很重要。測量環境越接近買家環境，你就越不需要相信代理故事。你仍然可以在供應商支援的地方傳遞明確的位置上下文。當測試從相關市場的機器上執行時，偶然的訊號與有意的訊號對齊。

這使得Canonry對於服務本地客戶的運營商更準確。如果你的客戶是芝加哥的HVAC公司、布魯克林的酒店集團或密歇根的屋頂承包商，你可以從不同的地理位置執行相同的提示集。差異正是你試圖測量的東西。

模型漂移使趨勢線變成虛構

即使你處理了取樣、個性化、API與應用的差異、提示詞選擇和地理位置，工具本身仍然變化。

熟悉產品名背後的模型可以更新、路由、回滾或靜默調整。檢索系統變化。引用行為變化。產品介面變化。AI可見性儀表盤中的周環比變動可能意味著你的內容改進了，也可能意味著模型改變了、檢索層改變了或產品開始以不同方式回答提示詞。

這是真實可測量的。Chen、Zaharia和Zou的論文《ChatGPT的行為如何隨時間變化？》比較了2023年3月和6月的GPT-3.5和GPT-4版本。他們發現在相同的公共模型名稱下，任務之間存在巨大的行為變化。一個例子：GPT-4在質數準確性上從3月的84%下降到6月的51%。將其視為漂移的證據，而不是對今天模型質量的當前估計。

相同的模式出現在產品行為中。在2025年4月29日的一篇帖子中，OpenAI表示已回滾了前一週的ChatGPT中GPT-4o更新，因為被移除的版本過於討喜和迎合。外部的可見性儀表盤通常只在此類產品變化已經扭曲趨勢線後才看到它們。

從外部看，這些影響很難分離。一個儀表盤可以告訴你數字移動了。它通常無法證明原因。

數字仍然可能有用。問題開始於工具聲稱解釋為什麼移動了。

這些工具可以誠實地告訴你什麼

這個品類可能有用。它需要停止過度推銷精確性。

AI可見性監測可以支援有用的結論：

我們對於買家實際詢問的商業提示詞是不可見的。我們在品牌提示詞上經常出現，但在類別提示詞上很少。一個競爭對手被引用的頻率遠高於我們。 Claude能看到我們，而ChatGPT看不到。我們在紐約出現，而洛杉磯是空白的。內容或架構變更似乎與多次執行中更好的引用頻率相關。

這些是方向性的、機率性的發現。它們有用。它們幫助團隊

[因AI成本控制截斷]