2026-07-03 13:06 UTC+9サイト内リライト8 分で読了更新: 2026-07-03 13:36 UTC+9

すべてのAI可視性ツールはあなたに嘘をついている

この記事では、ChatGPTやClaudeなどのAIアシスタントにおけるブランドの可視性を測定すると主張するツールの限界を詳しく解説しています。フロントエンドスクレイピングやAPI呼び出しの偏り、プロンプトセットの選択、地理的要因、モデルのドリフトにより、これらのツールが示す数値は実際のユーザー体験を正確に反映していないと指摘しています。また、より誠実な測定方法としてCanonryのローカルファーストアプローチを紹介しています。

ソースHacker News AI著者: arberx

記事インテリジェンス

エンジニア中級

要点

AI可視性ツールが示すランキングや割合は、非決定的で個人化されたサンプルに基づいており、実際のユーザーが見るものとは異なる。
フロントエンドスクレイピングとAPI呼び出しにはそれぞれバイアスがあり、同じデータでも異なる結果を生む。
プロンプトセットとスコアリング方式が結果を大きく左右し、ツールごとに異なる結論が出ることがある。
地理的位置やモデルのアップデートによりランキングは変動し、トレンドラインを信頼できなくする。

重要な理由

このニュースが重要なのは、AI可視性ツールが示すランキングや割合は、非決定的で個人化されたサンプルに基づいており、実際のユーザーが見るものとは異なるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

私は経験豊富なソフトウェアエンジニアであり、測定システムの構築とデバッグに多くの時間を費やしてきたため、ダッシュボードが裏付けできない数字を信頼するよう求めてくる場合をよく知っています。新しいソフトウェアカテゴリは、ブランドがChatGPT、Claude、Gemini、Perplexity、そしてGoogleのAI回答の中でどれだけ可視性を持っているかを教えると約束しています。そして、その乱雑なシステムを、言及率、引用率、シェア・オブ・ボイス、ランクといったきれいな主張に変換します。

ツールが「あなたはカテゴリで4位です」、「今週2スポット上昇しました」、「17%の可視性で競合は31%です」と言うとき、私はそのシグナルが無価値だとは思いませんが、その精度は作り上げられたものだと考えます。これらのシステムはノイズが多く、個人化され、地理的で、非決定的であり、絶えず変化しています。そのため、きれいなリーダーボードの数字は、エンジニアが実際に検査したいもの（分布、方法論、分散、生の証拠）を隠してしまいます。

ほとんどのベンダーは重要なものを測定しようとしていますが、その仕組みは通常、ダッシュボードが認めるよりも弱いものです。ツールがChatGPTやClaudeで「顧客が見ているもの」を表示すると主張する場合、おそらくコンシューマーアプリをスクレイピングするか、APIを呼び出しています。スクレイピングは1つの合成セッションをキャプチャし、API呼び出しは顧客が使用するものとは異なるサーフェスを使用します。どちらも有用な方向性のあるシグナルを生成できますが、特に商業プロンプトでの不可視性や地理的ギャップを明らかにする場合に有用です。しかし、どちらもその作業を示さずに正確で安定した真実として販売されるべきではありません。

フロントエンドスクレイピングの問題

ChatGPTやClaudeのフロントエンドをスクレイピングすることは、最初は説得力があります。ベンダーは、アプリを開き、質問をし、製品が返したものを記録したと正直に言えます。これは実際のユーザーが見る表面に近いですが、それでも制御された1つの表面を測定しています。

スクレイピングは1つのアカウントまたは制御されたアカウントプールから行われます。つまり、1つの履歴状態、1つのメモリ状態、1つのサブスクリプションティア、1つの地理的位置、1つのブラウザセッション、1つのプロンプトです。これらのいずれかを変更すると、回答が変わります。実際の買い手が「シードステージのスタートアップに最適なCRM」と尋ねることと、クリーンなブラウザがデータセンターIPから「最高のCRMソフトウェア」と尋ねることは異なる手段です。

大規模なスクレイピングはさらにバイアスを加えます。意味のあるボリュームでは、作業はどこか（クラウドマシン、プロキシルート、マネージドブラウザ、ヘッドレスセッション、その他の自動化レイヤー）から実行する必要があります。その自動化レイヤーが測定に浸透する可能性があります。集中したIPパターン、繰り返しのログイン、奇妙なセッションリズム、レート制限のプレッシャー、AI製品自体によるアンチアビューズ処理の可能性です。

オペレーターは選択を迫られます。クリーンなアカウントは再現可能ですが、顧客とは異なります。履歴のあるアカウントは履歴があり、制御が弱くなります。数千のカテゴリプロンプトを尋ねるベンチマークアカウントは、独自のパーソナライゼーショントレイルを作成します。しばらくすると、アカウントの全ライフがベンチマークトラフィックになります。

これはローカルおよび商業プロンプトで最も重要です。「私の近くの最高の商業用屋根会社」は場所によって変わります。「NYCで最高のAEO代理店」も場所によって変わります。回答は、ユーザーの場所、検索システム、アカウント、その瞬間に取得されたソースに依存します。単一のフロントエンド回答は1つのラボサンプルです。

同じプロンプトが実行ごとに変化する

AI可視性ランクの最も単純な弁護はこれです：毎週同じ質問をし、あなたが表示されるかどうかを数える。これは同じ質問が安定した回答を持つ場合にのみ機能します。同じ言葉がしばしば異なる回答を生成します。

温度ゼロのLLM呼び出しでさえ、本番環境では完全に安定しているわけではありません。Thinking Machines Labは技術的な理由を説明しました：バッチ処理とカーネルの動作は実際の本番負荷の下で変化する可能性があります。彼らの例では、同一の温度ゼロリクエストが複数のユニークな補完を生成することを示しました。

SparkToroとGumshoeは同じ問題のマーケティング版を目撃しました。彼らはボランティアにChatGPT、Claude、GoogleのAI製品を通じて繰り返し商業プロンプトを実行させました。その研究では、ブランドの推奨が繰り返し実行間で大きく変化することがわかりました。

これが核心的な測定問題です。同じシステムからの次の抽選が異なるブランドセットを挙げる可能性があるなら、「あなたは4位です」は分布からの1つのサンプルになります。誠実なダッシュボードは分布を示すべきです。

コンシューマーアプリとAPIの動作の違い

一部のツールはブラウザスクレイピングを避け、プロバイダーのAPIを呼び出します。運用上のケースは強いです。API呼び出しは繰り返しが容易で、監査が容易で、大規模に実行するコストが低く、ウェブアプリが変更されても壊れる可能性が低いです。

トレードオフ：APIとコンシューマーアプリの動作は異なります。

コンシューマー製品には、メモリ、アカウントのパーソナライゼーション、モデルルーティング、ウェブ検索、位置推定、ショッピングモジュール、ローカルモジュール、引用、製品固有の表示がある場合があります。APIは、有効にしたツールとパラメータを使用してプログラム可能なモデル呼び出しを提供します。OpenAIのAPIドキュメントでは、グラウンディングされた検索が必要な場合、ウェブ検索などのツールを追加する必要があります。GoogleのGemini APIには独自のグラウンディングと検索設定があります。

ギャップは両方向に働きます。生のAPI呼び出しは、アプリが知っていることを過小評価する可能性があります。ブラウザスクレイピングは、実際のユーザーが見るものを過大評価する可能性があります。

APIは制御された測定に適したサーフェスです。そのように販売してください。それを「コンシューマーアプリが買い手に示したもの」と呼ぶのは避けてください。

プロンプトセットがスコアを作り出す

AI可視性ツールはプロンプトセットを監視します。彼らは市場をサンプリングし、実際の買い手の質問のロングテール全体をカバーしていません。

プロンプトセットは決定的です。

「NYCで最高のAEO代理店」、「AI検索最適化コンサルタント」、「アンサーエンジン最適化監査」を追跡すると、ある絵が得られます。「SEO代理店」、「デジタルマーケティング会社」、「AIマーケティングソフトウェア」を追跡すると、別の絵が得られます。両方のプロンプトセットは有効であり得ます。それらは異なる質問に答えます。

見出しの数字は、選択されたプロンプト、その重み、実行頻度、競合セットに依存します。Profoundのプロンプトデザインガイドによると、ユーザーは通常100から1000のプロンプトを追跡し、数百が典型的です。ダッシュボードは市場をサンプリングしています。

スコアリング方式も同様に重要です。あるダッシュボードは言及頻度をスコアリングできます。別のものは引用位置に重みを付けることができます。また別のものはソースリンクをカウントできます。さらに別のものは感情をブレンドできます。Digital AppliedのAIシェア・オブ・ボイスフレームワークは明確な例を示しています：同じブランド、同じデータで、言及ベースのシェア・オブ・ボイスは20%、位置加重では16.8%、引用ベースでは31.4%です。

同じ証拠。3つの見出し数字。3つの競争地位。

実務家は正当な理由で懐疑的です。同じDigital Appliedの記事で、SALT.agencyのDan Taylorはベンダーが人工的な環境で小さな静的プロンプトセットを測定していると批判しています。Digidayはバイヤー側から同じ運用上の問題を報告しました。/promptのCEO Paul Dyerは、3つのツールに同じプロンプトを与えると3つの異なる回答が得られると述べました。

プロンプトリスト、プロンプトあたりの実行回数、地理的位置、モデル、アカウント状態、スコアリング方式がなければ、ダッシュボードは構築された指標を示しています。構築された指標は有用であり得ます。ラベルが必要です。

地理的位置がリーダーボードを壊す

地理的位置は、ほとんどのダッシュボードが無視する部分です。

ローカル、地域、サービスエリアのビジネスにとって、地理的位置は質問を変えます。ブルックリン、オースティン、ロンドン、ミシガン州の田舎のユーザーは、同じ言葉に対して異なる推奨を得ることがあります。なぜならアンサーエンジンがローカルインテントを推論するからです。

単一のグローバル可視性ランクはしばしば無意味です。「ChatGPTで可視」はどこで？どのユーザー位置から？どのローカル検索コンテキストで？どの都市またはサービスエリアのフレーズで？

フロントエンドスクレイピングはこれを特に混乱させます。クラウドサーバーからの合成ブラウザ実行は、あなたが気にする市場の買い手とは似ていません。プロキシを試せます。アカウントプールを試せます。ブラウザ自動化を試せます。これで、「真実」はフロントエンドがスクレイパーが伝えたロケーションストーリーを受け入れたかどうかに依存します。

APIベースの測定にはここでよりクリーンな道があります：プロバイダーがサポートする場所で明示的な位置コンテキストを渡し、気にする地理的位置全体で同じプロンプトを実行します。制御された位置変数が得られ、偶発的なスクレイパーアーティファクトではありません。Canonryはその道をとります。

ローカルSEOにとってローカル実行が重要な理由

ここでCanonryのローカルファーストデザインが測定問題を変えます。

ほとんどのホスト型ダッシュボードはベンダーインフラからプローブを実行します。全国的なSaaSクエリでは問題ないかもしれません。ローカルクライアントでは、しばしば間違った手段です。クイーンズ区の配管工、オースティンの歯科医、ミシガン州の屋根工事業者は、サービスエリア内で買い手が見る回答を理解する必要があります。別の地域のスクレイパークラスターは弱い代役です。

Canonryは市場のマシン上で実行できます。代理店は自社のオフィス、技術者のラップトップ、またはターゲットコンシューマーに近い別のマシンからチェックを実行できます。非決定性は依然として存在します。API結果がコンシューマーUIと異なる可能性はあります。勝利は狭く実用的です：測定からアウトソースされたクラウド地理を取り除くことです。

ローカルSEOとローカルAEOにとって、この詳細は重要です。測定環境が買い手の環境に近いほど、プロキシストーリーを信頼する必要が少なくなります。プロバイダーがサポートする場所で明示的な位置コンテキストを渡すことはできます。テストが関連市場のマシンから実行されるとき、偶然のシグナルが意図的なものと一致します。

これにより、Canonryはローカルクライアントにサービスを提供するオペレーターにとってより正確になります。顧客がシカゴのHVAC会社、ブルックリンのホスピタリティグループ、ミシガン州の屋根工事業者であれば、異なる地理的位置から同じプロンプトセットを実行できます。違いはまさにあなたが測定しようとしているものです。

モデルドリフトがトレンドラインを虚構に変える

サンプリング、パーソナライゼーション、API対アプリの違い、プロンプト選択、地理的位置を処理しても、道具自体が変化します。

おなじみの製品名の背後にあるモデルは、更新、ルーティング、ロールバック、または静かに調整される可能性があります。検索システムが変わります。引用動作が変わります。製品インターフェースが変わります。AI可視性ダッシュボードの週ごとの変動は、コンテンツが改善されたことを意味する可能性があります。また、モデルが変更された、検索レイヤーが変更された、または製品がプロンプトに異なる方法で回答し始めたことを意味する可能性もあります。

これは測定可能なほど現実的です。Chen、Zaharia、Zouの論文「ChatGPTの行動は時間とともにどのように変化するか？」では、2023年3月と6月のGPT-3.5とGPT-4のバージョンを比較しました。彼らは同じ公開モデル名の下でタスク間の大きな行動変化を発見しました。一例：GPT-4の素数精度は3月の84%から6月には51%に低下しました。これを今日のモデル品質の現在の推定値としてではなく、ドリフトの証拠として扱ってください。

同じパターンが製品動作に現れます。2025年4月29日の投稿で、OpenAIは前週のChatGPTにおけるGPT-4oアップデートをロールバックしたと述べました。削除されたバージョンはお世辞が多く、同調的すぎたためです。外部の可視性ダッシュボードは通常、このような製品変更がトレンドラインを曲げた後にのみ気づきます。

外部からは、これらの影響を分離するのは困難です。ダッシュボードは数字が動いたことを伝えられます。通常、なぜ動いたかを証明することはできません。

数字は依然として役立つ可能性があります。問題は、ツールがなぜ動いたかを説明すると主張するときに始まります。

これらのツールが正直に教えられること

このカテゴリは有用であり得ます。精度を売り込みすぎるのをやめる必要があります。

AI可視性モニタリングは有用な結論をサポートできます：

私たちは買い手が実際に尋ねる商業プロンプトに対して不可視です。ブランドプロンプトではよく表示されますが、カテゴリプロンプトではめったに表示されません。ある競合他社は私たちよりもはるかに頻繁に引用されます。 Claudeは私たちを見ますが、ChatGPTは見逃します。私たちはニューヨークに表示されますが、ロサンゼルスは空白のままです。コンテンツまたはスキーマの変更が、繰り返し実行にわたって引用頻度の向上と相関しているように見えます。

これらは方向性のある、確率的な発見です。それらは有用です。それらはチームが

[AIコスト制御のため切り捨て]