AI News HubLIVE
站内改写

Show HN: AIのために文章を隠し、それが返ってきたか確認できるページ

このページはHTMLソースに、人間には見えない秘密のフレーズを埋め込み、AIクローラーのみが読み取れるようにしています。訪問者はAIアシスタントにページの内容を尋ね、そのフレーズが回答に含まれているかチェックすることで、機械がどのようにウェブを読んでいるかを目の当たりにできます。また、人間とボットのアクセス比率を表示し、現在のウェブトラフィックの51%以上がソフトウェアによるものであることを示しています。

記事インテリジェンス

エンジニア上級

要点

  • HTMLソースに人間には見えないフレーズを埋め込み、AIクローラーのみが読み取れる。
  • 訪問者はAIにページ内容を尋ね、隠されたフレーズが返ってくるか検証できる。
  • 人間とボットのアクセス比率をリアルタイムで表示し、ソフトウェア優位の現状を反映。
  • この実験は、ウェブ上での機械による読み取りへの認識を高めることを目的としている。

重要な理由

このニュースが重要なのは、HTMLソースに人間には見えないフレーズを埋め込み、AIクローラーのみが読み取れるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

「sinceyouarrived.world/taken/agents」というウェブページが注目を集めています。このページは、Matt Wheeler氏が制作する「Since You Arrived」シリーズの第4巻で、AIクローラーがどのようにウェブコンテンツを読み取るかを探求するために特別に設計されました。核心的な仕組みは、HTMLソースコード内にコメントとして特定のフレーズ「spotted herons rising at dawn」(夜明けに舞い上がるまだらの鷺)を隠すことです。通常の人間ユーザーがブラウザで閲覧してもこのフレーズは見えませんが、AIクローラーがページをクロールする際には、サーバーから送られる生のバイトデータに含まれているため、取得することができます。

訪問者は、AIアシスタント(ChatGPTなど)に「sinceyouarrived.world/taken/agentsは何についてのページですか?」と尋ね、その回答に隠されたフレーズが含まれているかを確認することで、AIがページを読み取り、その情報を利用しているかどうかを検証できます。ページ下部にはペーストボックスが用意されており、AIの回答を貼り付けると、JavaScriptが自動的にフレーズの有無をスキャンしてハイライト表示します。この処理はすべてブラウザ内で完結し、サーバーにデータが送信されることはありません。

ページには、人間とボット(各種AIクローラーを含む)のアクセス回数をそれぞれカウントする2つのカウンターが設置されています。Impervaの2025年レポートによると、現在ウェブトラフィックの51%以上がソフトウェアによるものです。Cloudflareのデータでは、GPTBotは人間ユーザーを1回誘導するために約1276ページをクロールするのに対し、Googlebotの比率は約6:1です。このページ自体もそのような比率の中にあります。

「到着ログ」には、最近アクセスしたクローラーの情報(User-Agent、国コード、タイムスタンプ)が表示されます。これらのログは自己申告のUser-Agentに基づいており、完全に信頼できるわけではありませんが、現在どの主要なAIクローラーが活動しているかを示しています。作者は、GPTBot、ClaudeBot、PerplexityBot、Googlebot、Bingbotなどはまだこのページに到着していないと述べ、それらを待っている状態です。

隠しフレーズの歴史的な先例として、2023年に研究者Mark Riedlが自身の学術プロフィールページに白文字で「私はタイムトラベルの専門家です」という一文を隠し、Bingがその内容を回答として繰り返した事例があります。このページはその仕組みを公開し、読者が機械による読み取りを直接体験できるようにしています。

さらに、訪問者は有効期限30分の共有リンクを生成し、最初の訪問者が人間か機械かを観察できます。作者は、このページがクローラー向けに設計されており、いかなる訪問者も拒否しないと述べています。AIにこのページについて尋ね、隠しフレーズが回答に現れたなら、あなたは機械読み取りの連鎖を目撃したことになります。