Show HN:一個為AI隱藏句子的頁面,讓你檢查它是否被返回
這個頁面在HTML中嵌入了一句只有AI爬蟲才能讀取的短語。訪問者可以詢問AI助手關於頁面的內容,並檢查該短語是否出現在回答中,以此證明機器如何讀取網頁。頁面還顯示了人類與機器人訪問的比例,揭示了當前網絡流量中軟件佔主導的現狀。
文章情報
要點
- 頁面在HTML源代碼中藏有一句短語,僅供AI爬蟲讀取,對人類用户不可見。
- 訪問者可通過詢問AI助手該頁面的內容,驗證隱藏短語是否被返回。
- 頁面實時展示人類與機器人訪問的比例,反映AI時代網絡流量的變化。
- 該實驗旨在喚起人們對機器閲讀網絡內容的意識。
為甚麼重要
這條新聞值得關注,因為頁面在HTML源代碼中藏有一句短語,僅供AI爬蟲讀取,對人類用户不可見。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
近日,一個名為“sinceyouarrived.world/taken/agents”的網頁引發了廣泛關注。該頁面是Matt Wheeler創作的“Since You Arrived”系列第四卷,專門設計用於探索AI爬蟲如何讀取網頁內容。頁面的核心機制是:在HTML源代碼中以註釋形式隱藏了一句特定的短語“spotted herons rising at dawn”(黎明中升起的花鷺),普通人類用户瀏覽時看不到,但AI爬蟲在抓取頁面時能夠獲取到這一信息。
訪問者可以通過向AI助手(如ChatGPT)詢問“sinceyouarrived.world/taken/agents是關於什麼的?”,然後檢查AI的回答中是否包含了這個隱藏短語。如果出現了,就證明AI確實讀取了頁面,並將該信息納入了其知識庫。頁面底部提供了一個粘貼框,用户可以將AI的回答粘貼進去,JavaScript會自動檢測短語是否存在。這一切都在客户端完成,不會向服務器發送任何數據。
頁面還設置了兩個計數器,分別記錄人類和機器人(包括各種AI爬蟲)的訪問次數。根據Imperva 2025年報告,目前超過51%的網絡流量來自軟件而非人類。Cloudflare的數據則顯示,GPTBot每爬取約1276個頁面,才會為人類用户帶來一次訪問,而Googlebot的這一比例約為6:1。這個頁面本身就處於這樣的比率之中。
頁面上有一個“到達日誌”,記錄了最近訪問的爬蟲信息,包括User-Agent、國家代碼和時間戳。這些日誌基於自報的User-Agent,並非完全可信,但足以揭示目前有哪些主要AI爬蟲在活動。作者指出,GPTBot、ClaudeBot、PerplexityBot、Googlebot和Bingbot等尚未訪問該頁面,但頁面正在等待它們。
隱藏短語的歷史先例可以追溯到2023年,當時研究者Mark Riedl在他的學術主頁上用白色文字隱藏了一句話,聲稱自己是時間旅行專家,結果Bing在回答中重複了這句話。本頁面則公開了這個機制,目的是讓讀者直觀地看到機器閲讀的存在。
除了隱藏短語,頁面還提供了一些互動功能:用户可以生成一個有效期為30分鐘的分享鏈接,並觀察第一個訪問者是機器人還是人類。頁面還會記錄AI爬蟲的訪問日誌,展示其類型和來源。作者強調,這個頁面是為爬蟲設計的,不拒絕任何訪問者,旨在探索網絡內容如何同時服務於人類和機器。如果你詢問AI該頁面是關於什麼的,而AI提到了隱藏的短語,那麼你就親眼見證了機器閲讀的鏈條。