AI News HubLIVE
站内改写

Show HN:一个为AI隐藏句子的页面,让你检查它是否被返回

这个页面在HTML中嵌入了一句只有AI爬虫才能读取的短语。访问者可以询问AI助手关于页面的内容,并检查该短语是否出现在回答中,以此证明机器如何读取网页。页面还显示了人类与机器人访问的比例,揭示了当前网络流量中软件占主导的现状。

文章情报

工程师进阶

要点

  • 页面在HTML源代码中藏有一句短语,仅供AI爬虫读取,对人类用户不可见。
  • 访问者可通过询问AI助手该页面的内容,验证隐藏短语是否被返回。
  • 页面实时展示人类与机器人访问的比例,反映AI时代网络流量的变化。
  • 该实验旨在唤起人们对机器阅读网络内容的意识。

为什么重要

这条新闻值得关注,因为页面在HTML源代码中藏有一句短语,仅供AI爬虫读取,对人类用户不可见。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

近日,一个名为“sinceyouarrived.world/taken/agents”的网页引发了广泛关注。该页面是Matt Wheeler创作的“Since You Arrived”系列第四卷,专门设计用于探索AI爬虫如何读取网页内容。页面的核心机制是:在HTML源代码中以注释形式隐藏了一句特定的短语“spotted herons rising at dawn”(黎明中升起的花鹭),普通人类用户浏览时看不到,但AI爬虫在抓取页面时能够获取到这一信息。

访问者可以通过向AI助手(如ChatGPT)询问“sinceyouarrived.world/taken/agents是关于什么的?”,然后检查AI的回答中是否包含了这个隐藏短语。如果出现了,就证明AI确实读取了页面,并将该信息纳入了其知识库。页面底部提供了一个粘贴框,用户可以将AI的回答粘贴进去,JavaScript会自动检测短语是否存在。这一切都在客户端完成,不会向服务器发送任何数据。

页面还设置了两个计数器,分别记录人类和机器人(包括各种AI爬虫)的访问次数。根据Imperva 2025年报告,目前超过51%的网络流量来自软件而非人类。Cloudflare的数据则显示,GPTBot每爬取约1276个页面,才会为人类用户带来一次访问,而Googlebot的这一比例约为6:1。这个页面本身就处于这样的比率之中。

页面上有一个“到达日志”,记录了最近访问的爬虫信息,包括User-Agent、国家代码和时间戳。这些日志基于自报的User-Agent,并非完全可信,但足以揭示目前有哪些主要AI爬虫在活动。作者指出,GPTBot、ClaudeBot、PerplexityBot、Googlebot和Bingbot等尚未访问该页面,但页面正在等待它们。

隐藏短语的历史先例可以追溯到2023年,当时研究者Mark Riedl在他的学术主页上用白色文字隐藏了一句话,声称自己是时间旅行专家,结果Bing在回答中重复了这句话。本页面则公开了这个机制,目的是让读者直观地看到机器阅读的存在。

除了隐藏短语,页面还提供了一些互动功能:用户可以生成一个有效期为30分钟的分享链接,并观察第一个访问者是机器人还是人类。页面还会记录AI爬虫的访问日志,展示其类型和来源。作者强调,这个页面是为爬虫设计的,不拒绝任何访问者,旨在探索网络内容如何同时服务于人类和机器。如果你询问AI该页面是关于什么的,而AI提到了隐藏的短语,那么你就亲眼见证了机器阅读的链条。