AI爬虫流量已与Googlebot持平
根据对登上Hacker News首页的网站进行的30天流量分析,AI爬虫(如GPTBot、ClaudeBot)与搜索引擎爬虫各占总流量的35%,并列第一。文章详细比较了各类爬虫的行为特征,包括最积极、最礼貌、最执着以及最全面的爬虫排名。
当你的网站登上Hacker News首页后,流量和爬虫情况会如何变化?AI爬虫的访问量是否与Google相当?哪个爬虫最激进?哪个最节俭?
一篇题为“Google just made you a search quality rater. You won't get paid.”的文章登上了Hacker News首页。作者Ajay C利用Claude构建了一个简单的爬虫检测器,记录了30天内所有已知爬虫的访问数据。
结果显示,在240,060次来自24个不同爬虫的访问中,AI爬虫(占35.0%)与搜索引擎爬虫(占35.0%)并列第一。SEO工具占21.2%,社交预览占8.6%,互联网档案馆仅占0.2%。
最积极的爬虫(日均访问量)
- Googlebot: 1228次/天,总计36,840次,访问1,474个独特路径
- Bingbot: 1187次/天,总计35,610次,访问1,785个独特路径
- AmazonBot: 1101次/天,总计33,040次,访问1,442个独特路径
- MajesticBot: 1062次/天,总计31,860次,访问2,026个独特路径
- ChatGPT-User: 812次/天,总计24,350次,访问239个独特路径
- ClaudeBot: 581次/天,总计17,430次,访问647个独特路径
- AhrefsBot: 485次/天,总计14,550次,访问1,279个独特路径
- LinkedInBot: 478次/天,总计14,340次,仅访问15个独特路径
最礼貌的爬虫(每次路径访问次数越低越礼貌)
- AhrefsBot: 11.4次/路径
- Applebot: 11.9次/路径
- MajesticBot: 15.7次/路径
- SemrushBot: 16.2次/路径
- Bingbot: 20.0次/路径
- AmazonBot: 22.9次/路径
- Googlebot: 25.0次/路径
- ClaudeBot: 26.9次/路径
最执着的爬虫(重复访问少量路径)
- LinkedInBot: 956次/路径,总计14,340次,仅15个路径
- FacebookBot: 170.3次/路径,总计6,130次,36个路径
- ChatGPT-User: 101.9次/路径,总计24,350次,239个路径
- Internet Archive: 16.0次/路径,总计480次,30个路径
最全面的探索者
- MajesticBot: 2,026个独特路径
- Bingbot: 1,785个
- Googlebot: 1,474个
- AmazonBot: 1,442个
- AhrefsBot: 1,279个
- ClaudeBot: 647个
- Applebot: 575个
罕见访客
- Internet Archive: 480次,活跃2天
- Baiduspider: 480次,活跃9天
- DuckDuckBot: 470次,活跃11天
- Twitterbot: 160次,活跃4天
- DotBot: 80次,活跃5天
- Pinterestbot: 70次,活跃4天
- Google-Extended (Gemini): 60次,活跃1天
- Screaming Frog: 50次,活跃5天
数据基于mojodojo.io生产数据库的nexus_bot_visits表,通过用户代理子串匹配32种已知爬虫模式。未知或伪造的用户代理被排除。