Show HN:我扫描了每个 YC 2026 春季初创公司,看看 AI 爬虫看到了什么
对 YC 2026 春季批次中197家初创公司网站的分析显示,尽管91%的网站可供爬虫访问,但仅50%使用结构化数据标记,导致AI难以理解内容。约1/11的网站内容被JavaScript隐藏。文章提供了改进建议。
近期,一位开发者对Y Combinator(YC)2026年春季批次的197家初创公司网站进行了全面扫描,旨在揭示AI爬虫如何感知这些网站。结果发现,尽管大多数网站对爬虫可见,但许多网站在让AI理解内容方面存在显著不足。
首先,扫描结果表明,195个可评估的网站中,有164个(约84%)在HTML中直接提供了实质性内容,中位数为682个单词。这意味着,对于不执行JavaScript的爬虫(目前大多数AI问答系统的数据来源),这些网站是可读的。然而,有17个网站(约1/11)属于“空壳”类型:它们的HTML几乎为空,但渲染后的页面内容完整。这些内容被客户端JavaScript锁定,对不执行JavaScript的爬虫不可见。例如,一个网站在HTML中仅提供一个单词,但渲染后超过900个单词。
在内容标记方面,情况更为严峻:仅50%的网站使用了任何结构化数据标记,只有41%包含机器可用的类型。FAQ标记(最适合生成答案的格式)仅出现在19%的网站上。这使得AI在理解网站主题、产品类型和关键信息时需要依靠纯文本推断,增加了出错风险。
关于爬虫屏蔽,18个网站(9%)在robots.txt中屏蔽了至少一个主要AI爬虫,常见的是GPTBot和ClaudeBot。这些屏蔽往往源于未审查的框架默认设置,而非主动决策。此外,97%的网站使用HTTPS,68%提供了站点地图,但仅有56%设置了规范标签,54%为图片添加了alt文本。
在性能方面,仅4%的网站在严格的核心网页指标(Core Web Vitals)测试中达标,但这一数据因采用冷加载和无缓存设置而偏于悲观。
文章还列举了五个最佳实践案例:Silmaril、Tasklet、Trellis、BentoLabs AI和RentAHuman。这些网站不仅提供内容给爬虫,还配备了清晰的结构化数据和规范标签,同时未在robots.txt中误屏蔽爬虫。它们将营销网站视为文档而非应用,从而实现了良好的机器可读性。
针对常见问题,文章提出了一系列快速改进建议:对营销页面进行预渲染或服务器端渲染;添加Organization和实际产品类型(如SoftwareApplication或Product)的结构化数据;添加带有FAQPage标记的真实FAQ;检查robots.txt中是否意外屏蔽了GPTBot或ClaudeBot;在页面开头150词内直接给出答案。同时,文章指出Google已明确表示其不使用llms.txt文件用于搜索,因此该文件对Google优化无帮助,但可能对其他AI工具有用。
最后,文章详细说明了扫描方法:所有数据来自Potatometer扫描引擎,对每个网站首页进行真实抓取和渲染,而非估计或模型生成。阈值设定明确,并指出了局限性,例如扫描仅限于首页,核心网页指标使用实验室数据等。作者鼓励读者使用其工具自行扫描网站,以了解爬虫实际看到的内容。