2026-06-23 10:40 UTC+8站内改写2 分钟阅读更新: 2026-06-23 11:05 UTC+8

Show HN：我扫描了每个 YC 2026 春季初创公司，看看 AI 爬虫看到了什么

对 YC 2026 春季批次中197家初创公司网站的分析显示，尽管91%的网站可供爬虫访问，但仅50%使用结构化数据标记，导致AI难以理解内容。约1/11的网站内容被JavaScript隐藏。文章提供了改进建议。

近期，一位开发者对Y Combinator（YC）2026年春季批次的197家初创公司网站进行了全面扫描，旨在揭示AI爬虫如何感知这些网站。结果发现，尽管大多数网站对爬虫可见，但许多网站在让AI理解内容方面存在显著不足。

首先，扫描结果表明，195个可评估的网站中，有164个（约84%）在HTML中直接提供了实质性内容，中位数为682个单词。这意味着，对于不执行JavaScript的爬虫（目前大多数AI问答系统的数据来源），这些网站是可读的。然而，有17个网站（约1/11）属于“空壳”类型：它们的HTML几乎为空，但渲染后的页面内容完整。这些内容被客户端JavaScript锁定，对不执行JavaScript的爬虫不可见。例如，一个网站在HTML中仅提供一个单词，但渲染后超过900个单词。

在内容标记方面，情况更为严峻：仅50%的网站使用了任何结构化数据标记，只有41%包含机器可用的类型。FAQ标记（最适合生成答案的格式）仅出现在19%的网站上。这使得AI在理解网站主题、产品类型和关键信息时需要依靠纯文本推断，增加了出错风险。

关于爬虫屏蔽，18个网站（9%）在robots.txt中屏蔽了至少一个主要AI爬虫，常见的是GPTBot和ClaudeBot。这些屏蔽往往源于未审查的框架默认设置，而非主动决策。此外，97%的网站使用HTTPS，68%提供了站点地图，但仅有56%设置了规范标签，54%为图片添加了alt文本。

在性能方面，仅4%的网站在严格的核心网页指标（Core Web Vitals）测试中达标，但这一数据因采用冷加载和无缓存设置而偏于悲观。

文章还列举了五个最佳实践案例：Silmaril、Tasklet、Trellis、BentoLabs AI和RentAHuman。这些网站不仅提供内容给爬虫，还配备了清晰的结构化数据和规范标签，同时未在robots.txt中误屏蔽爬虫。它们将营销网站视为文档而非应用，从而实现了良好的机器可读性。

针对常见问题，文章提出了一系列快速改进建议：对营销页面进行预渲染或服务器端渲染；添加Organization和实际产品类型（如SoftwareApplication或Product）的结构化数据；添加带有FAQPage标记的真实FAQ；检查robots.txt中是否意外屏蔽了GPTBot或ClaudeBot；在页面开头150词内直接给出答案。同时，文章指出Google已明确表示其不使用llms.txt文件用于搜索，因此该文件对Google优化无帮助，但可能对其他AI工具有用。

最后，文章详细说明了扫描方法：所有数据来自Potatometer扫描引擎，对每个网站首页进行真实抓取和渲染，而非估计或模型生成。阈值设定明确，并指出了局限性，例如扫描仅限于首页，核心网页指标使用实验室数据等。作者鼓励读者使用其工具自行扫描网站，以了解爬虫实际看到的内容。