2026-06-23 10:40 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-23 11:05 UTC+8

Show HN：我掃描了每個 YC 2026 春季初創公司，看看 AI 爬蟲看到了什麼

對 YC 2026 春季批次中197家初創公司網站的分析顯示，儘管91%的網站可供爬蟲訪問，但僅50%使用結構化數據標記，導致AI難以理解內容。約1/11的網站內容被JavaScript隱藏。文章提供了改進建議。

近期，一位開發者對Y Combinator（YC）2026年春季批次的197家初創公司網站進行了全面掃描，旨在揭示AI爬蟲如何感知這些網站。結果發現，儘管大多數網站對爬蟲可見，但許多網站在讓AI理解內容方面存在顯著不足。

首先，掃描結果表明，195個可評估的網站中，有164個（約84%）在HTML中直接提供了實質性內容，中位數為682個單詞。這意味着，對於不執行JavaScript的爬蟲（目前大多數AI問答系統的數據來源），這些網站是可讀的。然而，有17個網站（約1/11）屬於“空殼”類型：它們的HTML幾乎為空，但渲染後的頁面內容完整。這些內容被客户端JavaScript鎖定，對不執行JavaScript的爬蟲不可見。例如，一個網站在HTML中僅提供一個單詞，但渲染後超過900個單詞。

在內容標記方面，情況更為嚴峻：僅50%的網站使用了任何結構化數據標記，只有41%包含機器可用的類型。FAQ標記（最適合生成答案的格式）僅出現在19%的網站上。這使得AI在理解網站主題、產品類型和關鍵信息時需要依靠純文本推斷，增加了出錯風險。

關於爬蟲屏蔽，18個網站（9%）在robots.txt中屏蔽了至少一個主要AI爬蟲，常見的是GPTBot和ClaudeBot。這些屏蔽往往源於未審查的框架默認設置，而非主動決策。此外，97%的網站使用HTTPS，68%提供了站點地圖，但僅有56%設置了規範標籤，54%為圖片添加了alt文本。

在性能方面，僅4%的網站在嚴格的核心網頁指標（Core Web Vitals）測試中達標，但這一數據因採用冷加載和無緩存設置而偏於悲觀。

文章還列舉了五個最佳實踐案例：Silmaril、Tasklet、Trellis、BentoLabs AI和RentAHuman。這些網站不僅提供內容給爬蟲，還配備了清晰的結構化數據和規範標籤，同時未在robots.txt中誤屏蔽爬蟲。它們將營銷網站視為文檔而非應用，從而實現了良好的機器可讀性。

針對常見問題，文章提出了一系列快速改進建議：對營銷頁面進行預渲染或服務器端渲染；添加Organization和實際產品類型（如SoftwareApplication或Product）的結構化數據；添加帶有FAQPage標記的真實FAQ；檢查robots.txt中是否意外屏蔽了GPTBot或ClaudeBot；在頁面開頭150詞內直接給出答案。同時，文章指出Google已明確表示其不使用llms.txt文件用於搜索，因此該文件對Google優化無幫助，但可能對其他AI工具有用。

最後，文章詳細説明了掃描方法：所有數據來自Potatometer掃描引擎，對每個網站首頁進行真實抓取和渲染，而非估計或模型生成。閾值設定明確，並指出了局限性，例如掃描僅限於首頁，核心網頁指標使用實驗室數據等。作者鼓勵讀者使用其工具自行掃描網站，以瞭解爬蟲實際看到的內容。