Show HN:我掃描了每個 YC 2026 春季初創公司,看看 AI 爬蟲看到了什麼
對 YC 2026 春季批次中197家初創公司網站的分析顯示,儘管91%的網站可供爬蟲訪問,但僅50%使用結構化數據標記,導致AI難以理解內容。約1/11的網站內容被JavaScript隱藏。文章提供了改進建議。
近期,一位開發者對Y Combinator(YC)2026年春季批次的197家初創公司網站進行了全面掃描,旨在揭示AI爬蟲如何感知這些網站。結果發現,儘管大多數網站對爬蟲可見,但許多網站在讓AI理解內容方面存在顯著不足。
首先,掃描結果表明,195個可評估的網站中,有164個(約84%)在HTML中直接提供了實質性內容,中位數為682個單詞。這意味着,對於不執行JavaScript的爬蟲(目前大多數AI問答系統的數據來源),這些網站是可讀的。然而,有17個網站(約1/11)屬於“空殼”類型:它們的HTML幾乎為空,但渲染後的頁面內容完整。這些內容被客户端JavaScript鎖定,對不執行JavaScript的爬蟲不可見。例如,一個網站在HTML中僅提供一個單詞,但渲染後超過900個單詞。
在內容標記方面,情況更為嚴峻:僅50%的網站使用了任何結構化數據標記,只有41%包含機器可用的類型。FAQ標記(最適合生成答案的格式)僅出現在19%的網站上。這使得AI在理解網站主題、產品類型和關鍵信息時需要依靠純文本推斷,增加了出錯風險。
關於爬蟲屏蔽,18個網站(9%)在robots.txt中屏蔽了至少一個主要AI爬蟲,常見的是GPTBot和ClaudeBot。這些屏蔽往往源於未審查的框架默認設置,而非主動決策。此外,97%的網站使用HTTPS,68%提供了站點地圖,但僅有56%設置了規範標籤,54%為圖片添加了alt文本。
在性能方面,僅4%的網站在嚴格的核心網頁指標(Core Web Vitals)測試中達標,但這一數據因採用冷加載和無緩存設置而偏於悲觀。
文章還列舉了五個最佳實踐案例:Silmaril、Tasklet、Trellis、BentoLabs AI和RentAHuman。這些網站不僅提供內容給爬蟲,還配備了清晰的結構化數據和規範標籤,同時未在robots.txt中誤屏蔽爬蟲。它們將營銷網站視為文檔而非應用,從而實現了良好的機器可讀性。
針對常見問題,文章提出了一系列快速改進建議:對營銷頁面進行預渲染或服務器端渲染;添加Organization和實際產品類型(如SoftwareApplication或Product)的結構化數據;添加帶有FAQPage標記的真實FAQ;檢查robots.txt中是否意外屏蔽了GPTBot或ClaudeBot;在頁面開頭150詞內直接給出答案。同時,文章指出Google已明確表示其不使用llms.txt文件用於搜索,因此該文件對Google優化無幫助,但可能對其他AI工具有用。
最後,文章詳細説明了掃描方法:所有數據來自Potatometer掃描引擎,對每個網站首頁進行真實抓取和渲染,而非估計或模型生成。閾值設定明確,並指出了局限性,例如掃描僅限於首頁,核心網頁指標使用實驗室數據等。作者鼓勵讀者使用其工具自行掃描網站,以瞭解爬蟲實際看到的內容。