Show HN:我掃描了每個 YC 2026 春季初創公司,看看 AI 爬蟲看到了什麼
對 YC 2026 春季批次中197家初創公司網站的分析顯示,儘管91%的網站可供爬蟲訪問,但僅50%使用結構化資料標記,導致AI難以理解內容。約1/11的網站內容被JavaScript隱藏。文章提供了改進建議。
近期,一位開發者對Y Combinator(YC)2026年春季批次的197家初創公司網站進行了全面掃描,旨在揭示AI爬蟲如何感知這些網站。結果發現,儘管大多數網站對爬蟲可見,但許多網站在讓AI理解內容方面存在顯著不足。
首先,掃描結果表明,195個可評估的網站中,有164個(約84%)在HTML中直接提供了實質性內容,中位數為682個單詞。這意味著,對於不執行JavaScript的爬蟲(目前大多數AI問答系統的資料來源),這些網站是可讀的。然而,有17個網站(約1/11)屬於“空殼”型別:它們的HTML幾乎為空,但渲染後的頁面內容完整。這些內容被客戶端JavaScript鎖定,對不執行JavaScript的爬蟲不可見。例如,一個網站在HTML中僅提供一個單詞,但渲染後超過900個單詞。
在內容標記方面,情況更為嚴峻:僅50%的網站使用了任何結構化資料標記,只有41%包含機器可用的型別。FAQ標記(最適合生成答案的格式)僅出現在19%的網站上。這使得AI在理解網站主題、產品型別和關鍵資訊時需要依靠純文本推斷,增加了出錯風險。
關於爬蟲遮蔽,18個網站(9%)在robots.txt中遮蔽了至少一個主要AI爬蟲,常見的是GPTBot和ClaudeBot。這些遮蔽往往源於未審查的框架預設設定,而非主動決策。此外,97%的網站使用HTTPS,68%提供了站點地圖,但僅有56%設定了規範標籤,54%為圖片新增了alt文本。
在效能方面,僅4%的網站在嚴格的核心網頁指標(Core Web Vitals)測試中達標,但這一資料因採用冷載入和無快取設定而偏於悲觀。
文章還列舉了五個最佳實踐案例:Silmaril、Tasklet、Trellis、BentoLabs AI和RentAHuman。這些網站不僅提供內容給爬蟲,還配備了清晰的結構化資料和規範標籤,同時未在robots.txt中誤遮蔽爬蟲。它們將營銷網站視為文件而非應用,從而實現了良好的機器可讀性。
針對常見問題,文章提出了一系列快速改進建議:對營銷頁面進行預渲染或伺服器端渲染;新增Organization和實際產品型別(如SoftwareApplication或Product)的結構化資料;新增帶有FAQPage標記的真實FAQ;檢查robots.txt中是否意外遮蔽了GPTBot或ClaudeBot;在頁面開頭150詞內直接給出答案。同時,文章指出Google已明確表示其不使用llms.txt檔案用於搜尋,因此該檔案對Google最佳化無幫助,但可能對其他AI工具有用。
最後,文章詳細說明了掃描方法:所有資料來自Potatometer掃描引擎,對每個網站首頁進行真實抓取和渲染,而非估計或模型生成。閾值設定明確,並指出了局限性,例如掃描僅限於首頁,核心網頁指標使用實驗室資料等。作者鼓勵讀者使用其工具自行掃描網站,以瞭解爬蟲實際看到的內容。