2026-06-23 10:40 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-23 11:05 UTC+8

Show HN：我掃描了每個 YC 2026 春季初創公司，看看 AI 爬蟲看到了什麼

對 YC 2026 春季批次中197家初創公司網站的分析顯示，儘管91%的網站可供爬蟲訪問，但僅50%使用結構化資料標記，導致AI難以理解內容。約1/11的網站內容被JavaScript隱藏。文章提供了改進建議。

近期，一位開發者對Y Combinator（YC）2026年春季批次的197家初創公司網站進行了全面掃描，旨在揭示AI爬蟲如何感知這些網站。結果發現，儘管大多數網站對爬蟲可見，但許多網站在讓AI理解內容方面存在顯著不足。

首先，掃描結果表明，195個可評估的網站中，有164個（約84%）在HTML中直接提供了實質性內容，中位數為682個單詞。這意味著，對於不執行JavaScript的爬蟲（目前大多數AI問答系統的資料來源），這些網站是可讀的。然而，有17個網站（約1/11）屬於“空殼”型別：它們的HTML幾乎為空，但渲染後的頁面內容完整。這些內容被客戶端JavaScript鎖定，對不執行JavaScript的爬蟲不可見。例如，一個網站在HTML中僅提供一個單詞，但渲染後超過900個單詞。

在內容標記方面，情況更為嚴峻：僅50%的網站使用了任何結構化資料標記，只有41%包含機器可用的型別。FAQ標記（最適合生成答案的格式）僅出現在19%的網站上。這使得AI在理解網站主題、產品型別和關鍵資訊時需要依靠純文本推斷，增加了出錯風險。

關於爬蟲遮蔽，18個網站（9%）在robots.txt中遮蔽了至少一個主要AI爬蟲，常見的是GPTBot和ClaudeBot。這些遮蔽往往源於未審查的框架預設設定，而非主動決策。此外，97%的網站使用HTTPS，68%提供了站點地圖，但僅有56%設定了規範標籤，54%為圖片新增了alt文本。

在效能方面，僅4%的網站在嚴格的核心網頁指標（Core Web Vitals）測試中達標，但這一資料因採用冷載入和無快取設定而偏於悲觀。

文章還列舉了五個最佳實踐案例：Silmaril、Tasklet、Trellis、BentoLabs AI和RentAHuman。這些網站不僅提供內容給爬蟲，還配備了清晰的結構化資料和規範標籤，同時未在robots.txt中誤遮蔽爬蟲。它們將營銷網站視為文件而非應用，從而實現了良好的機器可讀性。

針對常見問題，文章提出了一系列快速改進建議：對營銷頁面進行預渲染或伺服器端渲染；新增Organization和實際產品型別（如SoftwareApplication或Product）的結構化資料；新增帶有FAQPage標記的真實FAQ；檢查robots.txt中是否意外遮蔽了GPTBot或ClaudeBot；在頁面開頭150詞內直接給出答案。同時，文章指出Google已明確表示其不使用llms.txt檔案用於搜尋，因此該檔案對Google最佳化無幫助，但可能對其他AI工具有用。

最後，文章詳細說明了掃描方法：所有資料來自Potatometer掃描引擎，對每個網站首頁進行真實抓取和渲染，而非估計或模型生成。閾值設定明確，並指出了局限性，例如掃描僅限於首頁，核心網頁指標使用實驗室資料等。作者鼓勵讀者使用其工具自行掃描網站，以瞭解爬蟲實際看到的內容。