Show HN:YC Spring 2026 の全スタートアップをAIクローラーの視点でスキャンしました
YC 2026年春バッチの197社のウェブサイト分析により、91%がクロール可能である一方、構造化データを使用しているのはわずか50%であり、AIの理解を妨げていることが判明。約11社に1社がJavaScriptでコンテンツを隠している。改善点を提供。
最近、ある開発者がY Combinator(YC)2026年春バッチの197社のスタートアップウェブサイトを徹底的にスキャンし、AIクローラーがどのようにそれらを認識しているかを調査しました。その結果、ほとんどのサイトがクローラーにアクセス可能であるものの、AIがコンテンツを理解する上で重大な欠陥があることが明らかになりました。
スキャンの結果、評価可能だった195サイトのうち164サイト(約84%)がHTML内で直接実質的なコンテンツを提供しており、中央値で682語でした。これは、JavaScriptを実行しないクローラー(現在のAI回答システムの大半がデータソースとして利用)にとって、これらのサイトが読み取り可能であることを意味します。しかし、17サイト(約11社に1社)は「空シェル」であり、HTMLはほぼ空ですが、レンダリング後のページは完全なコンテンツを持っています。これらのコンテンツはクライアントサイドJavaScriptの背後にロックされており、JavaScriptを実行しないクローラーには見えません。例えば、あるサイトはクローラーに1語だけを提供する一方、レンダリング後は900語以上になります。
コンテンツのマーキングに関しては、状況はさらに深刻です:構造化データマークアップを使用しているのはわずか50%、機械が利用可能なタイプを持つのは41%に過ぎません。FAQマークアップ(回答生成に最も適した形式)はわずか19%のサイトでしか見られませんでした。これにより、AIはサイトのテーマ、製品タイプ、重要な情報を理解する際にプレーンテキストからの推測に頼らざるを得ず、エラーのリスクが高まります。
クローラーのブロックに関しては、18サイト(9%)がrobots.txtで少なくとも1つの主要なAIクローラー(主にGPTBotとClaudeBot)をブロックしていました。これらのブロックは多くの場合、意図的な判断ではなく、未レビューのフレームワークやテンプレートのデフォルト設定であるようです。さらに、97%がHTTPSを使用し、68%がサイトマップを提供していますが、正規タグを設定しているのは56%、画像にaltテキストを追加しているのは54%に留まりました。
パフォーマンス面では、厳格なCore Web Vitalsのテストに合格したのはわずか4%でしたが、この数値はコールドロードとキャッシュなしの設定で測定されたため、現実のユーザー体験よりも悲観的です。
この記事では、5つのベストプラクティス事例(Silmaril、Tasklet、Trellis、BentoLabs AI、RentAHuman)を紹介しています。これらのサイトは、クローラーにコンテンツを提供するだけでなく、明確な構造化データと正規タグを備え、robots.txtでの誤ったブロックもありません。彼らはマーケティングサイトをアプリではなくドキュメントとして扱うことで、優れた機械可読性を実現しています。
一般的な問題に対する迅速な改善策として、記事では以下を提案しています:マーケティングページをプリレンダリングまたはサーバーサイドレンダリングする;Organizationと実際の製品タイプ(SoftwareApplicationやProductなど)のスキーマを追加する;FAQPageマークアップを含む本物のFAQを追加する;robots.txtでGPTBotやClaudeBotの誤ったブロックを確認する;ページの最初の150語以内に実際の回答を配置する。また、Googleはllms.txtファイルを検索に使用しないと明言しているため、Google最適化には効果がなく、他のAIツールには有用かもしれませんが、優先すべきではないと述べています。
最後に、スキャン方法の詳細が説明されています:すべてのデータはPotatometerスキャンエンジンを使用し、各サイトのホームページを実際に取得・レンダリングして得られたもので、推定やモデル生成ではありません。閾値は明確に設定され、Core Web Vitalsはラボデータであるなどの限界も指摘されています。著者は読者自身のサイトをスキャンして、クローラーが実際に何を見ているかを確認することを推奨しています。