AI News HubLIVE
站内改写3 分で読了

リビングのスマートTVはAIデータスクレイピング経済のノード

Bright Data社が住宅用プロキシネットワークを通じて、スマートTVなどの家庭内デバイスをAIトレーニングデータのスクレイピングに利用している実態を解説。SDKの仕組み、パートナー企業、同意の問題、コネクテッドTVが理想的なプロキシとなる理由を詳述。

ソースHacker News AI著者: themaxdavitt

Bright Dataは、世界最大の住宅用プロキシネットワーク(4億以上の家庭用IPアドレス)へのアクセスを販売するデータ収集企業です。そのネットワークの供給源はSDKです。消費者向けアプリに埋め込まれたソフトウェアで、ユーザーの同意を得てスマートフォンやスマートTVをプロキシ出口ノードに変えます。本稿では、このSDKがどのように動作し、どのプラットフォームに出荷され、なぜコネクテッドTVがインターネットからデータをスクレイピングするAIモデルにとって究極のプロキシとなるのかを探ります。

AI企業はウェブスクレイピングコンテンツに依存しています。プレトレーニング、検索、エージェントグラウンディング、検索などに使われます。しかし、現代のウェブはデータセンターから簡単にスクレイピングできません。CloudflareやDataDomeなどが既知のクラウドIPを制限またはブロックするためです。回避策は住宅用プロキシです。ComcastやT-Mobileの加入者の接続経由でスクレイピングすれば、ターゲットサイトは一般住宅のIPとして認識します。2025年10月、Krebsは「AisuruなどのソースからのプロキシがAIプロジェクトに関連する大規模データ収集を促進している」と報告しました。学術的な測定でも、これらのネットワークが悪用されていることが示されています。FBIも今年初めに正式な警告を発しました。

既存の報道の多くは違法な住宅用プロキシ供給(ボットネット、トロイの木馬化アプリ、感染IoTハードウェア)に焦点を当てています。これらは悪意ある行為者です。一方、合法的な供給側はほとんど精査されていません。Bright Dataは現在、世界最大の住宅用プロキシネットワークであり、パートナーアプリに埋め込まれた同意SDK経由で「1.5億以上のIP」を調達しています。本調査では、SDKの動作、出荷プラットフォーム、コネクテッドTVが究極のプロキシとなる理由を文書化します。

コネクテッドTV(スマートTV)はほぼ完璧な住宅用プロキシです。スマートフォンと比較すると:スマホはバッテリー駆動、ネットワークが変動、ユーザーが積極的に使用するのに対し、TVは常時電源ON、WiFi接続、24時間スタンバイ、帯域幅無制限、ユーザーが無人のことが多い。パートナーアプリのPlayWorksはプライバシーポリシーでBright Dataとの関係を開示していますが、リモコンの矢印キーで法律文書をスクロールするのは困難です。Petflix(Rokuアプリ)の同意画面は「Petflixを無料で広告少なめで利用するために、Bright Dataが時々デバイスの空きリソースとIPアドレスを使用してウェブデータをダウンロードすることを許可します」と表示します。しかしSDKの設定では、月間WiFi帯域幅のデフォルト上限が200GBに設定されています。

Bright Dataは認証なしのパートナー一覧エンドポイントを公開しています。リストにはPlayWorks Digital(400以上のTVゲーム、約2.5億TV世帯)、CloudTV(125以上のTVブランド統合)、Longvision Media(500万OTTユーザー)、Viber Media(2.5億〜8.2億月間ユーザー)、Supercent(韓国No.1モバイルパブリッシャー)、Moonfrog Labs(1000万MAU)などが含まれます。このリストは統合が存在した可能性を示すものであり、現在のアプリにSDKが含まれていることを証明するものではありません。

SDKはiOSフレームワークとしてパートナーアプリに出荷されます。研究ではバイナリをリバースエンジニアリングし、30日間のランタイムトラフィックをキャプチャしました。SDKは起動時に認証なしの設定エンドポイントにアクセスし、機能フラグ、アイドル検出しきい値、帯域幅制限を取得します。その後、WebSocketを介してプロキシサーバーに接続します。サーバーは認証なしで接続を受け入れ、ハンドシェイク後にデバイス状態(アイドル、バッテリー、ネットワークなど)を継続的にポーリングします。条件が整えば、スクレイピングジョブの指示をプッシュします。このプロトコルにはメッセージ署名やクライアント証明書がなく、典型的なマルウェアC2よりもセキュリティが低いです。

アイドル検出ルールは注目に値します。設定では「ignore_screen_on」や「ignore_on_call」がtrueになっており、「アイドル」はユーザーがデバイスから離れていることを意味しません。ユーザーが電話中または画面を見ていても、CPU、メモリ、バッテリーがしきい値内にあれば中継可能とみなされます。SDKはVPNをバイパスするフラグや、複数プラットフォームのインストールを1つのIDにマッピングする機能も備えています。

要約すると、コネクテッドTVはその物理的特性からAIデータスクレイピングに最適なプロキシであり、Bright DataのSDKは曖昧な同意メカニズムを通じて動作し、ユーザーは知らぬ間にAIトレーニングデータ収集に加担している可能性があります。