AI News HubLIVE
站内改写2 分鐘閱讀

客廳裏的智能電視:AI數據抓取經濟中的節點

本文探討了Bright Data公司如何通過其住宅代理網絡,利用用户家中的智能電視等設備為AI模型抓取訓練數據。文章詳細分析了SDK的工作原理、合作伙伴、隱私問題,以及為何聯網電視成為理想的代理節點。

來源Hacker News AI作者: themaxdavitt

Bright Data是一家數據收集公司,銷售其宣傳為全球最大住宅代理網絡的訪問權限,該網絡擁有超過4億個家庭IP地址。其背後的供應來自一個SDK:嵌入在消費者應用中的軟件,在用户同意後,將手機或智能電視變成代理出口節點。本文將揭示普通用户應瞭解的關於此SDK在設備上運作的真相,包括其工作原理、哪些平台搭載了它,以及為何聯網電視是AI模型抓取互聯網訓練數據的終極代理。

AI公司依賴網頁抓取內容進行預訓練、檢索、代理接地和搜索。但現代網頁無法從數據中心輕鬆抓取,因為Cloudflare、DataDome等會限制或阻止已知雲IP的請求。住宅代理成為變通方案:通過康卡斯特或T-Mobile用户的連接進行抓取,目標站點看到的是普通住宅客户的IP。Krebs在2025年10月報道稱,來自Aisuru等來源的大量代理正推動與AI項目相關的大規模數據收集。學術界自2019年以來的測量顯示,這些網絡被嚴重濫用。FBI今年早些時候發佈了正式警告。

現有報道多聚焦於非法住宅代理供應:殭屍網絡(Aisuru、Kimwolf)、木馬化應用(HUMAN Security的PROXYLIB披露)、受感染的IoT硬件(Google/Mandiant的IPIDEA清除)。這些是惡意行為者。另一方面,合法供應側受到的審查較少。Bright Data自稱是全球最大住宅代理網絡,通過嵌入合作伙伴應用的同意SDK獲取“超過1.5億個IP”。本研究記錄了該SDK如何運作、哪些平台搭載了它,以及為何聯網電視成為終極住宅代理。

智能電視幾乎是完美的住宅代理。與手機相比:手機電池有限、網絡切換頻繁、用户活躍使用;而電視始終插電、連接WiFi、24/7待機、帶寬無限、用户經常無人看管。合作伙伴應用如PlayWorks在隱私政策中披露了與Bright Data的關係,但在電視上通過遙控器導航法律文件極為困難。Petflix(Roku應用)的同意屏幕寫道:“為免費使用Petflix並減少廣告,您允許Bright Data偶爾使用您設備的空閒資源和IP地址下載公共網頁數據。”但實際上,SDK配置中設定了每月200GB的默認WiFi帶寬預算。

Bright Data公開了一個未經身份驗證的合作伙伴清單端點。清單中包括PlayWorks Digital(超過400款電視遊戲,覆蓋約2.5億電視家庭)、CloudTV(集成125+電視品牌)、Longvision Media(500萬OTT用户)、Viber Media(2.5億-8.2億月活用户)、Supercent(韓國第一移動發行商)、Moonfrog Labs(約1000萬月活)等。需要注意,清單表明集成可能曾經存在,但需逐應用驗證。

SDK作為iOS框架嵌入合作伙伴應用。研究團隊逆向工程了二進制文件並捕獲了30天的運行時流量。SDK每次啓動時調用未認證的配置端點,獲取功能標誌、空閒檢測閾值、帶寬限制等。之後,SDK通過WebSocket連接到代理服務器,服務器無需認證即可接受連接。握手後,服務器持續輪詢設備狀態(空閒、電池、網絡等),一旦設備狀態符合條件,服務器便推送抓取任務指令。這套協議缺乏消息簽名、HMAC或客户端證書,安全性低於典型惡意軟件C2。

空閒檢測規則值得注意:配置中忽略屏幕亮起和通話狀態,這意味着“空閒”並非用户離開設備,而是設備CPU、內存和電池在閾值內。用户正在通話或閲讀屏幕時,設備仍被視為空閒,可進行中繼。SDK還包含繞過VPN的標記,以及跨平台身份映射功能。

總之,智能電視因其物理特性成為AI數據抓取的理想代理,而Bright Data的SDK通過模糊的同意機制運作,用户可能在不知情下被捲入AI訓練數據收集鏈。