AI News HubLIVE
站内改写2 分鐘閱讀

客廳裡的智慧電視:AI資料抓取經濟中的節點

本文探討了Bright Data公司如何透過其住宅代理網路,利用使用者家中的智慧電視等裝置為AI模型抓取訓練資料。文章詳細分析了SDK的工作原理、合作伙伴、隱私問題,以及為何聯網電視成為理想的代理節點。

來源Hacker News AI作者: themaxdavitt

Bright Data是一家資料收集公司,銷售其宣傳為全球最大住宅代理網路的訪問許可權,該網路擁有超過4億個家庭IP地址。其背後的供應來自一個SDK:嵌入在消費者應用中的軟體,在使用者同意後,將手機或智慧電視變成代理出口節點。本文將揭示普通使用者應瞭解的關於此SDK在裝置上運作的真相,包括其工作原理、哪些平臺搭載了它,以及為何聯網電視是AI模型抓取網際網路訓練資料的終極代理。

AI公司依賴網頁抓取內容進行預訓練、檢索、代理接地和搜尋。但現代網頁無法從資料中心輕鬆抓取,因為Cloudflare、DataDome等會限制或阻止已知雲IP的請求。住宅代理成為變通方案:透過康卡斯特或T-Mobile使用者的連線進行抓取,目標站點看到的是普通住宅客戶的IP。Krebs在2025年10月報道稱,來自Aisuru等來源的大量代理正推動與AI專案相關的大規模資料收集。學術界自2019年以來的測量顯示,這些網路被嚴重濫用。FBI今年早些時候釋出了正式警告。

現有報道多聚焦於非法住宅代理供應:殭屍網路(Aisuru、Kimwolf)、木馬化應用(HUMAN Security的PROXYLIB披露)、受感染的IoT硬體(Google/Mandiant的IPIDEA清除)。這些是惡意行為者。另一方面,合法供應側受到的審查較少。Bright Data自稱是全球最大住宅代理網路,透過嵌入合作伙伴應用的同意SDK獲取“超過1.5億個IP”。本研究記錄了該SDK如何運作、哪些平臺搭載了它,以及為何聯網電視成為終極住宅代理。

智慧電視幾乎是完美的住宅代理。與手機相比:手機電池有限、網路切換頻繁、使用者活躍使用;而電視始終插電、連線WiFi、24/7待機、頻寬無限、使用者經常無人看管。合作伙伴應用如PlayWorks在隱私政策中披露了與Bright Data的關係,但在電視上透過遙控器導航法律檔案極為困難。Petflix(Roku應用)的同意螢幕寫道:“為免費使用Petflix並減少廣告,您允許Bright Data偶爾使用您裝置的空閒資源和IP地址下載公共網頁資料。”但實際上,SDK配置中設定了每月200GB的預設WiFi頻寬預算。

Bright Data公開了一個未經身份驗證的合作伙伴清單端點。清單中包括PlayWorks Digital(超過400款電視遊戲,覆蓋約2.5億電視家庭)、CloudTV(整合125+電視品牌)、Longvision Media(500萬OTT使用者)、Viber Media(2.5億-8.2億月活使用者)、Supercent(韓國第一移動發行商)、Moonfrog Labs(約1000萬月活)等。需要注意,清單表明整合可能曾經存在,但需逐應用驗證。

SDK作為iOS框架嵌入合作伙伴應用。研究團隊逆向工程了二進位制檔案並捕獲了30天的執行時流量。SDK每次啟動時呼叫未認證的配置端點,獲取功能標誌、空閒檢測閾值、頻寬限制等。之後,SDK透過WebSocket連線到代理伺服器,伺服器無需認證即可接受連線。握手後,伺服器持續輪詢裝置狀態(空閒、電池、網路等),一旦裝置狀態符合條件,伺服器便推送抓取任務指令。這套協議缺乏訊息簽名、HMAC或客戶端證書,安全性低於典型惡意軟體C2。

空閒檢測規則值得注意:配置中忽略螢幕亮起和通話狀態,這意味著“空閒”並非使用者離開裝置,而是裝置CPU、記憶體和電池在閾值內。使用者正在通話或閱讀螢幕時,裝置仍被視為空閒,可進行中繼。SDK還包含繞過VPN的標記,以及跨平臺身份對映功能。

總之,智慧電視因其物理特性成為AI資料抓取的理想代理,而Bright Data的SDK透過模糊的同意機制運作,使用者可能在不知情下被捲入AI訓練資料收集鏈。