客厅里的智能电视:AI数据抓取经济中的节点
本文探讨了Bright Data公司如何通过其住宅代理网络,利用用户家中的智能电视等设备为AI模型抓取训练数据。文章详细分析了SDK的工作原理、合作伙伴、隐私问题,以及为何联网电视成为理想的代理节点。
Bright Data是一家数据收集公司,销售其宣传为全球最大住宅代理网络的访问权限,该网络拥有超过4亿个家庭IP地址。其背后的供应来自一个SDK:嵌入在消费者应用中的软件,在用户同意后,将手机或智能电视变成代理出口节点。本文将揭示普通用户应了解的关于此SDK在设备上运作的真相,包括其工作原理、哪些平台搭载了它,以及为何联网电视是AI模型抓取互联网训练数据的终极代理。
AI公司依赖网页抓取内容进行预训练、检索、代理接地和搜索。但现代网页无法从数据中心轻松抓取,因为Cloudflare、DataDome等会限制或阻止已知云IP的请求。住宅代理成为变通方案:通过康卡斯特或T-Mobile用户的连接进行抓取,目标站点看到的是普通住宅客户的IP。Krebs在2025年10月报道称,来自Aisuru等来源的大量代理正推动与AI项目相关的大规模数据收集。学术界自2019年以来的测量显示,这些网络被严重滥用。FBI今年早些时候发布了正式警告。
现有报道多聚焦于非法住宅代理供应:僵尸网络(Aisuru、Kimwolf)、木马化应用(HUMAN Security的PROXYLIB披露)、受感染的IoT硬件(Google/Mandiant的IPIDEA清除)。这些是恶意行为者。另一方面,合法供应侧受到的审查较少。Bright Data自称是全球最大住宅代理网络,通过嵌入合作伙伴应用的同意SDK获取“超过1.5亿个IP”。本研究记录了该SDK如何运作、哪些平台搭载了它,以及为何联网电视成为终极住宅代理。
智能电视几乎是完美的住宅代理。与手机相比:手机电池有限、网络切换频繁、用户活跃使用;而电视始终插电、连接WiFi、24/7待机、带宽无限、用户经常无人看管。合作伙伴应用如PlayWorks在隐私政策中披露了与Bright Data的关系,但在电视上通过遥控器导航法律文件极为困难。Petflix(Roku应用)的同意屏幕写道:“为免费使用Petflix并减少广告,您允许Bright Data偶尔使用您设备的空闲资源和IP地址下载公共网页数据。”但实际上,SDK配置中设定了每月200GB的默认WiFi带宽预算。
Bright Data公开了一个未经身份验证的合作伙伴清单端点。清单中包括PlayWorks Digital(超过400款电视游戏,覆盖约2.5亿电视家庭)、CloudTV(集成125+电视品牌)、Longvision Media(500万OTT用户)、Viber Media(2.5亿-8.2亿月活用户)、Supercent(韩国第一移动发行商)、Moonfrog Labs(约1000万月活)等。需要注意,清单表明集成可能曾经存在,但需逐应用验证。
SDK作为iOS框架嵌入合作伙伴应用。研究团队逆向工程了二进制文件并捕获了30天的运行时流量。SDK每次启动时调用未认证的配置端点,获取功能标志、空闲检测阈值、带宽限制等。之后,SDK通过WebSocket连接到代理服务器,服务器无需认证即可接受连接。握手后,服务器持续轮询设备状态(空闲、电池、网络等),一旦设备状态符合条件,服务器便推送抓取任务指令。这套协议缺乏消息签名、HMAC或客户端证书,安全性低于典型恶意软件C2。
空闲检测规则值得注意:配置中忽略屏幕亮起和通话状态,这意味着“空闲”并非用户离开设备,而是设备CPU、内存和电池在阈值内。用户正在通话或阅读屏幕时,设备仍被视为空闲,可进行中继。SDK还包含绕过VPN的标记,以及跨平台身份映射功能。
总之,智能电视因其物理特性成为AI数据抓取的理想代理,而Bright Data的SDK通过模糊的同意机制运作,用户可能在不知情下被卷入AI训练数据收集链。