《大西洋月刊》创建可搜索数据库,揭示用于训练AI的音乐
《大西洋月刊》记者Alex Reisner发现了四个用于训练AI模型的音乐数据集,并公开了可搜索的数据库。其中两个数据集规模巨大,分别包含1200万和900万首曲目。Google和Stability AI已确认使用了这些数据集。
《大西洋月刊》记者亚历克斯·赖斯纳(Alex Reisner)近日发现了四个用于训练人工智能模型的音乐数据集,并创建了一个可搜索的数据库,供公众查询。其中两个数据集规模庞大,分别包含1200万首和900万首曲目,另外两个较小的数据集也各自拥有超过10万首歌曲。据赖斯纳介绍,这些数据集已被下载数千次,尽管无法确切知道谁使用了它们,但谷歌和Stability AI已在研究论文中确认使用过这些数据。一些数据集如Free Music Archive,虽然允许个人免费流媒体播放,但商业应用需要获得授权。
这些数据集在理论上可免费获取,但将其用作训练数据并非简单下载ZIP文件然后输入AI模型即可。赖斯纳解释说,其中三个数据集以YouTube或Spotify上的歌曲链接列表形式分发。AI开发者使用自动化工具下载实际音频,这些工具允许开发者绕过登录、广告以及可能为创作者创收的机制,从而违反了这些平台的服务条款。这种实践引发了关于版权和数据集使用的法律争议。
数据集中出现的名字包括Lady Gaga、Fred Again..、Radiohead、Aphex Twin、Wu-Tang Clan、布鲁斯·斯普林斯汀以及实验作曲家Hainbach等流行明星。用户现在可以访问《大西洋月刊》的AI Watchdog网站,自行搜索用于训练全球AI模型的歌曲、书籍和其他媒体。这一数据库为公众提供了前所未有的透明度,但同时也引发了对AI训练数据来源和版权问题的广泛讨论。