《大西洋月刊》創建可搜索數據庫,揭示用於訓練AI的音樂
《大西洋月刊》記者Alex Reisner發現了四個用於訓練AI模型的音樂數據集,並公開了可搜索的數據庫。其中兩個數據集規模巨大,分別包含1200萬和900萬首曲目。Google和Stability AI已確認使用了這些數據集。
《大西洋月刊》記者亞歷克斯·賴斯納(Alex Reisner)近日發現了四個用於訓練人工智能模型的音樂數據集,並創建了一個可搜索的數據庫,供公眾查詢。其中兩個數據集規模龐大,分別包含1200萬首和900萬首曲目,另外兩個較小的數據集也各自擁有超過10萬首歌曲。據賴斯納介紹,這些數據集已被下載數千次,儘管無法確切知道誰使用了它們,但谷歌和Stability AI已在研究論文中確認使用過這些數據。一些數據集如Free Music Archive,雖然允許個人免費流媒體播放,但商業應用需要獲得授權。
這些數據集在理論上可免費獲取,但將其用作訓練數據並非簡單下載ZIP文件然後輸入AI模型即可。賴斯納解釋説,其中三個數據集以YouTube或Spotify上的歌曲鏈接列表形式分發。AI開發者使用自動化工具下載實際音頻,這些工具允許開發者繞過登錄、廣告以及可能為創作者創收的機制,從而違反了這些平台的服務條款。這種實踐引發了關於版權和數據集使用的法律爭議。
數據集中出現的名字包括Lady Gaga、Fred Again..、Radiohead、Aphex Twin、Wu-Tang Clan、布魯斯·斯普林斯汀以及實驗作曲家Hainbach等流行明星。用户現在可以訪問《大西洋月刊》的AI Watchdog網站,自行搜索用於訓練全球AI模型的歌曲、書籍和其他媒體。這一數據庫為公眾提供了前所未有的透明度,但同時也引發了對AI訓練數據來源和版權問題的廣泛討論。