AI News HubLIVE
站內改寫1 分鐘閱讀

《大西洋月刊》建立可搜尋資料庫,揭示用於訓練AI的音樂

《大西洋月刊》記者Alex Reisner發現了四個用於訓練AI模型的音樂資料集,並公開了可搜尋的資料庫。其中兩個資料集規模巨大,分別包含1200萬和900萬首曲目。Google和Stability AI已確認使用了這些資料集。

來源The Verge AI作者: Terrence O’Brien

《大西洋月刊》記者亞歷克斯·賴斯納(Alex Reisner)近日發現了四個用於訓練人工智慧模型的音樂資料集,並建立了一個可搜尋的資料庫,供公眾查詢。其中兩個資料集規模龐大,分別包含1200萬首和900萬首曲目,另外兩個較小的資料集也各自擁有超過10萬首歌曲。據賴斯納介紹,這些資料集已被下載數千次,儘管無法確切知道誰使用了它們,但谷歌和Stability AI已在研究論文中確認使用過這些資料。一些資料集如Free Music Archive,雖然允許個人免費流媒體播放,但商業應用需要獲得授權。

這些資料集在理論上可免費獲取,但將其用作訓練資料並非簡單下載ZIP檔案然後輸入AI模型即可。賴斯納解釋說,其中三個資料集以YouTube或Spotify上的歌曲連結列表形式分發。AI開發者使用自動化工具下載實際音訊,這些工具允許開發者繞過登入、廣告以及可能為創作者創收的機制,從而違反了這些平臺的服務條款。這種實踐引發了關於版權和資料集使用的法律爭議。

資料集中出現的名字包括Lady Gaga、Fred Again..、Radiohead、Aphex Twin、Wu-Tang Clan、布魯斯·斯普林斯汀以及實驗作曲家Hainbach等流行明星。使用者現在可以訪問《大西洋月刊》的AI Watchdog網站,自行搜尋用於訓練全球AI模型的歌曲、書籍和其他媒體。這一資料庫為公眾提供了前所未有的透明度,但同時也引發了對AI訓練資料來源和版權問題的廣泛討論。