微軟在承諾使用“企業級、乾淨且商業許可資料”後,仍用未經許可的網路資料訓練MAI模型
微軟聲稱其大型語言模型訓練方法與眾不同,依賴“乾淨且商業許可的資料”,但實際卻使用了Common Crawl等未經許可的網路資料,與其他AI實驗室一樣依賴合理使用原則,並將阻止其爬蟲的責任推給網站所有者。
微軟一直將其大型語言模型(LLM)的訓練方法標榜為與其他AI公司不同,聲稱其使用“企業級、乾淨且商業許可的資料”。然而,最新披露的資訊顯示,微軟新推出的MAI模型部分基於未授權的網路資料,如Common Crawl資料集進行訓練。
Common Crawl是一個公開的網路爬蟲資料集,包含數十億個網頁,但其中許多內容受版權保護。微軟的做法與其他AI實驗室並無本質區別,都依賴於合理使用原則,並將阻止其爬蟲訪問的責任轉嫁給網站所有者。這意味著,如果網站不希望其內容被用於訓練,必須主動在robots.txt檔案中遮蔽微軟的爬蟲。
這一發現引發了關於AI訓練資料倫理和透明度的討論。微軟此前暗示其訓練資料來源“乾淨且經過商業許可”,但事實表明,其方法與傳統AI公司如OpenAI、Google等並無二致。批評者認為,微軟的營銷措辭具有誤導性,並呼籲AI公司在訓練資料來源上保持透明。
值得注意的是,這並非微軟首次因資料使用問題受到審視。此前,其GitHub Copilot產品就因使用公共程式碼庫訓練而面臨版權訴訟。此次MAI模型的爭議進一步凸顯了AI行業在資料版權和公平使用方面的法律灰色地帶。