微軟在承諾使用“企業級、乾淨且商業許可數據”後,仍用未經許可的網絡數據訓練MAI模型
微軟聲稱其大型語言模型訓練方法與眾不同,依賴“乾淨且商業許可的數據”,但實際卻使用了Common Crawl等未經許可的網絡數據,與其他AI實驗室一樣依賴合理使用原則,並將阻止其爬蟲的責任推給網站所有者。
微軟一直將其大型語言模型(LLM)的訓練方法標榜為與其他AI公司不同,聲稱其使用“企業級、乾淨且商業許可的數據”。然而,最新披露的信息顯示,微軟新推出的MAI模型部分基於未授權的網絡數據,如Common Crawl數據集進行訓練。
Common Crawl是一個公開的網絡爬蟲數據集,包含數十億個網頁,但其中許多內容受版權保護。微軟的做法與其他AI實驗室並無本質區別,都依賴於合理使用原則,並將阻止其爬蟲訪問的責任轉嫁給網站所有者。這意味着,如果網站不希望其內容被用於訓練,必須主動在robots.txt文件中屏蔽微軟的爬蟲。
這一發現引發了關於AI訓練數據倫理和透明度的討論。微軟此前暗示其訓練數據來源“乾淨且經過商業許可”,但事實表明,其方法與傳統AI公司如OpenAI、Google等並無二致。批評者認為,微軟的營銷措辭具有誤導性,並呼籲AI公司在訓練數據來源上保持透明。
值得注意的是,這並非微軟首次因數據使用問題受到審視。此前,其GitHub Copilot產品就因使用公共代碼庫訓練而面臨版權訴訟。此次MAI模型的爭議進一步凸顯了AI行業在數據版權和公平使用方面的法律灰色地帶。