2026-06-05 20:10 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

微軟在承諾使用“企業級、乾淨且商業許可數據”後，仍用未經許可的網絡數據訓練MAI模型

微軟聲稱其大型語言模型訓練方法與眾不同，依賴“乾淨且商業許可的數據”，但實際卻使用了Common Crawl等未經許可的網絡數據，與其他AI實驗室一樣依賴合理使用原則，並將阻止其爬蟲的責任推給網站所有者。

來源The Decoder作者: Matthias Bastian

微軟一直將其大型語言模型（LLM）的訓練方法標榜為與其他AI公司不同，聲稱其使用“企業級、乾淨且商業許可的數據”。然而，最新披露的信息顯示，微軟新推出的MAI模型部分基於未授權的網絡數據，如Common Crawl數據集進行訓練。

Common Crawl是一個公開的網絡爬蟲數據集，包含數十億個網頁，但其中許多內容受版權保護。微軟的做法與其他AI實驗室並無本質區別，都依賴於合理使用原則，並將阻止其爬蟲訪問的責任轉嫁給網站所有者。這意味着，如果網站不希望其內容被用於訓練，必須主動在robots.txt文件中屏蔽微軟的爬蟲。

這一發現引發了關於AI訓練數據倫理和透明度的討論。微軟此前暗示其訓練數據來源“乾淨且經過商業許可”，但事實表明，其方法與傳統AI公司如OpenAI、Google等並無二致。批評者認為，微軟的營銷措辭具有誤導性，並呼籲AI公司在訓練數據來源上保持透明。

值得注意的是，這並非微軟首次因數據使用問題受到審視。此前，其GitHub Copilot產品就因使用公共代碼庫訓練而面臨版權訴訟。此次MAI模型的爭議進一步凸顯了AI行業在數據版權和公平使用方面的法律灰色地帶。