2026-06-05 20:10 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

微軟在承諾使用“企業級、乾淨且商業許可資料”後，仍用未經許可的網路資料訓練MAI模型

微軟聲稱其大型語言模型訓練方法與眾不同，依賴“乾淨且商業許可的資料”，但實際卻使用了Common Crawl等未經許可的網路資料，與其他AI實驗室一樣依賴合理使用原則，並將阻止其爬蟲的責任推給網站所有者。

來源The Decoder作者: Matthias Bastian

微軟一直將其大型語言模型（LLM）的訓練方法標榜為與其他AI公司不同，聲稱其使用“企業級、乾淨且商業許可的資料”。然而，最新披露的資訊顯示，微軟新推出的MAI模型部分基於未授權的網路資料，如Common Crawl資料集進行訓練。

Common Crawl是一個公開的網路爬蟲資料集，包含數十億個網頁，但其中許多內容受版權保護。微軟的做法與其他AI實驗室並無本質區別，都依賴於合理使用原則，並將阻止其爬蟲訪問的責任轉嫁給網站所有者。這意味著，如果網站不希望其內容被用於訓練，必須主動在robots.txt檔案中遮蔽微軟的爬蟲。

這一發現引發了關於AI訓練資料倫理和透明度的討論。微軟此前暗示其訓練資料來源“乾淨且經過商業許可”，但事實表明，其方法與傳統AI公司如OpenAI、Google等並無二致。批評者認為，微軟的營銷措辭具有誤導性，並呼籲AI公司在訓練資料來源上保持透明。

值得注意的是，這並非微軟首次因資料使用問題受到審視。此前，其GitHub Copilot產品就因使用公共程式碼庫訓練而面臨版權訴訟。此次MAI模型的爭議進一步凸顯了AI行業在資料版權和公平使用方面的法律灰色地帶。