2026-06-05 20:10 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

微软在承诺使用“企业级、干净且商业许可数据”后，仍用未经许可的网络数据训练MAI模型

微软声称其大型语言模型训练方法与众不同，依赖“干净且商业许可的数据”，但实际却使用了Common Crawl等未经许可的网络数据，与其他AI实验室一样依赖合理使用原则，并将阻止其爬虫的责任推给网站所有者。

来源The Decoder作者: Matthias Bastian

微软一直将其大型语言模型（LLM）的训练方法标榜为与其他AI公司不同，声称其使用“企业级、干净且商业许可的数据”。然而，最新披露的信息显示，微软新推出的MAI模型部分基于未授权的网络数据，如Common Crawl数据集进行训练。

Common Crawl是一个公开的网络爬虫数据集，包含数十亿个网页，但其中许多内容受版权保护。微软的做法与其他AI实验室并无本质区别，都依赖于合理使用原则，并将阻止其爬虫访问的责任转嫁给网站所有者。这意味着，如果网站不希望其内容被用于训练，必须主动在robots.txt文件中屏蔽微软的爬虫。

这一发现引发了关于AI训练数据伦理和透明度的讨论。微软此前暗示其训练数据来源“干净且经过商业许可”，但事实表明，其方法与传统AI公司如OpenAI、Google等并无二致。批评者认为，微软的营销措辞具有误导性，并呼吁AI公司在训练数据来源上保持透明。

值得注意的是，这并非微软首次因数据使用问题受到审视。此前，其GitHub Copilot产品就因使用公共代码库训练而面临版权诉讼。此次MAI模型的争议进一步凸显了AI行业在数据版权和公平使用方面的法律灰色地带。