AI News HubLIVE
站内改写1 分钟阅读

微软在承诺使用“企业级、干净且商业许可数据”后,仍用未经许可的网络数据训练MAI模型

微软声称其大型语言模型训练方法与众不同,依赖“干净且商业许可的数据”,但实际却使用了Common Crawl等未经许可的网络数据,与其他AI实验室一样依赖合理使用原则,并将阻止其爬虫的责任推给网站所有者。

来源The Decoder作者: Matthias Bastian

微软一直将其大型语言模型(LLM)的训练方法标榜为与其他AI公司不同,声称其使用“企业级、干净且商业许可的数据”。然而,最新披露的信息显示,微软新推出的MAI模型部分基于未授权的网络数据,如Common Crawl数据集进行训练。

Common Crawl是一个公开的网络爬虫数据集,包含数十亿个网页,但其中许多内容受版权保护。微软的做法与其他AI实验室并无本质区别,都依赖于合理使用原则,并将阻止其爬虫访问的责任转嫁给网站所有者。这意味着,如果网站不希望其内容被用于训练,必须主动在robots.txt文件中屏蔽微软的爬虫。

这一发现引发了关于AI训练数据伦理和透明度的讨论。微软此前暗示其训练数据来源“干净且经过商业许可”,但事实表明,其方法与传统AI公司如OpenAI、Google等并无二致。批评者认为,微软的营销措辞具有误导性,并呼吁AI公司在训练数据来源上保持透明。

值得注意的是,这并非微软首次因数据使用问题受到审视。此前,其GitHub Copilot产品就因使用公共代码库训练而面临版权诉讼。此次MAI模型的争议进一步凸显了AI行业在数据版权和公平使用方面的法律灰色地带。