マイクロソフト、「エンタープライズグレードのクリーンで商業ライセンスされたデータ」を約束したにもかかわらず、MAIモデルを無許諾のWebデータで訓練
マイクロソフトは、自社の大規模言語モデル(LLM)の訓練方法が他のAI企業とは異なり、「クリーンで商業ライセンスされたデータ」のみを使用していると主張していたが、実際にはCommon Crawlなどの無許諾のWebデータを一部使用していた。他のAI研究所と同様に、フェアユースに依存し、サイト運営者にクローラーをブロックする責任を負わせている。
マイクロソフトは、大規模言語モデル(LLM)の訓練方法について、他のAI企業とは一線を画し、「エンタープライズグレードのクリーンで商業ライセンスされたデータ」のみを使用していると主張してきました。しかし、最新の情報によると、同社の新しいMAIモデルは、Common Crawlデータセットなどの無許諾のWebデータを一部使用して訓練されていたことが明らかになりました。
Common Crawlは、数十億のWebページを含む公開クロールデータセットですが、その多くは著作権で保護されています。マイクロソフトの手法は、他のAI研究所と本質的に変わりません。つまり、フェアユースの原則に依存し、Webサイトが自社のコンテンツを訓練に使用されたくない場合は、robots.txtファイルでクローラーをブロックする責任を負わせています。
この発覚は、AI訓練データの倫理と透明性に関する議論を再燃させています。マイクロソフトは以前、訓練データの出所が「クリーンで商業ライセンスされている」と示唆していましたが、実際にはOpenAIやGoogleなどの従来のAI企業と同様の手法を取っていました。批評家は、マイクロソフトのマーケティング表現は誤解を招くものであり、AI企業は訓練データの出所について透明性を確保すべきだと指摘しています。
なお、これはマイクロソフトがデータ使用の問題で初めて批判を受けたわけではありません。以前にも、GitHub Copilotが公開コードベースを訓練に使用したことで著作権訴訟に直面しています。MAIモデルをめぐる今回の論争は、データ著作権とフェアユースに関するAI業界の法的グレーゾーンを改めて浮き彫りにしています。