2026-06-05 21:10 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

マイクロソフト、「エンタープライズグレードのクリーンで商業ライセンスされたデータ」を約束したにもかかわらず、MAIモデルを無許諾のWebデータで訓練

マイクロソフトは、自社の大規模言語モデル（LLM）の訓練方法が他のAI企業とは異なり、「クリーンで商業ライセンスされたデータ」のみを使用していると主張していたが、実際にはCommon Crawlなどの無許諾のWebデータを一部使用していた。他のAI研究所と同様に、フェアユースに依存し、サイト運営者にクローラーをブロックする責任を負わせている。

ソースThe Decoder著者: Matthias Bastian

記事インテリジェンス

エンジニア中級

要点

マイクロソフトの新MAIモデルはCommon Crawlなどの無許諾Webデータで部分的に訓練された。
マイクロソフトは「エンタープライズグレードのクリーンで商業ライセンスされたデータ」を約束していたが、それは事実と異なる。
マイクロソフトは他のAI企業と同様にフェアユースに依存し、サイト運営者にクローラーをブロックする責任を負わせている。

重要な理由

このニュースが重要なのは、マイクロソフトの新MAIモデルはCommon Crawlなどの無許諾Webデータで部分的に訓練されたためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

マイクロソフトは、大規模言語モデル（LLM）の訓練方法について、他のAI企業とは一線を画し、「エンタープライズグレードのクリーンで商業ライセンスされたデータ」のみを使用していると主張してきました。しかし、最新の情報によると、同社の新しいMAIモデルは、Common Crawlデータセットなどの無許諾のWebデータを一部使用して訓練されていたことが明らかになりました。

Common Crawlは、数十億のWebページを含む公開クロールデータセットですが、その多くは著作権で保護されています。マイクロソフトの手法は、他のAI研究所と本質的に変わりません。つまり、フェアユースの原則に依存し、Webサイトが自社のコンテンツを訓練に使用されたくない場合は、robots.txtファイルでクローラーをブロックする責任を負わせています。

この発覚は、AI訓練データの倫理と透明性に関する議論を再燃させています。マイクロソフトは以前、訓練データの出所が「クリーンで商業ライセンスされている」と示唆していましたが、実際にはOpenAIやGoogleなどの従来のAI企業と同様の手法を取っていました。批評家は、マイクロソフトのマーケティング表現は誤解を招くものであり、AI企業は訓練データの出所について透明性を確保すべきだと指摘しています。

なお、これはマイクロソフトがデータ使用の問題で初めて批判を受けたわけではありません。以前にも、GitHub Copilotが公開コードベースを訓練に使用したことで著作権訴訟に直面しています。MAIモデルをめぐる今回の論争は、データ著作権とフェアユースに関するAI業界の法的グレーゾーンを改めて浮き彫りにしています。