エルゼビア、Metaを提訴:Sci-Hubの海賊版論文でAI訓練
学術出版大手エルゼビアが、MetaがSci-Hubなどの海賊版サイトから著作権保護された研究論文を無断で収集し、大規模言語モデルLlamaの訓練に使用したとして、集団訴訟を起こしました。学術出版社がAIの著作権侵害で提訴するのは初めてです。
記事インテリジェンス
要点
- 原告はMetaがCommon CrawlやLibGen、Sci-Hubから論文を取得しLlama訓練に利用したと主張。
- Metaは「フェアユース」を抗弁とし、AI訓練は変形的利用にあたると主張。
- 先行事例として、Anthropicが合法的に購入した書籍での訓練が認められた判決がある。
重要な理由
このニュースが重要なのは、原告はMetaがCommon CrawlやLibGen、Sci-Hubから論文を取得しLlama訓練に利用したと主張ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
AI著作権戦争が新たな局面を迎えた。学術出版大手エルゼビア(Elsevier)は、メタ(Meta)が自社の大規模言語モデルLlamaの訓練に、著作権で保護された研究論文を違法に収集・複製したとして、集団訴訟を起こした。この訴訟は5月5日にニューヨーク南部地区連邦裁判所に提出され、被告にはメタのCEOマーク・ザッカーバーグも名を連ねている。
原告にはエルゼビアのほか、フランス最大の出版グループであるアシェット、英国系の老舗出版社マクミラン、小説家で弁護士のスコット・トゥローも加わり、世界有数の出版大手が結束した。訴状の核心は、メタがLlamaの訓練に2つの「不透明な」データソースを使用したことにある。第1は、ウェブ全体をクローリングしたCommon Crawlデータセットで、有料ジャーナルの要約や全文が含まれている可能性が高い。第2は、海賊版学術プラットフォームのLibGenとSci-Hubで、メタはこれらのサイトから磁気リンクやファイル共有を通じて論文を入手したとされる。
訴訟の証拠の多くは、昨年作家らがメタを訴えた「Kadrey対Meta」事件で流出した内部メールから得られた。メタの広報担当者は「AIは個人や企業に革新的な変革をもたらしており、裁判所がAI訓練をフェアユースと認めた判例もある」と述べ、合理性を主張している。
今回の訴訟は、大手学術出版社が初めてAI企業を著作権侵害で直接訴えた点で重要だ。これまでは作家やニューヨーク・タイムズなど個別の権利者が主に訴えてきた。AI訓練における著作権の扱いはまだ明確な判例がなく、この訴訟の結果が大きな影響を与える可能性がある。
なお、「フェアユース」の抗弁は既に成功例がある。昨年、米国裁判所はAnthropic(Claudeの開発元)が合法的に購入した書籍を著者の許可なくAI訓練に使用することを認めた。AI訓練を「変形的利用」と判断し、元の作品の市場を奪わず、技術革新と公共の利益に資するとした。この判決が今回のメタのケースにどう影響するか注目される。