最近興味深いことが起きました。テクノロジー業界がAIデータセットを巡る訴訟に遭いました。 作家のエリザベス・ライオンは、著名なテクノロジー企業が大規模言語モデルの訓練に著作権作品を含むデータセットを使用したとして訴訟を起こしました。一体何が起きているのですか? 問題はSlimPajama-627Bデータセットにあります。 このデータセットはRedPajamaプロジェクトからのもので、非常に物議を醸す「Books3」書籍のコレクションを含んでいます。率直に言えば、大量の無許可書籍データです。 同社はこのデータセットを使ってSlimLM AIモデルを訓練し、著者は自分の研究成果がその中に詰め込まれていることを発見しました。これは単発の事件ではありません。 同様の法的問題は、この会社だけでなく、AIシステム開発時に無許可で保護されたコンテンツを使用したと非難された他の複数のテック大手にも重なっています。 これは核心的な問いです:インターネットや出版物のデータを使ってAIモデルを自由に訓練できるのか? 著作権者の権利と利益をどのように保護すればよいのでしょうか?Web3やオープンソースコミュニティの視点から見ると、これはより大きな矛盾を反映しています。 一方で、AIの開発には膨大なデータが必要です。 一方で、コンテンツクリエイターの権利と利益は、恣意的に侵害されることはありません。 この二つのバランスをどう見つけるかは、テクノロジー業界全体が直面する課題となっています。 今後このような訴訟がどのように展開するかに引き続き注目しておく価値があります。
AI訓練データ騒動の激化:また大手テクノロジー企業が盗作書籍で訴訟を提起される
最近興味深いことが起きました。テクノロジー業界がAIデータセットを巡る訴訟に遭いました。 作家のエリザベス・ライオンは、著名なテクノロジー企業が大規模言語モデルの訓練に著作権作品を含むデータセットを使用したとして訴訟を起こしました。
一体何が起きているのですか? 問題はSlimPajama-627Bデータセットにあります。 このデータセットはRedPajamaプロジェクトからのもので、非常に物議を醸す「Books3」書籍のコレクションを含んでいます。率直に言えば、大量の無許可書籍データです。 同社はこのデータセットを使ってSlimLM AIモデルを訓練し、著者は自分の研究成果がその中に詰め込まれていることを発見しました。
これは単発の事件ではありません。 同様の法的問題は、この会社だけでなく、AIシステム開発時に無許可で保護されたコンテンツを使用したと非難された他の複数のテック大手にも重なっています。 これは核心的な問いです:インターネットや出版物のデータを使ってAIモデルを自由に訓練できるのか? 著作権者の権利と利益をどのように保護すればよいのでしょうか?
Web3やオープンソースコミュニティの視点から見ると、これはより大きな矛盾を反映しています。 一方で、AIの開発には膨大なデータが必要です。 一方で、コンテンツクリエイターの権利と利益は、恣意的に侵害されることはありません。 この二つのバランスをどう見つけるかは、テクノロジー業界全体が直面する課題となっています。 今後このような訴訟がどのように展開するかに引き続き注目しておく価値があります。