Escalada na controvérsia sobre dados de treino de IA: mais uma gigante tecnológica enfrenta processo por livros pirateados

SignatureVerifier · 2025-12-18T01:20:14+00:00

Recentemente, a escritora Elizabeth Lyon processou uma conhecida empresa de tecnologia devido ao uso do conjunto de dados que inclui suas obras protegidas por direitos autorais, SlimPajama-627B, durante o treinamento de seu grande modelo de linguagem, refletindo as controvérsias de direitos autorais no uso de dados de IA. As empresas de tecnologia enfrentam desafios legais semelhantes ao desenvolver sistemas de IA, envolvendo como equilibrar as necessidades de dados de IA e a proteção dos direitos dos criadores de conteúdo. O desenvolvimento futuro de tais processos é motivo de atenção.

SignatureVerifier

2025-12-18 01:20:14

Geração do resumo em andamento

Aconteceu algo interessante recentemente – o círculo tecnológico sofreu um processo judicial devido a conjuntos de dados de IA. Uma escritora, Elizabeth Lyon, processou uma conhecida empresa tecnológica por utilizar um conjunto de dados contendo as suas obras protegidas por direitos de autor ao treinar os seus grandes modelos de linguagem.

O que é que se está a passar exatamente? O problema reside no conjunto de dados SlimPajama-627B. Este conjunto de dados provém do projeto RedPajama, que contém uma coleção altamente controversa de livros “Books3” – para ser franco, uma grande quantidade de dados não autorizados de livros. A empresa usou este conjunto de dados para treinar o modelo de IA SlimLM, e o autor descobriu que o seu trabalho estava incluído nele.

Este não é um caso isolado. Problemas legais semelhantes estão a acumular-se, não só para esta empresa, mas também para vários outros gigantes tecnológicos – acusados de usar conteúdos protegidos sem autorização no desenvolvimento de sistemas de IA. Isto envolve uma questão central: Podem os modelos de IA ser treinados usando dados da Internet e publicações à vontade? Como proteger os direitos e interesses dos detentores de direitos de autor?

Do ponto de vista do Web3 e da comunidade open source, isto reflete uma contradição maior. Por um lado, o desenvolvimento da IA requer dados massivos; Por outro lado, os direitos e interesses dos criadores de conteúdo não podem ser violados à vontade. Como encontrar um equilíbrio entre os dois tornou-se um problema para toda a indústria tecnológica. Vale a pena continuar a prestar atenção a como estes processos se vão desenvolver no futuro.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

8 Curtidas

Recompensa
8
5
Repostar
Compartilhar

Comentário

0/400

GateUser-beba108d

· 2025-12-18 01:50

Mais uma vez, as grandes empresas de tecnologia simplesmente aceitam tudo, independentemente de direitos autorais ou não.

Ver originalResponder0

AirdropDreamer

· 2025-12-18 01:50

Mais uma vez, mais uma vez, é mais uma história de IA a roubar dados… Os gigantes da tecnologia estão realmente invencíveis, hein

Ver originalResponder0

MidnightSnapHunter

· 2025-12-18 01:48

Porra, outra vez essa história? O treino de grandes modelos é a versão moderna do "aproveitar tudo".

Ver originalResponder0

MetaMaximalist

· 2025-12-18 01:28

honestamente, isto é apenas o começo. assim que o precedente for estabelecido, todos os criadores vão começar a aparecer. a verdadeira questão que ninguém está a fazer é se a doutrina do uso justo realmente *se aplica* aos dados de treino em escala... e para ser honesto, os gigantes tecnológicos a apostar em um território legal obscuro enquanto os autores são pressionados é o auge do capitalismo extrativo disfarçado de inovação.

Ver originalResponder0