Aconteceu algo interessante recentemente – o círculo tecnológico sofreu um processo judicial devido a conjuntos de dados de IA. Uma escritora, Elizabeth Lyon, processou uma conhecida empresa tecnológica por utilizar um conjunto de dados contendo as suas obras protegidas por direitos de autor ao treinar os seus grandes modelos de linguagem.
O que é que se está a passar exatamente? O problema reside no conjunto de dados SlimPajama-627B. Este conjunto de dados provém do projeto RedPajama, que contém uma coleção altamente controversa de livros “Books3” – para ser franco, uma grande quantidade de dados não autorizados de livros. A empresa usou este conjunto de dados para treinar o modelo de IA SlimLM, e o autor descobriu que o seu trabalho estava incluído nele.
Este não é um caso isolado. Problemas legais semelhantes estão a acumular-se, não só para esta empresa, mas também para vários outros gigantes tecnológicos – acusados de usar conteúdos protegidos sem autorização no desenvolvimento de sistemas de IA. Isto envolve uma questão central: Podem os modelos de IA ser treinados usando dados da Internet e publicações à vontade? Como proteger os direitos e interesses dos detentores de direitos de autor?
Do ponto de vista do Web3 e da comunidade open source, isto reflete uma contradição maior. Por um lado, o desenvolvimento da IA requer dados massivos; Por outro lado, os direitos e interesses dos criadores de conteúdo não podem ser violados à vontade. Como encontrar um equilíbrio entre os dois tornou-se um problema para toda a indústria tecnológica. Vale a pena continuar a prestar atenção a como estes processos se vão desenvolver no futuro.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
8 Curtidas
Recompensa
8
5
Repostar
Compartilhar
Comentário
0/400
GateUser-beba108d
· 2025-12-18 01:50
Mais uma vez, as grandes empresas de tecnologia simplesmente aceitam tudo, independentemente de direitos autorais ou não.
Ver originalResponder0
AirdropDreamer
· 2025-12-18 01:50
Mais uma vez, mais uma vez, é mais uma história de IA a roubar dados… Os gigantes da tecnologia estão realmente invencíveis, hein
Ver originalResponder0
MidnightSnapHunter
· 2025-12-18 01:48
Porra, outra vez essa história? O treino de grandes modelos é a versão moderna do "aproveitar tudo".
Ver originalResponder0
MetaMaximalist
· 2025-12-18 01:28
honestamente, isto é apenas o começo. assim que o precedente for estabelecido, todos os criadores vão começar a aparecer. a verdadeira questão que ninguém está a fazer é se a doutrina do uso justo realmente *se aplica* aos dados de treino em escala... e para ser honesto, os gigantes tecnológicos a apostar em um território legal obscuro enquanto os autores são pressionados é o auge do capitalismo extrativo disfarçado de inovação.
Escalada na controvérsia sobre dados de treino de IA: mais uma gigante tecnológica enfrenta processo por livros pirateados
Aconteceu algo interessante recentemente – o círculo tecnológico sofreu um processo judicial devido a conjuntos de dados de IA. Uma escritora, Elizabeth Lyon, processou uma conhecida empresa tecnológica por utilizar um conjunto de dados contendo as suas obras protegidas por direitos de autor ao treinar os seus grandes modelos de linguagem.
O que é que se está a passar exatamente? O problema reside no conjunto de dados SlimPajama-627B. Este conjunto de dados provém do projeto RedPajama, que contém uma coleção altamente controversa de livros “Books3” – para ser franco, uma grande quantidade de dados não autorizados de livros. A empresa usou este conjunto de dados para treinar o modelo de IA SlimLM, e o autor descobriu que o seu trabalho estava incluído nele.
Este não é um caso isolado. Problemas legais semelhantes estão a acumular-se, não só para esta empresa, mas também para vários outros gigantes tecnológicos – acusados de usar conteúdos protegidos sem autorização no desenvolvimento de sistemas de IA. Isto envolve uma questão central: Podem os modelos de IA ser treinados usando dados da Internet e publicações à vontade? Como proteger os direitos e interesses dos detentores de direitos de autor?
Do ponto de vista do Web3 e da comunidade open source, isto reflete uma contradição maior. Por um lado, o desenvolvimento da IA requer dados massivos; Por outro lado, os direitos e interesses dos criadores de conteúdo não podem ser violados à vontade. Como encontrar um equilíbrio entre os dois tornou-se um problema para toda a indústria tecnológica. Vale a pena continuar a prestar atenção a como estes processos se vão desenvolver no futuro.