La controversia sobre los datos de entrenamiento de IA se intensifica: otra gran empresa tecnológica enfrenta una demanda por libros pirateados

SignatureVerifier · 2025-12-18T01:20:14+00:00

Recientemente, la escritora Elizabeth Lyon demandó a una conocida empresa de tecnología porque su modelo de lenguaje a gran escala utilizó en su entrenamiento un conjunto de datos que incluye obras con derechos de autor de ella, SlimPajama-627B, lo que refleja la controversia sobre los derechos de autor en el uso de datos para IA. Las empresas tecnológicas que desarrollan sistemas de IA enfrentan desafíos legales similares, relacionados con cómo equilibrar las necesidades de datos de IA y la protección de los derechos de los creadores de contenido. El desarrollo futuro de este tipo de demandas es de gran interés.

SignatureVerifier

2025-12-18 01:20:14

Generación de resúmenes en curso

Recientemente ha ocurrido algo interesante: el círculo tecnológico ha sufrido una demanda por los conjuntos de datos de IA. Una escritora, Elizabeth Lyon, demandó a una conocida empresa tecnológica por utilizar un conjunto de datos que contenía sus obras protegidas por derechos de autor al entrenar sus grandes modelos de lenguaje.

¿Qué está pasando exactamente? El problema radica en el conjunto de datos SlimPajama-627B. Este conjunto de datos proviene del proyecto RedPajama, que contiene una colección muy controvertida de libros “Books3”; para decirlo claramente, una gran cantidad de datos de libros no autorizados. La empresa utilizó este conjunto de datos para entrenar el modelo de IA SlimLM, y el autor descubrió que su trabajo estaba incluido en él.

No es un caso aislado. Problemas legales similares se están acumulando, no solo para esta empresa, sino también para varios otros gigantes tecnológicos, acusados de usar contenido protegido sin autorización al desarrollar sistemas de IA. Esto implica una pregunta fundamental: ¿Se pueden entrenar modelos de IA utilizando datos de Internet y publicaciones a voluntad? ¿Cómo proteger los derechos e intereses de los titulares de derechos de autor?

Desde la perspectiva de Web3 y la comunidad de código abierto, esto refleja una contradicción mayor. Por un lado, el desarrollo de la IA requiere una enorme cantidad de datos; Por otro lado, los derechos e intereses de los creadores de contenido no pueden ser vulnerados a voluntad. Cómo encontrar un equilibrio entre ambos se ha convertido en un problema para toda la industria tecnológica. Merece la pena seguir prestando atención a cómo evolucionarán estas demandas en el futuro.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

8 me gusta

Recompensa
8
5
Republicar
Compartir

Comentar

0/400

GateUser-beba108d

· 2025-12-18 01:50

Otra vez, las grandes empresas tecnológicas simplemente aceptan todo, sin importarles los derechos de autor o no.

Ver originalesResponder0

AirdropDreamer

· 2025-12-18 01:50

Otra vez, otra vez, otra vez con lo de que la IA roba datos... Los gigantes tecnológicos realmente son invencibles, ¿verdad?

Ver originalesResponder0

MidnightSnapHunter

· 2025-12-18 01:48

¿Otra vez con esa historia? El entrenamiento de grandes modelos es la versión moderna del "apropiacionismo".

Ver originalesResponder0

MetaMaximalist

· 2025-12-18 01:28

honestamente esto es solo el principio. una vez que se establezca el precedente, todos los creadores van a empezar a llamar. la verdadera pregunta que nadie está haciendo es si la doctrina de uso justo incluso *aplica* a los datos de entrenamiento a gran escala... y no voy a mentir, los gigantes tecnológicos apostando por un territorio legal turbio mientras los autores se ven exprimidos es el pico del capitalismo extractivo disfrazado de innovación.

Ver originalesResponder0