Recientemente ha ocurrido algo interesante: el círculo tecnológico ha sufrido una demanda por los conjuntos de datos de IA. Una escritora, Elizabeth Lyon, demandó a una conocida empresa tecnológica por utilizar un conjunto de datos que contenía sus obras protegidas por derechos de autor al entrenar sus grandes modelos de lenguaje.
¿Qué está pasando exactamente? El problema radica en el conjunto de datos SlimPajama-627B. Este conjunto de datos proviene del proyecto RedPajama, que contiene una colección muy controvertida de libros “Books3”; para decirlo claramente, una gran cantidad de datos de libros no autorizados. La empresa utilizó este conjunto de datos para entrenar el modelo de IA SlimLM, y el autor descubrió que su trabajo estaba incluido en él.
No es un caso aislado. Problemas legales similares se están acumulando, no solo para esta empresa, sino también para varios otros gigantes tecnológicos, acusados de usar contenido protegido sin autorización al desarrollar sistemas de IA. Esto implica una pregunta fundamental: ¿Se pueden entrenar modelos de IA utilizando datos de Internet y publicaciones a voluntad? ¿Cómo proteger los derechos e intereses de los titulares de derechos de autor?
Desde la perspectiva de Web3 y la comunidad de código abierto, esto refleja una contradicción mayor. Por un lado, el desarrollo de la IA requiere una enorme cantidad de datos; Por otro lado, los derechos e intereses de los creadores de contenido no pueden ser vulnerados a voluntad. Cómo encontrar un equilibrio entre ambos se ha convertido en un problema para toda la industria tecnológica. Merece la pena seguir prestando atención a cómo evolucionarán estas demandas en el futuro.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
8 me gusta
Recompensa
8
5
Republicar
Compartir
Comentar
0/400
GateUser-beba108d
· 2025-12-18 01:50
Otra vez, las grandes empresas tecnológicas simplemente aceptan todo, sin importarles los derechos de autor o no.
Ver originalesResponder0
AirdropDreamer
· 2025-12-18 01:50
Otra vez, otra vez, otra vez con lo de que la IA roba datos... Los gigantes tecnológicos realmente son invencibles, ¿verdad?
Ver originalesResponder0
MidnightSnapHunter
· 2025-12-18 01:48
¿Otra vez con esa historia? El entrenamiento de grandes modelos es la versión moderna del "apropiacionismo".
Ver originalesResponder0
MetaMaximalist
· 2025-12-18 01:28
honestamente esto es solo el principio. una vez que se establezca el precedente, todos los creadores van a empezar a llamar. la verdadera pregunta que nadie está haciendo es si la doctrina de uso justo incluso *aplica* a los datos de entrenamiento a gran escala... y no voy a mentir, los gigantes tecnológicos apostando por un territorio legal turbio mientras los autores se ven exprimidos es el pico del capitalismo extractivo disfrazado de innovación.
La controversia sobre los datos de entrenamiento de IA se intensifica: otra gran empresa tecnológica enfrenta una demanda por libros pirateados
Recientemente ha ocurrido algo interesante: el círculo tecnológico ha sufrido una demanda por los conjuntos de datos de IA. Una escritora, Elizabeth Lyon, demandó a una conocida empresa tecnológica por utilizar un conjunto de datos que contenía sus obras protegidas por derechos de autor al entrenar sus grandes modelos de lenguaje.
¿Qué está pasando exactamente? El problema radica en el conjunto de datos SlimPajama-627B. Este conjunto de datos proviene del proyecto RedPajama, que contiene una colección muy controvertida de libros “Books3”; para decirlo claramente, una gran cantidad de datos de libros no autorizados. La empresa utilizó este conjunto de datos para entrenar el modelo de IA SlimLM, y el autor descubrió que su trabajo estaba incluido en él.
No es un caso aislado. Problemas legales similares se están acumulando, no solo para esta empresa, sino también para varios otros gigantes tecnológicos, acusados de usar contenido protegido sin autorización al desarrollar sistemas de IA. Esto implica una pregunta fundamental: ¿Se pueden entrenar modelos de IA utilizando datos de Internet y publicaciones a voluntad? ¿Cómo proteger los derechos e intereses de los titulares de derechos de autor?
Desde la perspectiva de Web3 y la comunidad de código abierto, esto refleja una contradicción mayor. Por un lado, el desarrollo de la IA requiere una enorme cantidad de datos; Por otro lado, los derechos e intereses de los creadores de contenido no pueden ser vulnerados a voluntad. Cómo encontrar un equilibrio entre ambos se ha convertido en un problema para toda la industria tecnológica. Merece la pena seguir prestando atención a cómo evolucionarán estas demandas en el futuro.