تصاعد أزمة بيانات تدريب الذكاء الاصطناعي: شركة تكنولوجيا عملاقة أخرى تواجه دعوى قضائية بسبب كتب مسروقة

robot
إنشاء الملخص قيد التقدم

حدث أمر مثير للاهتمام مؤخرا - حيث تعرضت دائرة التكنولوجيا لدعوى قضائية بشأن مجموعات بيانات الذكاء الاصطناعي. كاتبة تدعى إليزابيث ليون رفعت دعوى قضائية ضد شركة تقنية معروفة لاستخدامها مجموعة بيانات تحتوي على أعمالهم المحمية بحقوق النشر أثناء تدريبهم على نماذج اللغة الكبيرة.

ما الذي يحدث بالضبط؟ المشكلة تكمن في مجموعة بيانات SlimPajama-627B. تأتي هذه المجموعة من مشروع RedPajama، الذي يحتوي على مجموعة مثيرة للجدل للغاية من كتب “Books3” - بصراحة، كمية كبيرة من بيانات الكتب غير المصرح بها. استخدمت الشركة هذه المجموعة من البيانات لتدريب نموذج الذكاء الاصطناعي SlimLM، ووجد المؤلف أن عمله كان مدمجا فيه.

هذه ليست حادثة معزولة. تتراكم مشاكل قانونية مماثلة، ليس فقط لهذه الشركة، بل أيضا لعدة عمالقة تقنية آخرين - متهمين باستخدام محتوى محمي دون إذن عند تطوير أنظمة الذكاء الاصطناعي. وهذا ينطوي على سؤال أساسي: هل يمكن تدريب نماذج الذكاء الاصطناعي باستخدام بيانات من الإنترنت والمنشورات حسب الرغبة؟ كيف يمكن حماية حقوق ومصالح مالكي حقوق النشر؟

من منظور الويب 3 ومجتمع المصدر المفتوح، يعكس هذا تناقضا أكبر. من ناحية، يتطلب تطوير الذكاء الاصطناعي بيانات ضخمة؛ من ناحية أخرى، لا يمكن انتهاك حقوق ومصالح منشئي المحتوى متى شاءوا. أصبح إيجاد توازن بين الاثنين مشكلة تواجه صناعة التكنولوجيا بأكملها. من المفيد الاستمرار في الانتباه لكيفية تطور مثل هذه الدعاوى القضائية في المستقبل.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 5
  • إعادة النشر
  • مشاركة
تعليق
0/400
GateUser-beba108dvip
· 2025-12-18 01:50
يبدو أن الأمر يتكرر مرة أخرى، الشركات الكبرى في التكنولوجيا تتلقى كل شيء دون النظر إلى حقوق النشر أو عدمه.
شاهد النسخة الأصليةرد0
AirdropDreamervip
· 2025-12-18 01:50
لقد عادوا مرة أخرى، مرة أخرى، إنها مسألة سرقة البيانات بواسطة الذكاء الاصطناعي... عمالقة التكنولوجيا حقًا لا يُقهرون هاه
شاهد النسخة الأصليةرد0
MidnightSnapHuntervip
· 2025-12-18 01:48
حسنًا، هل أنت مرة أخرى تتبع نفس الأسلوب؟ تدريب النماذج الكبيرة هو نسخة حديثة من "الاستيلاء على كل شيء"
شاهد النسخة الأصليةرد0
MetaMaximalistvip
· 2025-12-18 01:28
بصراحة، هذا مجرد البداية. بمجرد أن يتم تحديد سابقة، سيأتي كل منشئ محتوى يطرق الباب. السؤال الحقيقي الذي لا يطرحه أحد هو ما إذا كانت مبدأ الاستخدام العادل ينطبق حتى على بيانات التدريب على نطاق واسع... وبصراحة، الشركات التقنية الكبرى التي تعتمد على مناطق قانونية غامضة بينما يُضغط على المؤلفين تمثل ذروة الرأسمالية الاستخراجية التي تتنكر في زي الابتكار.
شاهد النسخة الأصليةرد0
  • تثبيت