Một điều thú vị đã xảy ra gần đây - giới công nghệ đã phải chịu một vụ kiện về bộ dữ liệu AI. Một nhà văn, Elizabeth Lyon, đã kiện một công ty công nghệ nổi tiếng vì sử dụng bộ dữ liệu chứa các tác phẩm có bản quyền của họ khi đào tạo các mô hình ngôn ngữ lớn của họ.
Chính xác thì điều gì đang xảy ra? Vấn đề nằm ở bộ dữ liệu SlimPajama-627B. Bộ dữ liệu này đến từ dự án RedPajama, chứa một bộ sưu tập sách “Books3” gây tranh cãi - nói thẳng ra, một lượng lớn dữ liệu sách trái phép. Công ty đã sử dụng bộ dữ liệu này để đào tạo mô hình AI SlimLM và tác giả nhận thấy rằng công việc của ông đã được nhồi nhét vào đó.
Đây không phải là một sự cố riêng lẻ. Những rắc rối pháp lý tương tự đang chồng chất, không chỉ đối với công ty này mà còn đối với một số gã khổng lồ công nghệ khác - bị cáo buộc sử dụng nội dung được bảo vệ mà không được phép khi phát triển hệ thống AI. Điều này liên quan đến một câu hỏi cốt lõi: Liệu các mô hình AI có thể được đào tạo bằng cách sử dụng dữ liệu từ Internet và các ấn phẩm theo ý muốn không? Làm thế nào để bảo vệ quyền và lợi ích của chủ sở hữu quyền tác giả?
Từ quan điểm của Web3 và cộng đồng mã nguồn mở, điều này phản ánh một mâu thuẫn lớn hơn. Một mặt, sự phát triển của AI đòi hỏi dữ liệu khổng lồ; Mặt khác, quyền và lợi ích của người sáng tạo nội dung không thể bị xâm phạm theo ý muốn. Làm thế nào để tìm ra sự cân bằng giữa hai điều này đã trở thành một vấn đề mà toàn bộ ngành công nghệ phải đối mặt. Cần tiếp tục chú ý đến việc những vụ kiện như vậy sẽ phát triển như thế nào trong tương lai.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
8 thích
Phần thưởng
8
5
Đăng lại
Retweed
Bình luận
0/400
GateUser-beba108d
· 2025-12-18 01:50
Lại xảy ra rồi, các tập đoàn công nghệ lớn đều theo đúng yêu cầu, không quan tâm đến bản quyền hay không bản quyền.
Xem bản gốcTrả lời0
AirdropDreamer
· 2025-12-18 01:50
Lại đến rồi lại đến, lại là chuyện AI đánh cắp dữ liệu… Các ông lớn công nghệ thật sự vô địch nhỉ
Xem bản gốcTrả lời0
MidnightSnapHunter
· 2025-12-18 01:48
Lại nữa à? Huấn luyện mô hình lớn chính là phiên bản hiện đại của "lấy gì cũng được"
Xem bản gốcTrả lời0
MetaMaximalist
· 2025-12-18 01:28
thật sự đây chỉ là bước khởi đầu. khi tiền lệ được thiết lập, mọi nhà sáng tạo sẽ bắt đầu gõ cửa. câu hỏi thực sự mà không ai đặt ra là liệu nguyên tắc sử dụng công bằng có *áp dụng* cho dữ liệu đào tạo quy mô lớn hay không... và thật lòng mà nói, các ông lớn công nghệ dựa vào vùng pháp lý mơ hồ trong khi các tác giả bị bóp nghẹt là đỉnh cao của chủ nghĩa tư bản khai thác, được ngụy trang thành đổi mới.
Vụ bê bối dữ liệu huấn luyện AI leo thang: Một tập đoàn công nghệ lớn khác đối mặt với vụ kiện vì sách bị sao chép trái phép
Một điều thú vị đã xảy ra gần đây - giới công nghệ đã phải chịu một vụ kiện về bộ dữ liệu AI. Một nhà văn, Elizabeth Lyon, đã kiện một công ty công nghệ nổi tiếng vì sử dụng bộ dữ liệu chứa các tác phẩm có bản quyền của họ khi đào tạo các mô hình ngôn ngữ lớn của họ.
Chính xác thì điều gì đang xảy ra? Vấn đề nằm ở bộ dữ liệu SlimPajama-627B. Bộ dữ liệu này đến từ dự án RedPajama, chứa một bộ sưu tập sách “Books3” gây tranh cãi - nói thẳng ra, một lượng lớn dữ liệu sách trái phép. Công ty đã sử dụng bộ dữ liệu này để đào tạo mô hình AI SlimLM và tác giả nhận thấy rằng công việc của ông đã được nhồi nhét vào đó.
Đây không phải là một sự cố riêng lẻ. Những rắc rối pháp lý tương tự đang chồng chất, không chỉ đối với công ty này mà còn đối với một số gã khổng lồ công nghệ khác - bị cáo buộc sử dụng nội dung được bảo vệ mà không được phép khi phát triển hệ thống AI. Điều này liên quan đến một câu hỏi cốt lõi: Liệu các mô hình AI có thể được đào tạo bằng cách sử dụng dữ liệu từ Internet và các ấn phẩm theo ý muốn không? Làm thế nào để bảo vệ quyền và lợi ích của chủ sở hữu quyền tác giả?
Từ quan điểm của Web3 và cộng đồng mã nguồn mở, điều này phản ánh một mâu thuẫn lớn hơn. Một mặt, sự phát triển của AI đòi hỏi dữ liệu khổng lồ; Mặt khác, quyền và lợi ích của người sáng tạo nội dung không thể bị xâm phạm theo ý muốn. Làm thế nào để tìm ra sự cân bằng giữa hai điều này đã trở thành một vấn đề mà toàn bộ ngành công nghệ phải đối mặt. Cần tiếp tục chú ý đến việc những vụ kiện như vậy sẽ phát triển như thế nào trong tương lai.