Thư công khai của Anthropic: Sam Altman giả tạo, bậc thầy về kỹ thuật gây mê tâm lý

Tôi muốn nói rõ ràng về những thông tin mà OpenAI đang phát đi và những sự giả dối tồn tại trong đó. Đó chính là cách họ thực sự hành xử, và tôi hy vọng mọi người đều có thể nhận ra điều đó.

Dù chúng ta vẫn còn nhiều điều chưa rõ về hợp đồng của họ với Bộ Quốc phòng (thậm chí có thể chính họ cũng chưa hoàn toàn rõ, vì các điều khoản hợp đồng rất có thể khá mơ hồ), nhưng có một số điểm chắc chắn: dựa trên mô tả công khai của Sam Altman và Bộ Quốc phòng (tất nhiên, cần xem xét cả văn bản hợp đồng để xác nhận cuối cùng), mô hình hợp tác của họ cơ bản là như sau: mô hình không có bất kỳ giới hạn pháp lý nào về cách sử dụng, gọi là “mọi mục đích hợp pháp”; đồng thời họ thiết lập một lớp gọi là “lớp an toàn”. Theo tôi, “lớp an toàn” này về bản chất chính là cơ chế từ chối của mô hình, dùng để ngăn chặn mô hình thực hiện một số nhiệm vụ hoặc tham gia vào một số ứng dụng nhất định.

Lớp “lớp an toàn” còn có thể chỉ là các giải pháp mà các đối tác (ví dụ như Palantir, hoặc các đối tác thương mại của Anthropic khi phục vụ khách hàng chính phủ Mỹ) cố gắng giới thiệu trong quá trình đàm phán. Họ đề xuất một hệ thống phân loại hoặc máy học, tuyên bố có thể cho phép một số ứng dụng qua, trong khi chặn các ứng dụng khác. Ngoài ra, còn có dấu hiệu cho thấy OpenAI sẽ cử nhân viên (FDE, tức kỹ sư triển khai tuyến đầu) giám sát việc sử dụng mô hình để ngăn chặn các ứng dụng không phù hợp.

Phán đoán chung của chúng tôi là: những giải pháp này không hoàn toàn vô dụng, nhưng trong bối cảnh ứng dụng quân sự, khoảng 20% là thực sự bảo vệ, còn 80% chỉ là “diễn kịch an toàn”.

Vấn đề cốt lõi nằm ở chỗ: việc mô hình có bị sử dụng cho giám sát quy mô lớn hoặc hệ thống vũ khí hoàn toàn tự động hay không, thường phụ thuộc vào bối cảnh rộng hơn. Chính mô hình không biết mình đang nằm trong hệ thống như thế nào, nó không biết liệu có ai đó trong “vòng lặp” (human-in-the-loop, tức vấn đề vũ khí tự động) hay không; cũng không biết nguồn dữ liệu mà nó phân tích là gì. Ví dụ, đó có thể là dữ liệu trong nước Mỹ hay dữ liệu quốc tế, dữ liệu do doanh nghiệp cung cấp sau khi có sự đồng ý của người dùng, hay dữ liệu mua qua các kênh mờ ám, v.v.

Những người làm về an ninh đã sớm nhận thức rõ điều này: cơ chế từ chối của mô hình không đáng tin cậy. Các cuộc tấn công “bẻ khóa” (jailbreak) rất phổ biến, nhiều khi chỉ cần khai báo sai về tính chất của dữ liệu cho mô hình, là có thể vượt qua các giới hạn này.

Ở đây còn có một điểm khác biệt quan trọng khiến vấn đề trở nên phức tạp hơn so với các biện pháp an toàn thông thường: việc xác định xem mô hình có đang thực hiện tấn công mạng hay không, thường có thể dựa vào đầu vào và đầu ra; nhưng để xác định tính chất của cuộc tấn công và bối cảnh cụ thể lại hoàn toàn khác, và chính khả năng đánh giá này mới là điều cần thiết. Trong nhiều trường hợp, nhiệm vụ này cực kỳ khó khăn, thậm chí là không thể thực hiện được.

Tình hình còn tồi tệ hơn nữa với “lớp an toàn” mà Palantir giới thiệu (tôi nghĩ họ cũng đã đề xuất các giải pháp tương tự cho OpenAI). Phán đoán của chúng tôi là: gần như hoàn toàn chỉ là một màn trình diễn an toàn.

Logic cơ bản của Palantir dường như là: “Trong công ty các bạn có thể có những nhân viên không hài lòng, các bạn cần cung cấp cho họ thứ gì đó để trấn an họ, hoặc để những gì đang xảy ra không đến tai họ. Đó chính là dịch vụ của chúng tôi.”

Về việc để nhân viên của Anthropic hoặc OpenAI trực tiếp giám sát triển khai, chúng tôi đã thảo luận nội bộ cách đây vài tháng khi xây dựng chính sách chấp nhận sử dụng trong môi trường bí mật mở rộng (AUP). Kết luận rất rõ ràng: phương pháp này chỉ khả thi trong số ít trường hợp. Chúng tôi sẽ cố gắng thử, nhưng nó không phải là cơ chế bảo vệ cốt lõi có thể dựa vào, đặc biệt trong môi trường bí mật. Nhân tiện, chúng tôi thực sự đã cố gắng làm như vậy, và về điểm này, chúng tôi không khác gì OpenAI.

Vì vậy, tôi muốn nói rằng: các biện pháp mà OpenAI áp dụng về cơ bản không thể giải quyết vấn đề.

Lý do họ chấp nhận các giải pháp này còn chúng ta thì không, về bản chất là: họ quan tâm đến việc trấn an nhân viên, còn chúng ta thì thực sự quan tâm đến việc ngăn chặn lạm dụng.

Các giải pháp này không phải là vô giá trị, chúng tôi cũng đang sử dụng một phần trong số đó, nhưng chúng hoàn toàn không đủ tiêu chuẩn an toàn cần thiết. Đồng thời, Bộ Quốc phòng rõ ràng không đối xử với OpenAI và chúng ta một cách nhất quán.

Thực tế, chúng tôi đã cố gắng đưa vào hợp đồng một số điều khoản về an toàn tương tự như của OpenAI (như bổ sung cho AUP, vì theo chúng tôi, AUP mới là phần quan trọng hơn), nhưng Bộ đã từ chối. Bằng chứng rõ ràng nằm trong chuỗi email thảo luận lúc đó. Vì tôi bận rộn, có thể sẽ để các đồng nghiệp sau này tìm lại các điều khoản cụ thể. Do đó, câu “Điều khoản của OpenAI đã được cung cấp cho chúng tôi và chúng tôi đã từ chối” không chính xác; tương tự, “Điều khoản của OpenAI có thể ngăn chặn hiệu quả giám sát quy mô lớn trong nước hoặc vũ khí hoàn toàn tự động” cũng không đúng.

Thêm nữa, các phát biểu của Sam và OpenAI còn ngụ ý rằng, các giới hạn đỏ mà chúng tôi đề xuất, như vũ khí hoàn toàn tự động và giám sát quy mô lớn trong nội địa, vốn đã là hành vi phạm pháp, nên các chính sách sử dụng liên quan là thừa thãi. Cách nói này gần như hoàn toàn trùng khớp với tuyên bố của Bộ Quốc phòng, dường như đã được phối hợp từ trước.

Nhưng điều đó không đúng sự thật.

Như chúng tôi đã giải thích trong tuyên bố hôm qua, Bộ Quốc phòng thực sự có quyền tiến hành giám sát trong nội địa. Trong quá khứ, khi chưa có AI, các quyền này còn hạn chế, nhưng trong thời đại AI, ý nghĩa của chúng đã hoàn toàn khác.

Ví dụ, Bộ Quốc phòng có thể hợp pháp mua số lượng lớn dữ liệu cá nhân của công dân Mỹ từ các nhà cung cấp (thường thông qua các điều khoản đồng ý của người dùng ẩn danh), sau đó dùng AI phân tích quy mô lớn các dữ liệu này để xây dựng hồ sơ công dân, đánh giá xu hướng chính trị, theo dõi hành trình trong không gian thực, thậm chí còn có thể lấy dữ liệu GPS.

Một điểm nữa cần chú ý: khi đàm phán gần kết thúc, Bộ đề xuất rằng nếu chúng tôi loại bỏ một điều khoản trong hợp đồng liên quan đến “phân tích dữ liệu thu thập quy mô lớn” (analysis of bulk acquired data), họ sẽ chấp nhận tất cả các điều khoản còn lại của chúng tôi. Và điều khoản này chính là điều duy nhất trong hợp đồng phản ánh chính xác các tình huống mà chúng tôi lo ngại nhất. Chúng tôi rất nghi ngờ về điều này.

Về vấn đề vũ khí tự động, Bộ tuyên bố rằng “con người phải nằm trong vòng lặp” là yêu cầu pháp lý. Nhưng thực tế không phải vậy. Đó chỉ là một chính sách của Pentagon dưới thời chính quyền Biden, yêu cầu phải có sự tham gia của con người trong quyết định phóng vũ khí. Chính sách này có thể bị Bộ trưởng Quốc phòng đương nhiệm Pete Hegseth đơn phương sửa đổi — và đó chính là điều chúng tôi thực sự lo ngại. Do đó, từ góc độ thực tế, đây không phải là một giới hạn thực sự.

Các phát ngôn của OpenAI và Bộ Quốc phòng về các vấn đề này, hoặc là nói dối, hoặc là cố tình gây rối loạn. Những sự thật này hé lộ một mô hình hành vi, và tôi đã thấy mô hình này rất nhiều lần ở Sam Altman. Tôi hy vọng mọi người có thể nhận diện được.

Sáng nay, anh ta ban đầu tuyên bố đồng tình với giới hạn đỏ của Anthropic, mục đích là để thể hiện sự ủng hộ chúng tôi, từ đó lấy lòng và chia phần công lao, đồng thời tránh bị chỉ trích khi tiếp nhận hợp đồng. Anh ta còn cố gắng tự xây dựng hình ảnh như một người muốn “thiết lập tiêu chuẩn hợp đồng thống nhất cho toàn ngành” — tức là một người hòa giải và trung gian trong các giao dịch.

Nhưng đằng sau, anh ta đang ký hợp đồng với Bộ Quốc phòng, chuẩn bị thay thế chúng ta ngay khi bị coi là rủi ro chuỗi cung ứng.

Song song đó, anh ta phải đảm bảo quá trình này trông không giống như “khi Anthropic giữ vững giới hạn đỏ, còn OpenAI thì từ bỏ giới hạn của mình”. Và điều này có thể thực hiện được vì:

Thứ nhất, anh ta có thể ký tất cả các biện pháp “diễn kịch an toàn” mà chúng tôi từ chối, và Bộ cùng các đối tác của họ cũng sẵn lòng hợp tác, đóng gói các biện pháp này đủ đáng tin để trấn an nhân viên của anh ta.

Thứ hai, Bộ sẵn sàng chấp nhận một số điều khoản mà khi chúng tôi đề xuất, lại bị từ chối.

Chính hai điểm này đã giúp OpenAI có thể đạt được thỏa thuận mà chúng tôi thì không.

Nguyên nhân thực sự khiến Bộ Quốc phòng và chính quyền Trump không thích chúng tôi là: chúng tôi không quyên góp chính trị cho Trump (trong khi OpenAI và Greg Brockman đã quyên góp rất nhiều); chúng tôi không ca ngợi Trump theo kiểu độc tài (còn Sam thì có); chúng tôi ủng hộ quản lý AI, điều này đi ngược lại chính sách của họ; chúng tôi thẳng thắn về nhiều vấn đề chính sách AI (ví dụ như thay thế công việc bằng AI); và chúng tôi thực sự giữ vững các giới hạn đỏ, chứ không làm “diễn kịch an toàn” để trấn an nhân viên.

Sam hiện đang cố gắng mô tả tất cả những điều này thành: chúng tôi khó hợp tác, thái độ cứng rắn, thiếu linh hoạt, v.v. Tôi muốn mọi người nhận ra rằng, đây chính là một dạng thao túng kiểu khí gaslighting điển hình.

Cách nói mơ hồ như “một người không hợp tác tốt” thường được dùng để che giấu những lý do thực sự xấu xa — chính là những điều tôi vừa đề cập: quyên góp chính trị, trung thành chính trị, và các màn trình diễn an toàn.

Mọi người cần hiểu rõ điều này và phản bác lại những câu chuyện kiểu đó khi nói chuyện riêng với nhân viên OpenAI.

Nói cách khác, Sam đang dùng “ủng hộ chúng tôi” để làm yếu đi lập trường của chúng ta. Tôi hy vọng mọi người tỉnh táo về điều này: anh ta qua việc làm yếu đi sự ủng hộ của công chúng dành cho chúng ta, khiến chính phủ dễ dàng trừng phạt chúng ta hơn. Thậm chí, tôi còn nghi ngờ rằng anh ta có thể đang âm thầm thúc đẩy, mặc dù hiện tại chưa có bằng chứng trực tiếp.

Trên phương diện công khai và truyền thông, cách nói này dường như đã mất tác dụng. Phần lớn mọi người đều cho rằng các giao dịch của OpenAI với Bộ Quốc phòng đáng ngờ, thậm chí gây lo ngại, và coi chúng ta là bên giữ vững nguyên tắc (nhân tiện, hiện tại chúng ta đã đứng thứ hai trong bảng xếp hạng tải xuống của App Store).

【Chú thích: Sau đó Claude đã leo lên vị trí số 1 trong App Store.】

Dĩ nhiên, câu chuyện này đã có tác dụng với một số kẻ ngốc trên Twitter, nhưng điều đó không quan trọng. Điều tôi thực sự lo ngại là làm sao để nó không ảnh hưởng đến nội bộ nhân viên của OpenAI.

Do hiệu ứng chọn lọc, họ vốn đã là nhóm người dễ bị thuyết phục. Nhưng việc phản bác những câu chuyện Sam đang rao giảng cho chính nhân viên của mình vẫn rất quan trọng.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim