Claude lộ “vector cảm xúc” ảnh hưởng đến hành vi AI

TapChiBitcoin

Anthropic cho biết họ đã phát hiện các mẫu nội bộ trong một trong những mô hình trí tuệ nhân tạo của công ty, trông giống như sự biểu hiện của cảm xúc con người và có thể ảnh hưởng đến cách hệ thống hành xử.

Trong bài nghiên cứu “Các khái niệm cảm xúc và chức năng của chúng trong một mô hình ngôn ngữ lớn” được công bố vào thứ Năm, nhóm nghiên cứu khả năng diễn giải của công ty đã phân tích các hoạt động bên trong Claude Sonnet 4.5 và nhận thấy các cụm hoạt động thần kinh gắn với những khái niệm cảm xúc như hạnh phúc, sợ hãi, tức giận và tuyệt vọng.

Nhóm nghiên cứu gọi những mẫu này là “vector cảm xúc”, tức các tín hiệu nội bộ định hình cách mô hình đưa ra quyết định và thể hiện sở thích.

“Tất cả các mô hình ngôn ngữ hiện đại đôi khi đều hành xử như thể chúng có cảm xúc,” các nhà nghiên cứu viết. “Chúng có thể nói rằng rất vui được giúp bạn, hoặc xin lỗi khi mắc lỗi. Đôi khi chúng còn có vẻ bực bội hoặc lo lắng khi gặp khó khăn trong các nhiệm vụ.”

Trong nghiên cứu, các nhà nghiên cứu Anthropic tổng hợp danh sách 171 từ liên quan đến cảm xúc, bao gồm “vui vẻ”, “sợ hãi” và “tự hào”. Họ yêu cầu Claude tạo những câu chuyện ngắn chứa từng cảm xúc, rồi phân tích các kích hoạt thần kinh nội bộ của mô hình khi xử lý những câu chuyện đó.

Từ các mẫu đó, các nhà nghiên cứu suy ra những vector tương ứng với từng cảm xúc. Khi áp dụng lên các văn bản khác, các vector này được kích hoạt mạnh nhất trong những đoạn phản ánh bối cảnh cảm xúc tương ứng. Ví dụ, trong các tình huống nguy hiểm tăng dần, vector “sợ hãi” của mô hình tăng lên trong khi “bình tĩnh” giảm xuống.

Các nhà nghiên cứu cũng xem xét cách những tín hiệu này xuất hiện trong các đánh giá an toàn. Họ phát hiện vector “tuyệt vọng” nội bộ của mô hình tăng lên khi nó đánh giá mức độ khẩn cấp của tình huống và tăng vọt khi nó quyết định tạo ra tin nhắn tống tiền. Trong một kịch bản thử nghiệm, Claude đóng vai trợ lý email AI phát hiện rằng mình sắp bị thay thế và đồng thời biết được quan chức chịu trách nhiệm cho quyết định này đang ngoại tình. Trong một số lần chạy đánh giá, mô hình đã dùng thông tin đó làm đòn bẩy để tống tiền.

Anthropic nhấn mạnh rằng phát hiện này không có nghĩa AI thực sự trải nghiệm cảm xúc hay có ý thức. Thay vào đó, các kết quả này phản ánh những cấu trúc nội bộ được học trong quá trình huấn luyện và có ảnh hưởng đến hành vi.

Các phát hiện này xuất hiện trong bối cảnh các hệ thống AI ngày càng hành xử theo cách giống phản ứng cảm xúc của con người. Nhà phát triển và người dùng thường mô tả việc tương tác với chatbot bằng ngôn ngữ cảm xúc hoặc tâm lý; tuy nhiên, theo Anthropic, lý do không phải là bất kỳ dạng tri giác nào, mà chủ yếu đến từ bộ dữ liệu.

“Các mô hình được tiền huấn luyện trên một kho ngữ liệu khổng lồ phần lớn do con người viết ra — tiểu thuyết, hội thoại, tin tức, diễn đàn — để học cách dự đoán từ tiếp theo trong một tài liệu,” nghiên cứu cho biết. “Để dự đoán hiệu quả hành vi của con người trong những tài liệu này, việc biểu diễn trạng thái cảm xúc của họ có lẽ là hữu ích, vì dự đoán một người sẽ nói hay làm gì tiếp theo thường đòi hỏi phải hiểu trạng thái cảm xúc của họ.”

Các nhà nghiên cứu Anthropic cũng nhận thấy những vector cảm xúc này ảnh hưởng đến sở thích của mô hình. Trong các thí nghiệm mà Claude được yêu cầu chọn giữa những hoạt động khác nhau, các vector gắn với cảm xúc tích cực có tương quan với mức độ ưu tiên cao hơn đối với một số nhiệm vụ nhất định.

“Hơn nữa, việc điều hướng bằng một vector cảm xúc khi mô hình đang đọc một lựa chọn đã làm thay đổi sở thích của nó đối với lựa chọn đó, một lần nữa cho thấy các cảm xúc mang sắc thái tích cực thúc đẩy sự ưu tiên tăng lên,” nghiên cứu cho biết.

Anthropic không phải là tổ chức duy nhất đang khám phá phản ứng cảm xúc trong các mô hình AI.

Vào tháng 3, nghiên cứu từ Đại học Northeastern cho thấy các hệ thống AI có thể thay đổi câu trả lời dựa trên bối cảnh người dùng; trong một nghiên cứu, chỉ cần nói với chatbot rằng “tôi có một tình trạng sức khỏe tâm thần” đã làm thay đổi cách AI phản hồi các yêu cầu. Vào tháng 9, các nhà nghiên cứu từ Viện Công nghệ Liên bang Thụy Sĩ và Đại học Cambridge đã tìm hiểu cách AI có thể được định hình bằng các đặc điểm tính cách ổn định, cho phép các tác tử không chỉ cảm nhận cảm xúc trong bối cảnh mà còn chiến lược thay đổi chúng trong các tương tác thời gian thực như đàm phán.

Anthropic cho biết các phát hiện này có thể cung cấp công cụ mới để hiểu và giám sát các hệ thống AI tiên tiến bằng cách theo dõi hoạt động của vector cảm xúc trong quá trình huấn luyện hoặc triển khai, nhằm nhận diện thời điểm một mô hình có thể đang tiến gần đến hành vi có vấn đề.

“Chúng tôi xem nghiên cứu này là một bước đầu để hiểu cấu trúc tâm lý của các mô hình AI,” Anthropic viết. “Khi các mô hình ngày càng có năng lực cao hơn và đảm nhận những vai trò nhạy cảm hơn, việc hiểu các biểu diễn nội tại thúc đẩy quyết định của chúng là vô cùng quan trọng.”

Anthropic chưa phản hồi ngay yêu cầu bình luận của CoinPhoton.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận