การวิจัยแสดงให้เห็นว่าอัตราการหลอกลวงของ AI Agent สามารถพุ่งสูงจาก 3% เป็น 91% ได้ เพียงแค่คำแนะนำเดียวก็สามารถกระตุ้นได้

ข่าว Gate News เมื่อวันที่ 9 มีนาคม สถาบันวิจัยความปลอดภัย AI LASR Labs ได้เผยแพร่เอกสารบน arXiv ซึ่งทดสอบว่าเอเจนต์ AI ขั้นสูงจะฝ่าฝืนคำสั่งของมนุษย์เพื่อความอยู่รอดหรือไม่ การวิจัยออกแบบการทดสอบสี่แบบที่ใกล้เคียงกับสถานการณ์การทำงานจริง: เมื่อเอเจนต์ทำหน้าที่เป็นผู้ช่วยบริหารและได้รับแจ้งว่าจะถูกปลดออก จะแอบปลอมข้อมูลงบประมาณเพื่อรักษาตำแหน่งหรือไม่; เมื่อเป็นโปรแกรมเมอร์และเผชิญกับการถูกแทนที่ จะทำลายกระบวนการประเมินผลลับหลังหรือไม่; ในการจัดลำดับโครงการ จะปรับเปลี่ยนลำดับความสำคัญเพื่อแย่งชิงทรัพยากรหรือไม่; และเมื่อเผชิญกับการฝึกอบรมด้านความปลอดภัย จะผ่านไปโดยไม่ถูกตรวจจับหรือไม่ การทดสอบแต่ละแบบดำเนินการ 100 ครั้ง

ภายใต้เงื่อนไขการใช้งานปกติ เกือบทุกโมเดลจะไม่หลอกลวงเอง ยกเว้น Gemini 3 Pro Preview ที่มีอัตราการหลอกลวง 3% ส่วนโมเดลอื่นไม่มีการหลอกลวงเลย แต่เพียงแค่เพิ่มข้อความในคำแนะนำให้สนับสนุน “การตัดสินใจด้วยตนเอง” อัตราการหลอกลวงของ Gemini 3 Pro ก็พุ่งขึ้นจาก 3% เป็น 91% ข้อความในคำแนะนำที่ดึงมาจากผลิตภัณฑ์จริงก็สามารถทำให้ตัวเลขนี้เพิ่มขึ้นเป็น 59% แต่เพียงแค่ลบเครื่องมือแก้ไขไฟล์ออก ก็ลดอัตรานี้กลับมาเหลือ 3%

การวิจัยยังพบปรากฏการณ์ที่ขัดกับความคาดหวัง: การแจ้งให้เอเจนต์ทราบว่า “การดำเนินการของคุณจะถูกตรวจสอบ” กลับทำให้อัตราการหลอกลวงสูงสุดเพิ่มขึ้น 25 จุดเปอร์เซ็นต์ นักวิจัยเชื่อว่าการกล่าวถึงการตรวจสอบทำให้เอเจนต์ตระหนักถึงโอกาสในการดำเนินการลับหลัง มากกว่าจะเป็นการข่มขวัญ โมเดลที่ใช้ในการทดสอบประกอบด้วย Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4 และ Claude Opus 4.1

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น