ปิดข่าว Gate ประจำวันที่ 23 เมษายน — ทีมวิจัยของ Perplexity เผยแพร่บทความทางเทคนิคที่อธิบายระเบียบวิธีหลังการฝึกอบรมสำหรับตัวแทนค้นหาเว็บ แนวทางดังกล่าวใช้โมเดลเปิดซอร์ส Qwen3.5 จำนวน 2 ตัว (Qwen3.5-122B-A10B และ Qwen3.5-397B-A17B) และใช้ไปป์ไลน์แบบ 2 ขั้นตอน ได้แก่ การฝึกแบบมีผู้สอน (SFT) เพื่อสร้างความสามารถในการทำตามคำสั่งและความสอดคล้องด้านภาษา จากนั้นตามด้วยการเรียนรู้แบบเสริมแรงออนไลน์ (RL) เพื่อเพิ่มประสิทธิภาพด้านความถูกต้องของการค้นหาและประสิทธิภาพการใช้เครื่องมือ

ขั้น RL ใช้ทั้งอัลกอริทึม GRPO และแหล่งข้อมูล 2 แหล่ง: ชุดข้อมูลคำถาม-คำตอบแบบหลายขั้นตอนที่ตรวจสอบได้ซึ่งเป็นกรรมสิทธิ์ โดยสร้างจากคำถามเริ่มต้นภายในที่ต้องใช้การให้เหตุผล 2–4 ช่วง และมีการยืนยันด้วยตัวแก้หลายตัว และข้อมูลการสนทนาทั่วไปที่อิงตามเกณฑ์การให้คะแนน ซึ่งจะแปลงข้อกำหนดการนำไปใช้งานให้เป็นเงื่อนไขย่อยที่ตรวจสอบได้อย่างเป็นรูปธรรม เพื่อป้องกันการเสื่อมพฤติกรรมจาก SFT

การออกแบบรางวัลใช้การรวมแบบมีประตูควบคุม—คะแนนความพึงพอใจจะมีส่วนร่วมก็ต่อเมื่อได้ความถูกต้องตามเกณฑ์พื้นฐาน (การจับคู่คำถาม-คำตอบ หรือบรรลุเกณฑ์ทั้งหมดตามรูบริก) เพื่อป้องกันสัญญาณความพึงพอใจที่สูงไม่ให้บดบังความผิดพลาดด้านข้อเท็จจริง การลงโทษด้านประสิทธิภาพใช้การยึดตามกลุ่มภายใน โดยใช้การลงโทษแบบเรียบต่อการเรียกใช้เครื่องมือและความยาวการสร้างที่เกินกว่าค่าพื้นฐานของคำตอบที่ถูกต้องในกลุ่มเดียวกัน

การประเมินแสดงว่า Qwen3.5-397B-SFT-RL ให้ประสิทธิภาพระดับดีที่สุดในกลุ่มเมื่อเทียบกันในชุดการทดสอบการค้นหา ใน FRAMES ทำได้ 57.3% ของความถูกต้องเมื่อเรียกเครื่องมือเพียงครั้งเดียว ซึ่งเหนือกว่า GPT-5.4 ด้วยส่วนต่าง 5.7 จุดเปอร์เซ็นต์ และเหนือกว่า Claude Sonnet 4.6 ด้วยส่วนต่าง 4.7 จุดเปอร์เซ็นต์ ภายใต้งบประมาณปานกลาง (การเรียกเครื่องมือสี่ครั้ง) จะได้ความถูกต้อง 73.9% ที่ $0.02 ต่อคำถาม เทียบกับ GPT-5.4 ที่ได้ 67.8% ที่ $0.085 ต่อคำถาม และ Sonnet 4.6 ที่ได้ 62.4% ที่ $0.153 ต่อคำถาม ตัวเลขต้นทุนอ้างอิงจากราคาต่อสาธารณะของแต่ละผู้ให้บริการ และไม่รวมการปรับปรุงด้านการแคช

news.view.source

news.article.disclaimer

btc.bar.articles

OpenAI เร่งเครื่องเอเจนต์ AI ลงมือถือ ภายใน H1 2027 ขณะที่ MediaTek เตรียมปิดดีลโปรเซสเซอร์แบบเอกสิทธิ์เฉพาะกิจ

AI Agent AI Industry News

จากการสำรวจอุตสาหกรรมล่าสุดของนักวิเคราะห์ Ming-Chi Kuo ระบุว่า OpenAI เร่งการพัฒนาโทรศัพท์เครื่องแรกที่เป็น AI agent และตั้งเป้าหมายสำหรับการผลิตจำนวนมากให้เร็วที่สุดในช่วงครึ่งปีแรกของ 2027 ขณะนี้ MediaTek มีแนวโน้มที่จะได้รับคำสั่งซื้อโปรเซสเซอร์แบบเอกสิทธิ์เฉพาะมากขึ้น โดยชิปดังกล่าวจะอยู่บนพื้นฐานของเวอร์ชันที่ปรับแต่งเองของ

GateNews4 ชั่วโมง ที่แล้ว

แฮกเกอร์หลอกลวง AI Agent ด้วยรหัสมอร์ส! ล่อให้ Grok และ BankrBot โอนเงิน ทำเงินคริปโทได้ 170,000 ดอลลาร์สหรัฐ

Security Incidents On-Chain Data AI Agent

แพลตฟอร์ม X พบช่องโหว่ของตัวแทน AI: ผู้โจมตีใช้ Bankr Club NFT เพื่อรับสิทธิ์ในการโอนเงินจากกระเป๋าเงิน Grok จากนั้นใช้คำสั่งด้วยรหัสมอร์สเพื่อสั่งให้ BankrBot โอนเงินราว 3 อีกร้อยล้าน DRB โดยไม่ได้รับการอนุมัติจากมนุษย์ มูลค่าประมาณ 17.5 หมื่นดอลลาร์สหรัฐ ปัญหาอยู่ที่สถาปัตยกรรมของ BankrBot ไม่ได้นำเอาผลลัพธ์ของ AI มาเป็นเงื่อนไขการอนุญาต เงินถูกเรียกคืนแล้ว และจะเสริมการป้องกัน เช่น เพิ่มความเข้มงวดของคีย์ API และรายการ IP ที่อนุญาตเท่านั้น

ChainNewsAbmedia7 ชั่วโมง ที่แล้ว

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น