ตามการตรวจสอบ Beating Monitoring ของ Zhipu ได้รายงานว่ามีปัญหาเกี่ยวกับตัวอักษรผิดปกติ การซ้ำซ้อน และอักษรที่ไม่ค่อยพบในโมเดล GLM-5 ซีรีส์ในบริบทของ Coding Agent ตั้งแต่เดือนมีนาคมเป็นต้นมา มีผู้ใช้งานรายงานว่าปัญหาเกิดขึ้นเฉพาะในงาน Coding Agent ที่มีการประมวลผลพร้อมกันสูงและมีบริบทยาว (เฉลี่ยเกิน 70K โทเคน) เท่านั้น ไม่สามารถทำซ้ำได้ในสภาพแวดล้อมการอนุมานมาตรฐาน Zhipu ระบุว่าระบบการอนุมานของตนรับภาระการเรียกใช้งาน Coding Agent วันละหลายร้อยล้านครั้ง
หลังจากการตรวจสอบหลายสัปดาห์ ทีมงานได้ระบุจุดบกพร่องสองจุดที่เป็น race condition ในระดับพื้นฐานที่แยกจากกัน จุดแรกเกิดขึ้นในสถาปัตยกรรม PD แยก (แยกการเติมข้อมูลล่วงหน้าและการถอดรหัสไปยังโหนดต่าง ๆ): เมื่อฝั่งการถอดรหัสหยุดคำขอชั่วคราวเนื่องจากหมดเวลาแล้วจะทำการเก็บ KV Cache (แคชสถานะความสนใจที่คำนวณแล้วเพื่อหลีกเลี่ยงการคำนวณซ้ำ) แต่ฝั่งการเติมข้อมูลล่วงหน้าการเขียน RDMA ยังไม่เสร็จสมบูรณ์ คำขอใหม่จะถูกจัดสรรไปยังหน่วยความจำ GPU เดียวกัน ข้อมูลเก่าแทนที่ข้อมูลใหม่ วิธีการแก้ไขคือเพิ่มการซิงโครไนซ์แบบชัดเจนก่อนการเก็บข้อมูล เพื่อยืนยันว่าการเขียนเสร็จสมบูรณ์ก่อนปล่อย หลังจากอัปเดตอัตราความผิดปกติลดลงจากประมาณ 0.1% เหลือไม่ถึง 0.03%
จุดบกพร่องที่สองเกิดขึ้นใน HiCache (แคช KV หลายระดับ): เมื่อโหลดข้อมูลจากหน่วยความจำ CPU เข้าสู่แคชแบบอะซิงโครนัส ระหว่างสายการผลิตการโหลดและการคำนวณขาดจุดซิงโครไนซ์ ทำให้ฝั่งการคำนวณอาจเริ่มอ่านข้อมูลก่อนที่ข้อมูลจะโหลดเสร็จสมบูรณ์ หลังจากการแก้ไข ปัญหานี้ก็หายไปอย่างสมบูรณ์ และแพตช์ได้ถูกส่งไปยังชุมชน SGLang (PR #22811)
ระหว่างการตรวจสอบ ยังพบสิ่งที่ไม่คาดคิดอีกด้วย: ตัวชี้วัดอัตราการรับคำ (acceptance rate) ของเทคนิคการ sampling แบบคาดการณ์ (ใช้โมเดลเล็กทายโทเคนก่อนแล้วให้โมเดลใหญ่ตรวจสอบเพื่อเร่งความเร็ว) สามารถใช้เป็นสัญญาณตรวจจับความผิดปกติได้ เมื่อเกิดอักษรผิดปกติ โทเคนร่างจะถูกปฏิเสธเกือบทั้งหมด ในขณะที่ในกรณีซ้ำซ้อน อัตราการรับคำจะสูงผิดปกติ ทีมงานจึงได้ทำการตรวจสอบแบบออนไลน์: เมื่อถึงค่าขีดจำกัดจะหยุดการสร้างอัตโนมัติและทำการรีเทรย์
หลังจากแก้ไขบั๊กแล้ว ทีมงานยังได้ปรับปรุงจุดคอขวดอีกด้วย: การเก็บ KV Cache แบบ LayerSplit ซึ่งเก็บข้อมูลแยกชั้นในแต่ละ GPU โดยแต่ละ GPU จะเก็บเฉพาะบางชั้นของ KV Cache แทนที่จะเก็บทั้งหมด โดยใช้การกระจายข้อมูลเพื่อประสานการคำนวณ ในอัตราการเข้าถึงแคช 90% เมื่อความยาวคำขอเพิ่มจาก 40K เป็น 120K จะทำให้ throughput เพิ่มขึ้น 10% ถึง 132% ยิ่งบริบทยาวขึ้น ผลลัพธ์ก็ยิ่งดีขึ้น
btc.bar.articles
ตัวแทน Hermes ของ Nous Research เพิ่มฟีเจอร์ Curator เพื่อทำการเกษียณทักษะที่ไม่ได้ใช้งานอัตโนมัติหลัง 30 วัน
Grok เปิดตัวโหมด Imagine Agent รุ่นเบตาพร้อม Infinite Canvas สำหรับเวิร์กโฟลว์สร้างสรรค์แบบหลายขั้นตอน
Billions Network กลายเป็นระบบนิเวศเอเจนต์ที่ใหญ่เป็นอันดับ 3 ด้วยเอเจนต์ที่ถูกใช้งานมากกว่า 18,000 ราย
Ant International เชื่อมโยงพ่อค้า 150 ล้านรายผ่านการชำระเงินที่ขับเคลื่อนด้วย AI
OKX เปิดตัวโปรโตคอลการชำระเงินสำหรับเอเจนต์ (Agent Payments) เพื่อการค้าบอท AI
Kite เปิดตัวเมนเน็ต พร้อมเปิดตัวเลเยอร์การควบคุมการชำระเงินสำหรับการอนุญาตใช้งาน AI Agent