أخبار البوابة، في 11 أبريل، نشرت شركة Ramp Labs لأعمال البنية التحتية للذكاء الاصطناعي نتائج بحث بعنوان “Latent Briefing”، حيث تمكن من تحقيق مشاركة ذاكرة فعّالة بين أنظمة متعددة الوكلاء عبر ضغط مباشر لواجهة ذاكرة التخزين المؤقت الخاصة بـ KV لنماذج اللغات الكبيرة، وبدون فقد الدقة، خفّضت بشكل كبير استهلاك الرموز (Tokens). في البنى الشائعة للأنظمة متعددة الوكلاء، يقوم المُنسّق (Orchestrator) بتقسيم المهام واستدعاء نموذج العامل (Worker) بشكل متكرر؛ ومع استمرار تمديد سلسلة الاستدلال، يتضخم عدد Tokens بشكل أُسّي. تتمثل الفكرة الأساسية لـ Latent Briefing في استخدام آلية الانتباه (Attention) لتحديد الأجزاء الحقيقية الحاسمة ضمن السياق، ثم حذف المعلومات الزائدة مباشرةً على مستوى التمثيل، بدلًا من الاعتماد على تلخيص LLM بطيء أو استرجاع RAG ذو ثبات ضعيف. في اختبار المعيار LongBench v2، أظهرت هذه الطريقة أداءً لافتًا: انخفض استهلاك Tokens لدى نموذج العامل بنسبة 65%، وبلغ متوسط توفير Tokens للوثائق متوسطة الطول (32k إلى 100k) 49%، كما تحسنت الدقة الإجمالية بنحو 3 نقاط مئوية مقارنةً بالخط الأساسي، بينما بلغ الزمن الإضافي لكل عملية ضغط حوالي 1.7 ثانية فقط، أي أسرع بنحو 20 مرة مقارنةً بالخوارزمية الأصلية. أُجريت التجارب باستخدام Claude Sonnet 4 كمُنسّق، وQwen3-14B كنموذج عامل، مع تغطية سيناريوهات وثائق متعددة مثل الأوراق الأكاديمية والمستندات القانونية والروايات وتقارير حكومية، وغيرها. كما توصلت الدراسة إلى أن عتبة الضغط المثلى تختلف باختلاف صعوبة المهمة وطول المستند: فالمهام الصعبة تناسب الضغط الأكثر حدةً لتصفية ضوضاء الاستدلال الانتهازي، بينما المستندات الطويلة تكون أكثر ملاءمة للضغط الخفيف للاحتفاظ بالمعلومات الجوهرية المتفرقة.