Gate News-Nachricht, 11. April: Das KI-Infrastrukturunternehmen Ramp Labs veröffentlicht Forschungsergebnisse „Latent Briefing“. Durch direktes Komprimieren des KV-Cache großer Sprachmodelle ermöglicht es einen effizienten Speicheraustausch zwischen Multi-Agenten-Systemen, ohne die Genauigkeit zu verlieren. Dabei wird der Token-Verbrauch deutlich gesenkt. In gängigen Multi-Agenten-Architekturen zerlegt der Orchestrator die Aufgaben und ruft wiederholt Worker-Modelle auf; mit zunehmender Länge der Inferenzkette wächst die Token-Menge exponentiell. Der Kernansatz von Latent Briefing besteht darin, mithilfe des Attention-Mechanismus die wirklich entscheidenden Teile im Kontext zu identifizieren und auf der Darstellungsebene redundante Informationen direkt zu verwerfen, statt sich auf langsame LLM-Zusammenfassungen oder instabile RAG-Recherchen zu verlassen. In den Benchmarks von LongBench v2 zeigt die Methode starke Ergebnisse: Der Token-Verbrauch des Worker-Modells sinkt um 65%. Bei Dokumenten mittlerer Länge (32k bis 100k) liegt die Token-Einsparung im Median bei 49%. Insgesamt steigt die Genauigkeit gegenüber der Basislinie um etwa 3 Prozentpunkte. Die zusätzliche Zeit pro Komprimierung beträgt lediglich rund 1,7 Sekunden, wodurch die Methode gegenüber dem ursprünglichen Algorithmus etwa 20-mal schneller wird. Die Experimente verwenden Claude Sonnet 4 als Orchestrator und Qwen3-14B als Worker-Modell und decken verschiedene Dokumentenszenarien ab, darunter wissenschaftliche Papers, juristische Schriftstücke, Romane und Regierungsberichte. Die Studie findet außerdem, dass der optimale Komprimierungs-Schwellenwert je nach Aufgabenschwierigkeit und Dokumentlänge variiert: Für schwierige Aufgaben eignet sich eine aggressive Komprimierung, um spekulative Schlussfolgerungs-„Noise“ herauszufiltern; für lange Dokumente ist hingegen eine eher leichte Komprimierung besser, um verstreute, Schlüsselinformationen zu erhalten.