企業-AI-Datenoptimierungs-Neuwerkzeug Blockify wurde am 9. Mai von akshay_pachaar kuratiert und beworben. Dabei wird behauptet, dass es im RAG-(Retrieval-Augmented Generation)-Prozess Unternehmensdaten um 40-fach komprimieren, den Token-Verbrauch bei Abfragen um 3-fach senken und die Treffergenauigkeit der Vektorsuche um 2,3-fach erhöhen kann. Die offizielle GitHub-Erklärung von Blockify lautet: Das Produkt wird von Iternal Technologies herausgegeben, nutzt mit dem „IdeaBlock“-Schema strukturierte Wissenseinheiten anstelle des traditionellen chunking und hält die Wissensdatenbank durch De-Duplication und Zusammenführung schlank, kohärent und verwaltbar.
Kernkonzept: IdeaBlock ersetzt traditionelles chunking
Technisches Design von Blockify:
Traditioneller Ansatz: Lange Dokumente in feste Chunk-Größen schneiden, Vektor-Einbettungen erstellen, bei der Suche top-k abrufen
Ansatz von Blockify: Rohinhalte in IdeaBlock umwandeln – XML-strukturierte Wissenseinheiten
Jeder IdeaBlock enthält: eigene Frage, vertrauenswürdige Antwort, Tags, Entitäten, Schlüsselwörter
Ähnliche IdeaBlocks werden automatisch de-dupliciert und zusammengeführt, sodass die Wissensdatenbank nicht mit dem Inhaltswachstum „aufbläht“
Das Problem von traditionellem chunking ist, dass dieselbe Information in mehreren Chunks wiederholt auftauchen kann, was Suchredundanz und Token-Verschwendung verursacht; IdeaBlock erhöht die Informationsdichte, indem es doppelte Inhalte per De-Duplication entfernt – und derselbe Inhalt wird mit weniger Speicherplatz ausgedrückt.
Konkrete Vorteile: Komprimierung um 40-fach, Token um 3-fach reduzieren, Genauigkeit um 2,3-fach steigern
Von Blockify veröffentlichte konkrete Kennzahlen:
Datenkomprimierung: Die Unternehmensdatenbank wird auf etwa 2,5% der ursprünglichen Größe reduziert (40-fach komprimiert), wobei mehr als 99% der Informationen erhalten bleiben
Token pro Abfrage: von etwa 303 (traditionelle Chunks) auf etwa 98 (IdeaBlock) – 3,09-fach Effizienz
Genauigkeit der Vektorsuche: Steigerung um 2,29-fach
Gesamtverbesserung der Trefferquote: etwa 78-fach (kombinierte Wirkung aus De-Duplication und Verbesserungen bei der Suche)
Kosteneinsparungsrechnung: 100 Millionen Abfragen/Jahr, Einsparung bei Token-Kosten von rund 738.000 US-Dollar
Die 78-fach verbesserte Gesamtgenauigkeit ist ein zusammengesetzter Effekt: De-Duplication reduziert Rauschen, Inhalte im IdeaBlock-Strukturformat sind vektorsuche-freundlicher, und die Anzahl der Token pro Antwort sinkt zugleich, wodurch auch der Spielraum für Modellfehler kleiner wird.
Integrationsbereich: LlamaIndex, LangChain, Milvus, Cloudflare und weitere gängige Frameworks
Bereits integrierte Entwickler-Tools und Infrastruktur von Blockify:
RAG-Frameworks: LlamaIndex, LangChain
Wissensmanagement: Obsidian
Vektordatenbanken: Milvus, Elastic, Supabase
Edge-Computing: Cloudflare
Low-Code-Integration: n8n (über Workflow-Templates)
Die Integrationsstrategie von Blockify ist: „Bestehende RAG-Frameworks nicht ersetzen, sondern als vorgelagerte Datenoptimierungs-Schicht fungieren“. Entwickler können in bestehenden LlamaIndex- oder LangChain-Prozessen den chunking-Schritt durch Blockify ersetzen; der übrige Ablauf bleibt unverändert.
Konkrete, später verfolgbar Ereignisse: Wachstum der Blockify-GitHub-Sternzahlen und die Community-Akzeptanz, ob Iternal Technologies für die Idee der IdeaBlock-Struktur ein Patent beantragt oder technische Details offengelegt (aktuell wird „patented ingestion“ beworben), sowie ob gängige RAG-Frameworks ähnliche De-Duplication-Logik als Standardfunktion integrieren.
Dieser Artikel Blockify rewritet Enterprise-RAG: IdeaBlock statt chunking, 40-fach komprimieren, Token um 3-fach reduzieren erschien zuerst in der Ketten-News ABMedia.
Verwandte Artikel
Tencent Yuan Bao startet heute die Funktion „Chat-Zusammenfassung“ in WeChat
XYO bringt am 12. Mai ein KI-SDK auf den Markt, um Blockchain-Entwicklung ohne Solidity-Kenntnisse zu ermöglichen
WeChat ermöglicht jetzt Ein-Klick-Weiterleitung von Nachrichten an Yuanbao AI für eine sofortige Zusammenfassung
Wu Jihan: 1万 GPU als Einsatz-Ziel; Bitcoin Xiaolu: AI-Cloud-Jahresumsatz im April um 60% gestiegen
SAP investiert in n8n mit einer Bewertung von 5,2 Milliarden US-Dollar über einen Secondary-Share-Sale
The Graph startet die x402-Zahlungsfunktion, die den USDC-basierten, nutzungsabhängigen On-Chain-Datenzugriff unterstützt, am 12. Mai