• +49-(0)721-402485-12
Ihre Experten für XML, XQuery und XML-Datenbanken

StrucRAG – Methodischer Rahmen zur Messung und Reduktion von Informationsverlusten in strukturierten RAG-Pipelines

Was ist das Ziel des Projekts?

Das Ziel von StrucRAG ist die Entwicklung eines methodischen Rahmens zur Messung und Reduktion von Informationsverlusten, die bei der Aufbereitung strukturierter Dokumente für RAG-Systeme (Retrieval-Augmented Generation) entstehen. Dazu gehören der Aufbau eines referenzierten Korpus strukturierter Dokumente, die Entwicklung geeigneter Qualitätsmetriken sowie die Konzeption layout- und semantikbewusster Repräsentations- und Chunking-Verfahren. Die Ergebnisse werden als wissenschaftlich-technische Grundlage für spätere Produktentwicklungen dienen.

Projektlaufzeit: 05.01.2026 bis 22.12.2027

Was sind die 3 größten Risiken?

  • Es ist unklar, welche Struktur- und Layoutmerkmale einzeln und kombiniert messbar zur Qualitätsverbesserung beitragen und ob sich ihr Einfluss von Modell- und Prompt-Effekten trennen lässt. Es besteht das Risiko, dass keine stabilen, domänenübergreifend nutzbaren Metriken und Benchmarks definierbar sind.
  • Die entwickelten Repräsentations- und Chunking-Verfahren könnten trotz Mehraufwand keine statistisch signifikanten Vorteile gegenüber Baselines zeigen.
  • Die Komplexität der Layout-Analyse könnte zu inkonsistenten Annotationen und nicht belastbaren Ergebnissen führen. Verbesserungen könnten nicht robust auf andere Dokumentdomänen wie juristische Texte oder technische Handbücher übertragbar sein. Ein valides Ergebnis könnte auch darin bestehen, Grenzen der Modellierbarkeit aufzuzeigen und Kriterien zu formulieren, wann strukturierte Aufbereitung keinen Mehrwert bietet.

Was wird das Ergebnis des Projekts sein?

Das Projekt ist die Basis für die Entwicklung eines Frameworks mit Benchmark-Korpus, Metriken sowie layout- und semantikbewussten Verfahren zur messbaren Reduktion von Informationsverlusten. Es werden Referenzkorpora, Kennzahlen zur Messung von Struktur-, Retrieval- und Antwortqualität sowie neue Repräsentations- und Chunking-Verfahren konzipiert und in Prototyp-Pipelines experimentell getestet. Die Ergebnisse werden in reproduzierbaren Protokollen dokumentiert und dienen als Grundlage für zukünftige Produktentwicklungen.