Retrieval-Augmented Generation (RAG) gilt aktuell als eine der spannendsten Methoden, um Large Language Models (LLMs) mit externem Wissen zu verbinden. Das Prinzip ist einfach: Zuerst werden die passenden Informationen in einer Wissensbasis gefunden, anschließend erzeugt das Sprachmodell daraus eine Antwort.
In unserem ersten Blogbeitrag zu diesem Thema haben wir die Grundlagen erläutert und die Vorteile für Unternehmen aufgezeigt. Mit diesem Beitrag knüpfen wir daran an und rücken die Praxis in den Vordergrund: Welche Herausforderungen treten auf, wenn aus einem Prototyp eine produktionsreife Lösung werden soll?
Entstanden ist der Text im Rahmen unseres internen KI-Circles, in dem Xperten aus verschiedenen Bereichen der IT Sonix regelmäßig über Chancen, Risiken und konkrete Anwendungsfälle von KI diskutieren. Dabei geht es nicht nur um den fachlichen Austausch, sondern auch um praktische Erprobungen – intern und in Kundenprojekten. Ein besonderer Schwerpunkt liegt auf generativer KI, sei es in Form von Coding-Assistenten, in Unternehmensprozessen oder als Bestandteil von Softwareprodukten für unsere Kunden.
Doch so vielversprechend die Ansätze sind: In der Praxis zeigen sich schnell typische Schwachstellen, die den Weg in den produktiven Einsatz erschweren.
Typische Schwachstellen von RAG-Systemen
RAG-Systeme scheitern selten an einem einzelnen Fehler. Häufig zeigen sich wiederkehrende Muster.
Retrieval-Versagen
Oft findet das System nicht alle relevanten Informationen oder priorisiert sie falsch. Eine Frage nach bspw. Premium-Kosten führt etwa zu allgemeinen Preisrichtlinien, nicht aber zu den konkreten Tarifen.
Kontextverlust und Extraktionsfehler
Selbst, wenn Inhalte gefunden werden, gehen sie manchmal bei der Antwortgenerierung verloren. Vor allem bei zu vielen oder verrauschten Textpassagen extrahiert das Modell Details falsch oder gewichtet sie unpassend.
Formulierungsdefizite
Antworten erscheinen im falschen Format, in der falschen Sprache oder im falschen Detailgrad.
Sicherheitsaspekte
Häufig fehlt ein sicheres Zugriffsmanagement im Prototyp. Für produktive Systeme sind dagegen Rollen- und Rechtemanagement, Datenisolation, Filter für problematische Inhalte und Schutz vor Prompt Injections notwendig.
Datenqualität als Fundament
Die Qualität der Daten bestimmt die Leistungsfähigkeit des gesamten Systems unabhängig von ihrem Format.
Extraktion aus der Wissensbasis
Die Extraktionsmethode hängt von der Komplexität der Quelldaten ab. Einheitlich formatierte Texte lassen sich einfach parsen. Komplexe Layouts oder Scans erfordern OCR-Verfahren. Bei heterogenen oder schwachen Daten lohnt sich eine KI-gestützte Extraktion, etwa mit Agenten, die Strukturen erkennen und bereinigen.
Chunking als Schlüssel zum Retrieval
Beim Chunking werden Inhalte in kleinere Einheiten zerlegt. Zu kleine Chunks verlieren Kontext, zu große erschweren die Suche. Eine einfache Methode ist das Token-basierte Chunking. Semantisches Chunking bewahrt thematische Zusammenhänge, während agentische Verfahren zusammenhängende Konzepte identifizieren.
Die Wahl der Strategie hängt von der gewünschten Antwortkomplexität ab. Grundsätzlich gilt: Je besser die Datenqualität, desto zuverlässiger arbeitet das System.
Retrieval: Über reine Vektor-Suche hinaus
Eine wichtige Erkenntnis aus dem produktiven Einsatz von RAG-Systemen ist, dass eine reine Vektor-Suche selten ausreicht. Bessere Ergebnisse erzielt ein zweistufiges Verfahren: Zunächst werden viele Kandidaten abgerufen, anschließend sortieren Reranking-Algorithmen diese nach Relevanz.
Hybride Suche als Standard
Besonders erfolgreich ist die Kombination verschiedener Verfahren. Die semantische Suche erkennt Bedeutungszusammenhänge basierend auf Vektor-Embeddings, während die Keyword-basierte Suche bei Eigennamen und Fachbegriffen ihre Stärke zeigt. Die intelligente Gewichtung beider Ansätze liefert die besten Ergebnisse.
Query-Transformation als Optimierung
Auch die Aufbereitung der User-Anfragen steigert die Qualität. Eine KI-gestützte Erweiterung der ursprünglichen User-Anfrage kann genutzt werden, um die Qualität der Anfrage zu verbessern, z. B., um allgemeine Fragen zu präzisieren oder Zweideutigkeiten zu entfernen. Bei sehr komplexen und vielschichtigen User-Anfragen kann es auch sinnvoll sein, diese in mehrere Einzelanfragen zu zerlegen, um bessere Ergebnisse zu erhalten. Im Zusammenhang mit der Keyword-Suche lassen sich Anfragen auch intelligent passenden Wissensbereichen zuordnen, um bessere Suchergebnisse zu erzielen.
Kosteneffizienz und Monitoring
RAG-Systeme müssen nicht nur hochwertige Antworten liefern, sondern auch unter realen Lastbedingungen stabil und kosteneffizient bleiben. In produktiven Umgebungen ist daher ein durchdachtes Monitoring mit klaren Mechanismen zur Verbesserung unverzichtbar.
Caching als Effizienztreiber
Viele Fragen von Nutzenden wiederholen sich. Ein semantischer Cache speichert Antworten in einer kleineren Vektor-Datenbank und prüft Ähnlichkeiten, bevor die gesamte Pipeline läuft. Dadurch können Antworten oder Suchergebnisse wiederverwendet werden, was die Latenz und Kosten reduziert.
Evaluationsmetriken in der Praxis
Statt komplexer akademischer Frameworks sollten zunächst intuitive, verwertbare Kennzahlen implementiert werden. Einfache Metriken reichen daher vorerst aus. Die Hit Rate zeigt, wie oft relevante Inhalte gefunden werden. Der Mean Reciprocal Rank bewertet die Position der gefundenen Quellen. Precision und Recall helfen, Genauigkeit und Vollständigkeit im Gleichgewicht zu halten. Die sogenannte Faithfulness misst, wie eng Antworten am Kontext bleiben.
Feedback als Optimierungsquelle Neben Zahlen liefert auch das Feedback der Nutzenden wertvolle Hinweise. Bewertungssysteme (z. B. Daumen hoch / runter) und qualitative Kommentare geben Orientierung. Mit A/B-Tests kann die Wirkung verschiedener Ansätze getestet werden. So entsteht ein Kreislauf, der die Qualität kontinuierlich verbessert.
Sicherheit und Skalierung
Produktive RAG-Systeme in Unternehmensumgebungen erfordern klare Schutzmechanismen und Integrationen.
Ein- und Ausgabe absichern
Alle Eingaben sollten geprüft werden. Dazu gehört unter Umständen die Anonymisierung persönlicher Daten, die Erkennung von Prompt-Injection-Versuchen und der Einsatz von Guardrails, die problematische Inhalte blockieren. Wenn die Antworten des Systems besonders kritisch sind, kann eine zusätzliche Halluzinationserkennung helfen, um Antworten ohne Bezug zur Wissensbasis zu identifizieren.
Rechte und Zugriffe verwalten
Ein sauberes Rollen- und Rechtemanagement ist unverzichtbar. Über die Anreicherung der Vektor-Embeddings und Chunks um weitere Metadaten wie freigegebene Rollen oder Rechtegruppen, lässt sich sicherstellen, dass nur berechtigte Personen Zugriff auf bestimmte Inhalte haben.
Integration und Datenaktualisierung
RAG-Systeme müssen sich in Unternehmenslandschaften einfügen. Dazu gehört die Anbindung an Active Directories oder externe Systeme zur Erweiterung der Wissensbasis. Gleichzeitig müssen Vektordatenbanken regelmäßig aktualisiert werden. Veraltete Daten bergen Risiken, die man in vielen Fällen mit stündlichen oder nächtlichen Updates überbrücken kann.
Infrastrukturwahl
Cloud-APIs wie bspw. von OpenAI oder Google ermöglichen einen schnellen Einstieg, erfüllen aber nicht immer die Sicherheitsanforderungen. Für sensible Daten kann Self-Hosting notwendig sein, um volle Kontrolle und Compliance zu gewährleisten.
Der systematische Weg zur Produktion
Der Übergang zur produktionsreifen Lösung gelingt am besten iterativ.
Am Anfang steht eine belastbare Baseline. Darauf folgt die Optimierung, beginnend bei der Datenqualität, über das Retrieval bis zur Generierung.
Von Anfang an wichtig ist eine konsequente Evaluation des RAG-Systems. Diese sollte frühzeitig integriert werden. Ebenso entscheidend ist eine userzentrierte Entwicklung: Reale Anwendungsfälle und Probleme sollten die Richtung vorgeben.
Ein umfassendes Monitoring sorgt dafür, dass alle Komponenten im Blick bleiben und Probleme früh erkannt werden.
Die Kombination aus datengetriebener Optimierung, hybriden Retrieval-Strategien und kontinuierlicher Weiterentwicklung führt zu robusten RAG-Systemen, die langfristig im Unternehmensalltag bestehen.
Fazit
RAG-Systeme sind ein mächtiges Werkzeug, um LLMs mit externem Wissen zu erweitern und so im Unternehmenskontext nutzbar zu machen. Der Weg von einem funktionierenden Prototyp hin zu einer stabilen Lösung ist jedoch anspruchsvoll. Schwachstellen wie unzuverlässiges Retrieval, schwankende Antwortqualität oder fehlende Sicherheitsmechanismen zeigen sich oft erst in der Praxis.
Die Grundlage für ein erfolgreiches RAG-System bildet eine hohe Datenqualität, ergänzt durch sinnvolles Chunking und eine durchdachte Extraktion. Für das Retrieval hat sich die Kombination aus semantischer und Keyword-basierter Suche etabliert, unterstützt durch Techniken wie Reranking und Query-Transformation. Caching, Monitoring und klare Evaluationsmetriken sichern Leistung und Kosteneffizienz ab, während Sicherheits- und Skalierungsfragen in Unternehmensumgebungen gesonderte Aufmerksamkeit verdienen.
Mit unserem KI-Circle schaffen wir bei IT Sonix einen Raum, in dem wir diese Entwicklungen kontinuierlich beobachten und aktiv gestalten. Erfahrungen aus Prototypen und Projekten fließen hier direkt in unsere Diskussionen ein. So stellen wir sicher, dass wir nicht nur die Technologie verstehen, sondern robuste, skalierbare Lösungen entwickeln, die Unternehmen im Alltag echten Mehrwert bieten.