Kurzfassung
  • Was: RAG (Retrieval-Augmented Generation) macht interne Dokumente per KI durchsuchbar — mit quellenbasierten Antworten statt Halluzinationen.
  • Wie: Eine 5-stufige Pipeline aus hybrider Suche, Neural Reranking und LLM-Antwortgenerierung.
  • Für wen: Unternehmen mit viel interner Dokumentation, die Wissen schneller auffindbar machen wollen — DSGVO-konform, auf eigener Infrastruktur.

Das Problem: Wissen ist da — aber niemand findet es

Jedes Unternehmen kennt das: Hunderte PDFs, Word-Dokumente, Spreadsheets und Webseiten — technische Dokumentation, Verträge, Anleitungen, Protokolle. Alles irgendwo abgelegt, aber praktisch unauffindbar, sobald man eine konkrete Frage hat.

Die klassische Volltextsuche hilft nur, wenn man den exakten Begriff kennt. Wer nach „Kündigungsfrist" sucht, findet nichts, wenn im Dokument „Beendigungszeitraum" steht. Und wer eine zusammenfassende Antwort will, muss trotzdem jedes Suchergebnis einzeln öffnen und lesen.

Das kostet Zeit — und damit Geld. Und je größer das Team, desto teurer wird das Problem.

Was ist RAG — und warum reicht ein Chatbot nicht?

Retrieval-Augmented Generation (RAG) kombiniert zwei Dinge: eine intelligente Suche über die eigenen Dokumente und eine KI, die aus den gefundenen Stellen eine präzise Antwort formuliert — mit Quellenangabe.

Der Unterschied zu einem allgemeinen Chatbot wie ChatGPT: Der kennt Ihre internen Dokumente nicht. Er halluziniert im Zweifel eine Antwort, die plausibel klingt, aber falsch ist. RAG stellt sicher, dass ausschließlich Informationen aus den tatsächlich vorhandenen Dokumenten verwendet werden. Keine Halluzinationen — dafür nachvollziehbare Quellen.

Wo RAG konkret Zeit und Geld spart

Ein konkretes Beispiel: Wissensarbeiter verbringen laut Studien bis zu 20 % ihrer Arbeitszeit mit der Suche nach Informationen. In einem Team von 20 Personen mit einem Stundensatz von 60 € sind das über 100.000 € pro Jahr, die allein für das Suchen aufgewendet werden — nicht für produktive Arbeit.

  • Schnellere Antworten: Statt 15 Minuten in Ordnerstrukturen zu wühlen, stellt man eine Frage in natürlicher Sprache und bekommt in Sekunden eine Antwort — inklusive Quellenangabe.
  • Onboarding: Neue Teammitglieder befragen die Wissensbasis sofort, statt Kolleg:innen zu unterbrechen oder sich durch Wikis zu kämpfen.
  • Konsistenz: Alle arbeiten mit derselben, aktuellen Wissensbasis. Keine veralteten lokalen Kopien.
  • Weniger Meetings: Viele interne Rückfragen erledigen sich von selbst, wenn die Antwort per Suche sofort verfügbar ist.

Unsere 5-stufige Retrieval-Pipeline im Detail

Eine einfache Vektordatenbank reicht nicht. Sie findet semantisch ähnliche Texte, versagt aber bei exakten Begriffen wie Produktnummern oder Personennamen. Umgekehrt findet eine Volltextsuche den exakten Begriff, aber nicht die Synonyme. Unser System kombiniert beides — und geht darüber hinaus.

1. Query-Expansion (LLM-Vorverarbeitung)

Bevor überhaupt gesucht wird, optimiert ein Sprachmodell die Anfrage: Tippfehler werden korrigiert, Abkürzungen aufgelöst, Pronomen aus dem Gesprächsverlauf ersetzt. „Was kostet des bei uns?" wird zu „Wie hoch sind unsere internen Kosten?" — und findet damit deutlich mehr relevante Dokumente.

2. Hybride Suche (Vektor + Volltext, parallel)

Zwei Suchmethoden laufen gleichzeitig:

  • Vektorsuche über pgvector mit 1536-dimensionalen Embeddings — findet semantisch verwandte Inhalte, auch wenn kein einziges Wort übereinstimmt.
  • Volltextsuche über PostgreSQL Full-Text Search — findet exakte Begriffe, Namen und Zahlen zuverlässig.

3. Reciprocal Rank Fusion (RRF)

Die Ergebnisse beider Suchen werden mathematisch zusammengeführt. Dokumente, die in beiden Methoden gut ranken, steigen nach oben. Das ist robuster als jede einzelne Methode allein.

4. Neural Reranking (Cross-Encoder)

Die Top-Kandidaten werden durch ein spezialisiertes Reranking-Modell neu bewertet. Im Gegensatz zur Vektorsuche, die Anfrage und Dokument getrennt betrachtet, analysiert der Cross-Encoder beides zusammen — langsamer, aber deutlich präziser für die finale Rangfolge.

5. Antwortgenerierung mit Quellenangabe

Erst auf Basis der wirklich besten Textabschnitte generiert das LLM eine Antwort. Es ist strikt angewiesen, nur Informationen aus dem bereitgestellten Kontext zu verwenden und die Quellen zu nennen. Kein Raten, kein Halluzinieren.

Intelligentes Chunking: Nicht einfach abschneiden

Ein unterschätzter Faktor bei RAG ist, wie Dokumente in Sucheinheiten aufgeteilt werden. Unser System schneidet nicht nach X Zeichen ab, sondern nutzt einen rekursiven Splitter: Zuerst wird auf Absatzgrenzen getrennt, dann auf Satzgrenzen, dann auf Wortgrenzen. Überlappende Chunks (200 Zeichen Overlap) stellen sicher, dass keine Information an einer Schnittstelle verloren geht.

Bei Markdown-Dateien werden zusätzlich Heading-Hierarchien berücksichtigt: Jeder Abschnitt behält seine übergeordneten Überschriften als Kontext — damit die KI weiß, in welchem Zusammenhang ein Absatz steht.

Alle Dokumentformate, ein System

Unser RAG-System verarbeitet alle gängigen Formate — ohne manuelles Konvertieren:

  • PDF — Textextraktion in einem isolierten Prozess (crashsicher, mit Timeout)
  • Word, Excel, PowerPoint — direkte Extraktion, tabellarische Daten werden in durchsuchbaren Text konvertiert
  • Markdown — heading-aware Splitting für kontextbehaftete Abschnitte
  • HTML — intelligente Extraktion, Navigation und Footer werden automatisch entfernt
  • JSON, XML, YAML, CSV und weitere Textformate

Der Tech-Stack

Bewusst gewählte Technologien — jede Komponente hat ihren Grund:

  • Backend/API: Hono (TypeScript) — schnell, typsicher, modular
  • Datenbank: PostgreSQL 17 + pgvector mit HNSW-Index — Vektorsuche und relationale Daten in einer DB
  • Embeddings: OpenAI text-embedding-3-small (1536 Dimensionen)
  • Reranking: BAAI/bge-reranker-v2-m3 via Hugging Face
  • Frontend: SvelteKit 5 + Tailwind CSS v4
  • Deployment: Docker Compose (3 Services: DB, Backend, Web)
  • Auth: Google OAuth + API-Keys mit Session-Management

Features: Mehr als nur ein Chat

  • Chat-Interface mit Gesprächsverlauf — Folgefragen beziehen sich automatisch auf den bisherigen Kontext
  • Dokumentenverwaltung mit Ordnerstruktur, Drag & Drop und Upload-Dialog
  • Chunk-Explorer — zeigt transparent, wie jedes Dokument in Sucheinheiten aufgeteilt wurde
  • Google Drive Integration — Dateien direkt aus Drive importieren
  • API-Key-Management — für programmatischen Zugriff auf die Wissensbasis
  • Streaming-Antworten — Echtzeit-Ausgabe, Wort für Wort
  • Multi-User mit Google-Login und rollenbasiertem Zugriff

MCP-Integration: Die Wissensbasis als KI-Tool

Ein besonderes Feature ist der integrierte MCP-Server (Model Context Protocol). Damit kann ein KI-Assistent — z.B. Claude oder ein interner Agent — die Wissensbasis direkt als Tool nutzen. Der Assistent sucht relevante Dokumente und generiert die Antwort mit seinem eigenen Modell, basierend auf den Quellen aus der Wissensbasis.

Das bedeutet: Die Wissensbasis wird Teil des KI-Workflows, ohne dass Nutzer das Web-Interface öffnen müssen. Wissen wird dort verfügbar, wo es gebraucht wird — direkt im Arbeitskontext.

Für wen eignet sich RAG?

  • Unternehmen mit viel interner Dokumentation — Handbücher, SOPs, Wissensdatenbanken, die bisher in Ordnern versauern
  • Support-Teams, die schnell in der Dokumentation nachschlagen müssen
  • Organisationen mit Compliance-Anforderungen, bei denen nachvollziehbar sein muss, woher eine Information stammt
  • Teams, die KI nutzen wollen, aber sicherstellen müssen, dass nur verifizierte interne Informationen verwendet werden

Fazit: Aus Dokumenten wird Wissen

RAG löst ein konkretes, teures Problem: Wissen, das da ist, aber nicht gefunden wird. Mit einer durchdachten Pipeline aus hybrider Suche, Neural Reranking und quellenbasierter Antwortgenerierung wird aus einer Dokumentensammlung eine intelligente, befragbare Wissensbasis.

Und das Wichtigste: Die Daten bleiben im eigenen System. Kein Upload an externe KI-Dienste, volle DSGVO-Konformität, nachvollziehbare Quellen bei jeder Antwort.

Sie haben Unternehmenswissen, das besser auffindbar sein sollte? Wir zeigen Ihnen gerne in einem unverbindlichen Gespräch, wie RAG für Ihre Situation aussehen kann.

Jetzt Ihren persönlichen

Beratungstermin vereinbaren

Georg Bader Termin vereinbaren

Häufig gestellte Fragen zu RAG

Das hängt von Umfang und Komplexität ab — Anzahl der Dokumente, gewünschte Integrationen, Hosting-Modell. In einem kostenlosen Erstgespräch analysieren wir Ihren Use-Case und geben eine transparente Aufwandschätzung.

Maximale Sicherheit: Das System läuft auf Ihrer eigenen Infrastruktur oder einem dedizierten Server. Dokumente werden nicht an externe KI-Dienste übertragen. Die Antwortgenerierung nutzt nur den bereitgestellten Kontext — Ihre Daten verlassen das System nicht.

PDF, Word (.docx), Excel (.xlsx, .csv), PowerPoint (.pptx), Markdown, HTML, JSON, XML, YAML und weitere Textformate. Neue Formate können bei Bedarf ergänzt werden.

Ein funktionsfähiger Prototyp mit Ihren Dokumenten steht typischerweise innerhalb weniger Tage. Die vollständige Einführung — inklusive Integration, Feintuning der Pipeline und Schulung — dauert je nach Umfang 2–6 Wochen.

Ein allgemeiner Chatbot wie ChatGPT kennt Ihre internen Dokumente nicht und kann falsche Antworten erfinden (Halluzinationen). RAG durchsucht zuerst Ihre tatsächliche Dokumentenbasis und generiert Antworten ausschließlich auf Basis der gefundenen Quellen — mit Quellenangabe und ohne Halluzinationen.

Ja. Neben dem Web-Interface bietet das System API-Keys für programmatischen Zugriff sowie einen integrierten MCP-Server. Damit können KI-Assistenten wie Claude die Wissensbasis direkt als Tool nutzen — ohne Umweg über das Web-Interface.

Wir nutzen Cookies!

Diese Website verwendet Cookies, um Ihr Erlebnis zu optimieren und Ihnen relevante Inhalte bereitzustellen. Mehr erfahren...