Was ist RAG (Retrieval-Augmented Generation)?
Retrieval-Augmented Generation (kurz RAG) ist eine Architektur, die ein Large Language Model (LLM) mit einer externen Wissensdatenbank verbindet. Bevor das Sprachmodell eine Antwort generiert, werden zuerst relevante Informationen aus der Datenbank abgerufen und dem Modell als Kontext mitgegeben. Dadurch kann die KI auf aktuelle, spezialisierte oder firmeninterne Daten zugreifen, ohne dass das gesamte Modell neu trainiert werden muss.
RAG löst eines der grössten Probleme von Sprachmodellen: Sie wissen nur das, was zum Zeitpunkt ihres Trainings in den Trainingsdaten enthalten war. RAG ergänzt dieses statische Wissen um dynamische, aktuelle Informationen.
Wie funktioniert RAG?
Der RAG-Prozess läuft in drei Schritten ab:
1. Retrieval (Abruf): Die Frage des Nutzers wird in einen mathematischen Vektor umgewandelt (ein sogenanntes Embedding). Dieser Vektor wird mit einer Datenbank verglichen, die ebenfalls als Embeddings gespeicherte Dokumente enthält. Die ähnlichsten Dokumente werden als relevante Quellen identifiziert.
2. Augmentation (Anreicherung): Die gefundenen Dokumente werden zusammen mit der ursprünglichen Frage als erweiterter Prompt an das Sprachmodell übergeben. Das Modell erhält damit konkreten Kontext, auf den es sich beziehen kann.
3. Generation (Erzeugung): Das LLM generiert eine Antwort, die auf den abgerufenen Dokumenten basiert. Im Idealfall kann es sogar die Quellen angeben, aus denen die Information stammt.
RAG vs. reines LLM vs. Fine-Tuning
Warum nicht einfach ein normales Sprachmodell nutzen? Oder warum nicht Fine-Tuning betreiben? Hier die Unterschiede:
- Reines LLM: Kennt nur seine Trainingsdaten. Kann keine aktuellen oder firmeninternen Informationen liefern. Neigt zu Halluzinationen, wenn es die Antwort nicht weiss.
- Fine-Tuning: Das Modell wird mit neuen Daten nachtrainiert. Teuer, zeitaufwändig und muss bei jeder Datenänderung wiederholt werden.
- RAG: Das Modell bleibt unverändert, aber die Wissensdatenbank kann jederzeit aktualisiert werden. Günstiger und flexibler als Fine-Tuning, mit deutlich weniger Halluzinationen als ein reines LLM.
- Google NotebookLM: Nutzer laden eigene Dokumente hoch und können Fragen dazu stellen. Die KI durchsucht die hochgeladenen Quellen und generiert fundierte Antworten mit Quellenangaben.
- Microsoft Copilot für Unternehmen: Durchsucht interne SharePoint-Dokumente, E-Mails und Teams-Chats, um kontextbezogene Antworten zu liefern.
- Firmeninterne Wissensdatenbanken: Viele Unternehmen bauen RAG-Systeme auf, die auf interne Handbücher, Richtlinien und Prozessdokumente zugreifen.
- Kundensupport-Chatbots: RAG-basierte Bots durchsuchen Produktdokumentation und FAQ-Datenbanken, um präzise Kundenantworten zu liefern.
- Aktualität: Die Wissensdatenbank kann täglich aktualisiert werden – ohne Neutraining des Modells
- Datenschutz: Firmendaten bleiben in der eigenen Datenbank und werden nicht ins Modell eintrainiert
- Nachvollziehbarkeit: Antworten können mit Quellenangaben versehen werden
- Kosten: Deutlich günstiger als Fine-Tuning, da keine GPU-Ressourcen für Training nötig sind
Praxisbeispiele für RAG
RAG wird bereits in vielen Produkten eingesetzt:
Bedeutung für Unternehmen
RAG ist für viele Unternehmen der realistischste Weg, KI mit eigenem Firmenwissen zu verbinden. Die Vorteile:
Fazit
RAG ist eine der wichtigsten Entwicklungen im Bereich der generativen KI. Die Kombination aus leistungsfähigen Sprachmodellen und externer Wissenssuche macht KI-Antworten zuverlässiger, aktueller und nachvollziehbarer. Für Unternehmen, die KI mit eigenem Wissen nutzen wollen, ist RAG derzeit die praktikabelste und kosteneffizienteste Lösung.