Modelle & Technik

Retrieval-Augmented Generation (RAG)

RAG verbindet ein Sprachmodell mit einer externen Wissensdatenbank. Bevor die KI antwortet, sucht sie erst relevante Informationen aus der Datenbank und nutzt diese als Grundlage für ihre Antwort. Das reduziert Halluzinationen und ermöglicht es, die KI mit aktuellen oder firmeninternen Daten zu füttern, ohne sie komplett neu zu trainieren.

Was ist RAG (Retrieval-Augmented Generation)?

Retrieval-Augmented Generation (kurz RAG) ist eine Architektur, die ein Large Language Model (LLM) mit einer externen Wissensdatenbank verbindet. Bevor das Sprachmodell eine Antwort generiert, werden zuerst relevante Informationen aus der Datenbank abgerufen und dem Modell als Kontext mitgegeben. Dadurch kann die KI auf aktuelle, spezialisierte oder firmeninterne Daten zugreifen, ohne dass das gesamte Modell neu trainiert werden muss.

RAG löst eines der grössten Probleme von Sprachmodellen: Sie wissen nur das, was zum Zeitpunkt ihres Trainings in den Trainingsdaten enthalten war. RAG ergänzt dieses statische Wissen um dynamische, aktuelle Informationen.

Wie funktioniert RAG?

Der RAG-Prozess läuft in drei Schritten ab:

1. Retrieval (Abruf): Die Frage des Nutzers wird in einen mathematischen Vektor umgewandelt (ein sogenanntes Embedding). Dieser Vektor wird mit einer Datenbank verglichen, die ebenfalls als Embeddings gespeicherte Dokumente enthält. Die ähnlichsten Dokumente werden als relevante Quellen identifiziert.

2. Augmentation (Anreicherung): Die gefundenen Dokumente werden zusammen mit der ursprünglichen Frage als erweiterter Prompt an das Sprachmodell übergeben. Das Modell erhält damit konkreten Kontext, auf den es sich beziehen kann.

3. Generation (Erzeugung): Das LLM generiert eine Antwort, die auf den abgerufenen Dokumenten basiert. Im Idealfall kann es sogar die Quellen angeben, aus denen die Information stammt.

RAG vs. reines LLM vs. Fine-Tuning

Warum nicht einfach ein normales Sprachmodell nutzen? Oder warum nicht Fine-Tuning betreiben? Hier die Unterschiede:

  • Reines LLM: Kennt nur seine Trainingsdaten. Kann keine aktuellen oder firmeninternen Informationen liefern. Neigt zu Halluzinationen, wenn es die Antwort nicht weiss.
  • Fine-Tuning: Das Modell wird mit neuen Daten nachtrainiert. Teuer, zeitaufwändig und muss bei jeder Datenänderung wiederholt werden.
  • RAG: Das Modell bleibt unverändert, aber die Wissensdatenbank kann jederzeit aktualisiert werden. Günstiger und flexibler als Fine-Tuning, mit deutlich weniger Halluzinationen als ein reines LLM.
  • Praxisbeispiele für RAG

    RAG wird bereits in vielen Produkten eingesetzt:

  • Google NotebookLM: Nutzer laden eigene Dokumente hoch und können Fragen dazu stellen. Die KI durchsucht die hochgeladenen Quellen und generiert fundierte Antworten mit Quellenangaben.
  • Microsoft Copilot für Unternehmen: Durchsucht interne SharePoint-Dokumente, E-Mails und Teams-Chats, um kontextbezogene Antworten zu liefern.
  • Firmeninterne Wissensdatenbanken: Viele Unternehmen bauen RAG-Systeme auf, die auf interne Handbücher, Richtlinien und Prozessdokumente zugreifen.
  • Kundensupport-Chatbots: RAG-basierte Bots durchsuchen Produktdokumentation und FAQ-Datenbanken, um präzise Kundenantworten zu liefern.
  • Bedeutung für Unternehmen

    RAG ist für viele Unternehmen der realistischste Weg, KI mit eigenem Firmenwissen zu verbinden. Die Vorteile:

  • Aktualität: Die Wissensdatenbank kann täglich aktualisiert werden – ohne Neutraining des Modells
  • Datenschutz: Firmendaten bleiben in der eigenen Datenbank und werden nicht ins Modell eintrainiert
  • Nachvollziehbarkeit: Antworten können mit Quellenangaben versehen werden
  • Kosten: Deutlich günstiger als Fine-Tuning, da keine GPU-Ressourcen für Training nötig sind
> Praxis-Tipp: Für den Einstieg in RAG eignen sich Tools wie Google NotebookLM oder LangChain. Für grössere Projekte bieten sich Vektordatenbanken wie Pinecone, Weaviate oder Chroma an.

Fazit

RAG ist eine der wichtigsten Entwicklungen im Bereich der generativen KI. Die Kombination aus leistungsfähigen Sprachmodellen und externer Wissenssuche macht KI-Antworten zuverlässiger, aktueller und nachvollziehbarer. Für Unternehmen, die KI mit eigenem Wissen nutzen wollen, ist RAG derzeit die praktikabelste und kosteneffizienteste Lösung.