Agentic RAG: Smarte KI-Abfragen auf interne Daten

Beim klassischen RAG (Retrieval-Augmented Generation) werden zu einer Anfrage zunächst relevante Textstellen aus Ihren Quellen per semantischer Suche abgerufen und dem Sprachmodell als Kontext mitgegeben, um die Antwort zu stützen. Dieses stösst bei komplexen Fragen und grossen Datenmengen schnell an Grenzen – hingegen Agentic RAG plant dynamisch und flexibel, nutzt bestehende Schnittstellen und liefert smarte Antworten auch bei umfangreichen internen Daten.

Die Schwächen des «klassischen» RAG

Wenn es darum geht, mittels KI Informationen in unstrukturierten Daten zu finden, lautet der Lösungsansatz oft: Retrieval Augmented Generation (RAG).

In einem klassischen RAG-System werden Daten, meist PDFs sowie Word-, Excel- oder PowerPoint-Dateien, eingelesen, in Abschnitte zerlegt (Chunking) und als Embeddings in einer Vektordatenbank gespeichert. Die KI-Applikation kann dann diese Vektor-DB abfragen (Retrieval) und die relevanten Teile an das Large Language Model (LLM) schicken (Augmentation), das dann die Frage des Anwenders beantwortet (Generation).

Dieser einfach umzusetzende Ansatz funktioniert in einigen Fällen gut, vor allem dann, wenn es darum geht, in überschaubaren Datenmengen gezielt Informationen zu finden.

Dieser Ansatz hat jedoch auch Schwächen:

Bestimmte Arten von Fragen können nicht beantwortet werden, da es nur die relevantesten Textausschnitte auswählt. Insbesondere bei Fragen, die den gesamten Kontext benötigen – wie etwa: «Wie viele Produkte in unserem Katalog haben ein grünes Gehäuse?» – ist die Antwort oft unmöglich.
Daten werden durch den Import in die Vektor-DB dupliziert: Dies kann erhebliche Aufwände nach sich ziehen, um die Daten synchron zu halten
Berechtigungen können verloren gehen: Typische Dokumentenablagen in Unternehmen bieten ein Berechtigungskonzept, über das gesteuert werden kann, wer welche Dokumente sehen darf. Auf diese Zugriffssteuerung muss entweder ganz oder teilweise verzichtet werden oder sie muss mit hohem Aufwand für den RAG-Service implementiert und mit dem Quellsystem synchronisiert werden.
Die Qualität der Antworten sinkt tendenziell, je grösser die importierte Datenmenge wird.
Chunking-Dilemma: Die Strategie, wie die Daten beim Import aufgeteilt werden, ist schwierig zu optimieren für verschiedene Inhalte und Anfragen

Agentic RAG als bessere Alternative

Agentic RAG bietet eine deutlich intelligentere Herangehensweise, um Informationen aus verschiedenen Datenquellen zu finden. Es wird nicht fix auf eine Vektor-Datenbank zugegriffen, sondern die KI erstellt einen Plan, woher und auf welche Weise Informationen geholt werden. Während der Ausführung kann sie dynamisch anhand der ersten Ergebnisse Entscheidungen treffen, in welche Richtung die Recherche weitergeht.

Typischerweise wird gar keine eigene Datenhaltung benötigt, sondern es werden vorhandene Schnittstellen z.B. zu MS Sharepoint, Google Drive oder anderen IT-Systemen abgefragt und die Ergebnisse nur temporär gespeichert.

Technisch ist der Agentic RAG sehr spannend. Es wird ein ganzes Team von KI-Agenten geladen, die jeweils eine Spezialaufgabe übernehmen: Es gibt typischerweise einen Clarifier für Rückfragen, einen (Chief) Editor, der die Suchaufträge plant und verteilt, den Researcher, den Reviewer/Revisor, sowie schliesslich den Writer, der den finalen Report schreibt. Die Agenten verwenden verschiedene Language Models, je nachdem, welches für die jeweilige Aufgabe am besten geeignet ist.

Je nachdem, welche Ergebnisse die Suchaufträge liefern, können daraus Folgeaufträge für weitere Suchen entstehen.

Deep Research im Web – eine Anwendung von Agentic RAG

Seit Anfang des Jahres ist bei ChatGPT, Gemini und Perplexity die Deep Research Funktion verfügbar. Im Gegensatz zur einfachen Kombination von KI-Chat und Web-Suche, wie sie z.B. Perplexity schon länger bietet, ist das Ergebnis deutlich umfangreicher, tiefgreifender und fundierter.

Die Ergebnisse der Web-Suchen werden im Fall von Webseiten gescraped (extrahiert) oder heruntergeladen (Dokumente) und dann temporär gespeichert, um den Inhalt zu erfassen.

Solch eine Recherche kann auch gerne mal mehrere Stunden dauern, liefert aber oftmals erstaunlich gute Ergebnisse inklusive Quellenangaben.

Agentic RAG mit eigenen Daten

Aus Unternehmenssicht kommt häufig der Wunsch auf umfangreiche, interne Dateiablagen zuzugreifen, die z.B. auf einem Sharepoint oder Google Drive liegen. Sowohl die Art der Anfragen als auch Dokumententypen und -inhalte sind dabei sehr breit. Agentic RAG kann in diesem Fall eine Lösung sein, die bessere Ergebnisse liefert als das klassische RAG oder die integrierten Suchfunktionen von Sharepoint & Co. Es gibt bereits Standardsoftware, die diese Anforderungen abdecken, hier stellt sich nun die Frage «make or buy?».

Das bieten die Standardlösungen

ChatGPT
Neben dem Deep Research im Web bietet ChatGPT seit Juni 2025 die Möglichkeit, über vorgefertigte Konnektoren auch Dienste wie Google Drive, Mail, Kalender oder Sharepoint abzufragen. Die Technologie dahinter folgt dem Agentic RAG Pattern.

Über das Model Context Protocol (MCP) können weitere Systeme angebunden werden, für die kein fertiger Konnektor bereitgestellt wird.

Google Gemini
Wie ChatGPT bietet auch Gemini die Möglichkeit, die bekannten Google-Services Drive, Mail und Kalender zu durchsuchen. Stand heute gibt es aber keine Konnektoren für Fremdanbieter und auch keine MCP-Schnittstelle.

Microsoft Co-Pilot
Co-Pilot bietet die Möglichkeit, interne Dateiablagen zu durchsuchen, speziell mit Microsoft-Produkten (Sharepoint) ist eine Integration einfach möglich. Inwieweit hier ein Agentic RAG implementiert ist, ist nicht ganz klar.

Individuelle Lösung
Für manche Unternehmen ist die Verwendung einer Standardsoftware wie ChatGPT oder Gemini keine Alternative, da Vorbehalte gegenüber US-basierten Cloud-Services bestehen, die Integration technisch nicht möglich ist oder die Lizenzkosten zu hoch sind.

Hier kann es sinnvoll sein, ein eigenes Agentic RAG zu entwickeln. Dank OpenSource-Frameworks wie LangGraph ist dies mit vertretbarem Aufwand möglich.

Die Funktionalität von Agentic RAG kann in einem separaten Backend-Service gekapselt werden, so dass er unabhängig vom User Interface entwickelt und in neue oder vorhandene Applikationen eingebunden werden kann. Der Zugriff auf die Datenquellen erfolgt dabei meist über vorhandene Schnittstellen, es werden die internen Suchfunktionen und -indizes des Quellsystems verwendet. Eine Anbindung einer Vektor-Datenbank als zusätzliche Datenquelle ist möglich (hybride Suche).

Überblick: Welches RAG ist das richtige?

KI mit Websuche

Beschreibung: Zugriff auf aktuelle Informationen aus dem Web

Typische Beispiele:

Wie wird das Wetter morgen in Zürich?
Welche Dienstleistungen bietet die Cudos AG an?

Vorteile:

Schnelle Antwortzeiten

Nachteile:

Wenig inhaltliche Tiefe
Nur öffentlich verfügbare Informationen

Deep Research im Web

Beschreibung: Geplanter, umfangreicher Rechercheauftrag im öffentlichen Web

Typische Beispiele:

Marktanalyse für Softwaredienstleister in der Schweiz

Vorteile:

Ergebnis ist meist ein fundiertes Dossier

Nachteile:

Dauert lange (bis zu mehreren Stunden)
Nur öffentlich verfügbare Informationen

Klassisches RAG mit Vektor-DB

Beschreibung: Auffinden von Informationen in unstrukturierten Daten

Typische Beispiele:

Wie funktioniert der Spesenprozess bei der Cudos?
Was muss ich tun, wenn meine Anwendung Fehler xyz anzeigt?

Vorteile:

Schnelle Antwortzeiten
Geringe LLM-Kosten pro Abfrage

Nachteile:

Nicht geeignet für sehr grosse Datenmengen
Berechtigungen schwer abbildbar

Interner Agentic RAG Service

Beschreibung: Komplexe Abfragen und Auswertungen auf interne Daten

Typische Beispiele:

Zusammenfassung der Email-Kommunikation, Verkäufe der letzten 5 Jahre und aktuelles Verkaufspotential für Kunde xyz

Vorteile:

Keine Duplikation der Daten
Nutzung vorhandener Suchfunktionen und Schnittstellen
Berechtigungen des Benutzers werden berücksichtigt
Skaliert besser mit grossen Datenmengen
Besser für komplexe Abfragen

Nachteile:

Dauert lange, je nach Typ und Anzahl angebundener Systeme
Höhere Kosten pro Anfrage wegen zahlreicher LLM-Anfragen

Fazit

Zusammenfassend lässt sich sagen, dass Agentic RAG eine deutlich intelligentere und flexiblere Lösung für die Informationssuche in unstrukturierten Daten bietet, indem es dynamisch den Rechercheprozess steuert und sich Berechtigungskonzepte einfacher abbilden lassen. Dies überwindet die wesentlichen Schwächen des klassischen RAG, insbesondere bei komplexen Anfragen und grossen Datenmengen. Für Unternehmen, die eine Nutzung ihrer internen Daten anstreben, stellt Agentic RAG somit eine interessante Alternative dar.

KI-Beratung buchen

Buchen Sie jetzt einen unverbindlichen 15-minütigen Austausch mit einem unserer AI-Experten, Christian Hecht oder Markus Schenkel, und erfahren Sie, wie wir Sie bei Ihren AI-Projekten unterstützen können.

Mögliche Termine

Agentic RAG: Smartere Antworten auf komplexe Fragen

Die Schwächen des «klassischen» RAG

Agentic RAG als bessere Alternative

Deep Research im Web – eine Anwendung von Agentic RAG

Agentic RAG mit eigenen Daten

Das bieten die Standardlösungen

Überblick: Welches RAG ist das richtige?

KI mit Websuche

Deep Research im Web

Klassisches RAG mit Vektor-DB

Interner Agentic RAG Service

Fazit

KI-Beratung buchen

Verfasst von

Christian Hecht

Business Unit Leiter

Agentic RAG: Smartere Antworten auf komplexe Fragen

Die Schwächen des «klassischen» RAG

Agentic RAG als bessere Alternative

Deep Research im Web – eine Anwendung von Agentic RAG

Agentic RAG mit eigenen Daten

Das bieten die Standardlösungen

Überblick: Welches RAG ist das richtige?

KI mit Websuche

Deep Research im Web

Klassisches RAG mit Vektor-DB

Interner Agentic RAG Service

Fazit

KI-Beratung buchen

Verfasst von

Christian Hecht

Business Unit Leiter

Newsletter abonnieren