Bild von Wie teste ich einen KI-Chatbot?

24. Apr 2025

Wie teste ich einen KI-Chatbot?

Im «KI-Hype» von Chatbots wie ChatGPT und Claude wird die Frage nach vertrauenswürdigen Ergebnissen immer wichtiger. Lisa Rumplmayr beleuchtete dieses Thema am Swiss Testing Day 2025 und gibt wertvolle Einblicke in die Evaluation von KI-Chatbots.

Am Swiss Testing Day 2025 präsentierte Lisa Rumplmayr, wie eine systematische Evaluation von KI-Chatbots Unternehmen dabei hilft, präzisere und aktuellere Antworten zu erhalten. Dabei kommt der Unterscheidung zwischen RAG (Retrieval Augmented Generation) und LLM (Large Language Model) eine zentrale Bedeutung zu. Der Artikel liefert wertvolle Einblicke in die erforderlichen Vorbereitungsschritte und Metriken für eine effektive Bewertung dieser Technologien.

RAG vs. LLM

Bei KI-Chatbots ist die Unterscheidung zwischen RAG und LLM fundamental:

  • LLM (Large Language Model): Klassische Chatbots wie ChatGPT oder Claude, die auf umfangreichen Trainingsdaten basieren und allgemeines Wissen bereitstellen.
  • RAG (Retrieval Augmented Generation): Eine fortschrittlichere Lösung, die einen zusätzlichen Retrieval-Schritt beinhaltet. Hierbei wird auf externe Datenquellen zugegriffen, um präzisere Antworten zu liefern.

Für Unternehmen bietet RAG erhebliche Vorteile:

  • Zugriff auf externes und unternehmensspezifisches Wissen
  • Stets aktuelle Informationen
  • Deutlich reduzierte Halluzinationen
  • Anpassbarkeit an spezifische Fachgebiete
  • Effizienterer Ressourceneinsatz
  • Nahtlose Integration in bestehende Geschäftsprozesse

Aufgrund dieser entscheidenden Vorteile wird RAG mittlerweile mehrheitlich in Unternehmensumgebungen eingesetzt. Traditionellen LLMs ohne Retrieval-Komponente stossen bei spezifischen Unternehmensanforderungen schnell an ihre Grenzen. Daher fokussiert sich auch unsere Evaluationsmethodik gezielt auf die Analyse und Optimierung solcher RAG-Systeme, um deren Qualität, Zuverlässigkeit und Nutzen für die spezifischen Anforderungen im Unternehmenskontext kontinuierlich zu verbessern.

Vorbereitungsschritte

Bevor die eigentliche Evaluation beginnen kann, benötigen wir einen durchdachten Fragebogen mit klar definierten Grundwahrheiten. Hierfür empfehlen wir folgenden iterativen Ansatz:

  1. Sammlung relevanter Fragen basierend auf dem spezifischen Use Case
  2. Generierung vorläufiger Antworten
  3. Feedback-Einholung vom Kunden
  4. Überarbeitung der Antworten basierend auf dem Feedback
  5. Wiederholung bis zur vollständigen Kundenakzeptanz

Dieser Prozess ist effizienter als die direkte Erstellung von Grundwahrheiten und beschleunigt den Weg zur Chatbot-Evaluation erheblich.

Unsere Metriken

Für eine umfassende Bewertung setzen wir auf drei zentrale Metriken:

  1. Factual Correctness (F1-Score)
    Diese Metrik bewertet die sachliche Genauigkeit der generierten Antworten im Vergleich zur festgelegten Grundwahrheit. Durch die Berechnung von True Positives, False Positives und False Negatives ermitteln wir Precision, Recall und den F1-Score für eine End-to-End-Evaluation.
  2. Faithfulness
    Hiermit messen wir, wie konsistent die generierte Antwort mit dem abgerufenen Kontext ist. Dies stellt sicher, dass Antworten tatsächlich aus dem bereitgestellten Kontext abgeleitet werden und der Syntheseprozess zuverlässig funktioniert.
  3. Context Recall
    Diese Metrik bewertet die Relevanz der abgerufenen Informationen. Wir vergleichen den abgerufenen Kontext mit der Grundwahrheit, um die Effektivität des Retrieval-Prozesses zu quantifizieren.

Um diese Metriken zu berechnen, teilen wir Grundwahrheiten, generierte Antworten und abgerufenen Kontext mithilfe eines LLM-Prompts in Inhaltspunkte auf. Diese werden dann miteinander verglichen, um die jeweiligen Metriken zu ermitteln

Fazit

Eine systematische Evaluation von KI-Chatbots ist unerlässlich, um deren Qualität und Zuverlässigkeit sicherzustellen. Mit unserem ddreistufigen Ansatz zur Metrik können Stärken und Schwächen identifiziert werden, was eine gezielte Optimierung ermöglicht.

Die kontinuierliche Verbesserung auf Basis der Evaluationsergebnisse führt zu leistungsfähigeren und vertrauenswürdigeren KI-Chatbots, die echten Mehrwert für Unternehmen und deren Kunden bieten.

Durch sorgfältige Vorbereitung, präzise Messung und gezielte Optimierung schaffen wir KI-Lösungen, die sowohl technisch beeindrucken als auch praktisch überzeugen.


Schliessen
Stamp Icon-Print Icon-Clear
S
M
L
XL
XXL