24. Apr 2025

Wie teste ich einen KI-Chatbot?

Im «KI-Hype» von Chatbots wie ChatGPT und Claude wird die Frage nach vertrauenswürdigen Ergebnissen immer wichtiger. Lisa Rumplmayr beleuchtete dieses Thema am Swiss Testing Day 2025 und gibt wertvolle Einblicke in die Evaluation von KI-Chatbots.

Am Swiss Testing Day 2025 präsentierte Lisa Rumplmayr, wie eine systematische Evaluation von KI-Chatbots Unternehmen dabei hilft, präzisere und aktuellere Antworten zu erhalten. Dabei kommt der Unterscheidung zwischen RAG (Retrieval Augmented Generation) und LLM (Large Language Model) eine zentrale Bedeutung zu. Der Artikel liefert wertvolle Einblicke in die erforderlichen Vorbereitungsschritte und Metriken für eine effektive Bewertung dieser Technologien.

RAG vs. LLM

Bei KI-Chatbots ist die Unterscheidung zwischen RAG und LLM fundamental:

LLM (Large Language Model): Klassische Chatbots wie ChatGPT oder Claude, die auf umfangreichen Trainingsdaten basieren und allgemeines Wissen bereitstellen.
RAG (Retrieval Augmented Generation): Eine fortschrittlichere Lösung, die einen zusätzlichen Retrieval-Schritt beinhaltet. Hierbei wird auf externe Datenquellen zugegriffen, um präzisere Antworten zu liefern.

Für Unternehmen bietet RAG erhebliche Vorteile:

Zugriff auf externes und unternehmensspezifisches Wissen
Stets aktuelle Informationen
Deutlich reduzierte Halluzinationen
Anpassbarkeit an spezifische Fachgebiete
Effizienterer Ressourceneinsatz
Nahtlose Integration in bestehende Geschäftsprozesse

Aufgrund dieser entscheidenden Vorteile wird RAG mittlerweile mehrheitlich in Unternehmensumgebungen eingesetzt. Traditionellen LLMs ohne Retrieval-Komponente stossen bei spezifischen Unternehmensanforderungen schnell an ihre Grenzen. Daher fokussiert sich auch unsere Evaluationsmethodik gezielt auf die Analyse und Optimierung solcher RAG-Systeme, um deren Qualität, Zuverlässigkeit und Nutzen für die spezifischen Anforderungen im Unternehmenskontext kontinuierlich zu verbessern.

Vorbereitungsschritte

Bevor die eigentliche Evaluation beginnen kann, benötigen wir einen durchdachten Fragebogen mit klar definierten Grundwahrheiten. Hierfür empfehlen wir folgenden iterativen Ansatz:

Sammlung relevanter Fragen basierend auf dem spezifischen Use Case
Generierung vorläufiger Antworten
Feedback-Einholung vom Kunden
Überarbeitung der Antworten basierend auf dem Feedback
Wiederholung bis zur vollständigen Kundenakzeptanz

Dieser Prozess ist effizienter als die direkte Erstellung von Grundwahrheiten und beschleunigt den Weg zur Chatbot-Evaluation erheblich.

Unsere Metriken

Für eine umfassende Bewertung setzen wir auf drei zentrale Metriken:

Factual Correctness (F1-Score)
Diese Metrik bewertet die sachliche Genauigkeit der generierten Antworten im Vergleich zur festgelegten Grundwahrheit. Durch die Berechnung von True Positives, False Positives und False Negatives ermitteln wir Precision, Recall und den F1-Score für eine End-to-End-Evaluation.
Faithfulness
Hiermit messen wir, wie konsistent die generierte Antwort mit dem abgerufenen Kontext ist. Dies stellt sicher, dass Antworten tatsächlich aus dem bereitgestellten Kontext abgeleitet werden und der Syntheseprozess zuverlässig funktioniert.
Context Recall
Diese Metrik bewertet die Relevanz der abgerufenen Informationen. Wir vergleichen den abgerufenen Kontext mit der Grundwahrheit, um die Effektivität des Retrieval-Prozesses zu quantifizieren.

Um diese Metriken zu berechnen, teilen wir Grundwahrheiten, generierte Antworten und abgerufenen Kontext mithilfe eines LLM-Prompts in Inhaltspunkte auf. Diese werden dann miteinander verglichen, um die jeweiligen Metriken zu ermitteln

Fazit

Eine systematische Evaluation von KI-Chatbots ist unerlässlich, um deren Qualität und Zuverlässigkeit sicherzustellen. Mit unserem ddreistufigen Ansatz zur Metrik können Stärken und Schwächen identifiziert werden, was eine gezielte Optimierung ermöglicht.

Die kontinuierliche Verbesserung auf Basis der Evaluationsergebnisse führt zu leistungsfähigeren und vertrauenswürdigeren KI-Chatbots, die echten Mehrwert für Unternehmen und deren Kunden bieten.

Durch sorgfältige Vorbereitung, präzise Messung und gezielte Optimierung schaffen wir KI-Lösungen, die sowohl technisch beeindrucken als auch praktisch überzeugen.

KI-Chatbot für ihr Unternehmen

Möchten Sie einen KI-Chatbot, der präzise und sicher antwortet?

Entdecken Sie unsere massgeschneiderten KI-Assistenten für Unternehmen.

Mehr erfahren

Wie teste ich einen KI-Chatbot?

RAG vs. LLM

Vorbereitungsschritte

Unsere Metriken

Fazit

Möchten Sie einen KI-Chatbot, der präzise und sicher antwortet?

Verfasst von

Lisa Rumplmayr

Software Engineer

Christian Hecht

Business Unit Leiter

Wie teste ich einen KI-Chatbot?

RAG vs. LLM

Vorbereitungsschritte

Unsere Metriken

Fazit

Möchten Sie einen KI-Chatbot, der präzise und sicher antwortet?

Verfasst von

Lisa Rumplmayr

Software Engineer

Christian Hecht

Business Unit Leiter

Newsletter abonnieren