Karriere
Wissen
Über uns
24. Apr 2025
Im «KI-Hype» von Chatbots wie ChatGPT und Claude wird die Frage nach vertrauenswürdigen Ergebnissen immer wichtiger. Lisa Rumplmayr beleuchtete dieses Thema am Swiss Testing Day 2025 und gibt wertvolle Einblicke in die Evaluation von KI-Chatbots.
Am Swiss Testing Day 2025 präsentierte Lisa Rumplmayr, wie eine systematische Evaluation von KI-Chatbots Unternehmen dabei hilft, präzisere und aktuellere Antworten zu erhalten. Dabei kommt der Unterscheidung zwischen RAG (Retrieval Augmented Generation) und LLM (Large Language Model) eine zentrale Bedeutung zu. Der Artikel liefert wertvolle Einblicke in die erforderlichen Vorbereitungsschritte und Metriken für eine effektive Bewertung dieser Technologien.
Bei KI-Chatbots ist die Unterscheidung zwischen RAG und LLM fundamental:
Für Unternehmen bietet RAG erhebliche Vorteile:
Aufgrund dieser entscheidenden Vorteile wird RAG mittlerweile mehrheitlich in Unternehmensumgebungen eingesetzt. Traditionellen LLMs ohne Retrieval-Komponente stossen bei spezifischen Unternehmensanforderungen schnell an ihre Grenzen. Daher fokussiert sich auch unsere Evaluationsmethodik gezielt auf die Analyse und Optimierung solcher RAG-Systeme, um deren Qualität, Zuverlässigkeit und Nutzen für die spezifischen Anforderungen im Unternehmenskontext kontinuierlich zu verbessern.
Bevor die eigentliche Evaluation beginnen kann, benötigen wir einen durchdachten Fragebogen mit klar definierten Grundwahrheiten. Hierfür empfehlen wir folgenden iterativen Ansatz:
Dieser Prozess ist effizienter als die direkte Erstellung von Grundwahrheiten und beschleunigt den Weg zur Chatbot-Evaluation erheblich.
Für eine umfassende Bewertung setzen wir auf drei zentrale Metriken:
Um diese Metriken zu berechnen, teilen wir Grundwahrheiten, generierte Antworten und abgerufenen Kontext mithilfe eines LLM-Prompts in Inhaltspunkte auf. Diese werden dann miteinander verglichen, um die jeweiligen Metriken zu ermitteln
Eine systematische Evaluation von KI-Chatbots ist unerlässlich, um deren Qualität und Zuverlässigkeit sicherzustellen. Mit unserem ddreistufigen Ansatz zur Metrik können Stärken und Schwächen identifiziert werden, was eine gezielte Optimierung ermöglicht.
Die kontinuierliche Verbesserung auf Basis der Evaluationsergebnisse führt zu leistungsfähigeren und vertrauenswürdigeren KI-Chatbots, die echten Mehrwert für Unternehmen und deren Kunden bieten.
Durch sorgfältige Vorbereitung, präzise Messung und gezielte Optimierung schaffen wir KI-Lösungen, die sowohl technisch beeindrucken als auch praktisch überzeugen.
Danke für Ihr Interesse an Cudos. Ihre Angaben werden vertraulich behandelt – den Newsletter können Sie jederzeit abbestellen.