Ticket Triage: Die Sache mit dem Confidence Score

Neben unserer Tätigkeit im bananastack arbeiten Tom und ich an Ticket Triage. Was Ticket Triage im Wesentlichen macht, ist, in strukturierter Weise Einschätzungen zu verschiedenen Aspekten von Tickets durch ein LLM vornehmen zu lassen. Die Herausforderung liegt also darin, die richtigen Fragen zu stellen und die richtige Antwortstruktur vorzugeben, sodass am Ende auswertbare, visualisierbare und verständliche Daten entstehen.

Schon recht früh in der Entwicklung von Ticket Triage haben wir das LLM daher zusätzlich einen Confidence Score abgeben lassen. Wir haben das LLM also nicht nur gefragt: „Was ist deine Einschätzung?“, sondern auch: „Wie sicher bist du dir denn?“

Das ist vor allem deshalb wichtig, weil wir die Qualität der Tickets vorab nicht kennen. Manche Tickets bieten viel Kontext, manche wenig. Wenn das LLM eine Einschätzung auf Grundlage von wenig Kontext trifft, wollen wir das wissen und in unserer Auswertung berücksichtigen.

Die Unsicherheit in der Confidence

Nun haben wir also den Confidence Score: einen Wert zwischen 1 und 5, der angibt, wie sicher sich das LLM bei der Einschätzung ist, die es getroffen hat. Und was machen wir nun mit dieser Information?

Wir wollen Einschätzungen, die zu unsicher sind, aus unseren Auswertungen ausschließen.

Aber was heißt „zu unsicher“? Wie bestimmen wir den Schwellenwert für den Confidence Score?

Nehmen wir einfach ein bestimmtes Perzentil? Der Schwellenwert wird so gewählt, dass immer x % der Tickets eingeschlossen werden?

Wenn aber unsere Annahme doch ist, dass die Tickethistorie von unterschiedlich guter Qualität sein kann und die Richtschnur die Confidence des LLMs sein soll, dann steht der Perzentil-Ansatz im Widerspruch zu dieser Annahme. Bei Tickethistorien von geringer Qualität ist schließlich zu erwarten, dass mehr Einschätzungen ausgeschlossen werden müssen.

Lasst uns das Problem noch aus einem anderen Blickwinkel betrachten. Dazu lassen wir die Frage danach, wie wir den Schwellenwert bestimmen, hinter uns und nehmen an, wir hätten uns bereits für einen magischen Schwellenwert entschieden.

Wir stoßen nun die Analyse einer Tickethistorie an. Unser Schwellenwert sorgt dabei dafür, dass etwa 10 % der Einschätzungen ausgeschlossen werden. Nach einiger Zeit lassen wir eine weitere Analyse laufen. Es sind neue Tickets zur Historie hinzugekommen. Der Unternehmenskontext hat sich etwas geändert. Inzwischen wird ein anderes LLM genutzt. Bei der erneuten Analyse schließt derselbe Schwellenwert nicht mehr 10 %, sondern 20 % der Tickets aus.

Ist die Tickethistorie schlechter geworden, in dem Sinne, dass sie nun weniger Kontext bietet? Oder ist die Qualität der Einschätzungen schlechter geworden – das LLM gewissermaßen „dümmer“ –, sodass es aus derselben Menge an Informationen weniger herausholen kann? Oder ist das LLM lediglich unsicherer geworden und vergibt bei gleicher Qualität der Einschätzung niedrigere Confidence Scores?

Das Paradox des Confidence Scores lässt sich auch wie folgt illustrieren: Brauchen wir dann noch einen Confidence Score für den Confidence Score? Und einen Confidence Score für den Confidence Score des Confidence Scores? Ich denke, ihr versteht den Punkt.

Der Umgang mit der Unsicherheit

Ein möglicher Lösungsansatz für dieses Dilemma ist Ground Truth. Der Begriff stammt aus dem Bereich Machine Learning und KI. Er bezeichnet Datensätze, deren Labels als korrekt angesehen werden (z. B. weil ein Mensch sie vergeben hat), und wird zum Training sowie zur Validierung von Modellen verwendet.

Ein Setup für Ticket Triage könnte wie folgt aussehen: Das LLM nimmt Einschätzungen vor, versehen mit einem Confidence Score. Ein Experte markiert die Einschätzungen als zutreffend oder unzutreffend. Anschließend untersuchen wir, wie der Confidence Score mit den Markierungen des Experten korreliert.

Das Problem: Die beschriebene Vorgehensweise ist aufwändig. Gleichzeitig ändern sich zu viele Parameter zu häufig.

Und jedes Mal müssten wir den Confidence Score mit erheblichem Aufwand neu kalibrieren.

Darüber hinaus treffen auch die menschlichen Experten, die die Ground Truth erzeugen sollen, Fehleinschätzungen. Man kann geradezu philosophische Diskussionen darüber führen, was es eigentlich bedeutet, Wahrheit – Truth – zu sein. Warum sollte, wenn Mensch und LLM sich widersprechen, notwendigerweise der Mensch recht haben?

Unser Fazit für Ticket Triage

Ist der Confidence Score also komplett sinnlos? Wir sagen: nein.

Er mag kein einfacher Top-oder-Flop-Indikator sein. Aber er ist eine Entscheidungshilfe, ein potenzielles Warnsignal und ein Hinweis darauf, dass Diskussionsbedarf besteht.

Beim Aufsetzen eines neuen Systems kann er genutzt werden, um im Abgleich mit den ursprünglichen Tickets einen Richtwert dafür zu erhalten, welche Einschätzungen in die Auswertung aufgenommen werden sollen und welche nicht. Ground Truth light.

Danach kann eine Warnung ausgelöst werden, wenn sich bei erneuten Analyseläufen der Prozentsatz ausgeschlossener Einschätzungen stark verändert. Das ist kein sicheres Zeichen dafür, dass etwas falsch (oder richtig) läuft, aber es ist ein Grund, genauer hinzusehen. Hat sich etwas geändert? Und wenn ja, was? Kann diese Änderung die Schwankung erklären? Müssen wir an irgendeiner Stelle korrigierend eingreifen?

Am Ende geht es eben doch nicht ganz ohne den guten alten Menschenverstand – den Human in the Loop. Und das ist für uns völlig in Ordnung. Ticket Triage soll nicht auf magische Weise Probleme wegzaubern. Es soll ein Verständnis systemischer Vorgänge fördern und argumentativ zugänglich machen. Und das gelingt weder ohne Menschen noch ohne Verstand.