arrow arrow--cut calendar callback check chevron chevron--large cross cross--large download filter kununu linkedin magnifier mail marker menu minus Flieger phone play plus quote share

Explainable AI

Wie man Licht ins Dunkel von Black Box KI-Modellen bringen kann

Explainable AI ist ein Fachgebiet, welches sich damit auseinander setzt, wie man menschenfreundliche Interpretationen zu Vorhersagen von KI-Modellen erzeugen kann. Dieser Artikel bietet neben einer Problemdefinition eine Übersicht über die diversen Methoden und deren Einordnung. Anschließend werden anhand von Beispielen die Methoden der Partial Dependence Plots, SHAP und Integrated Gradients veranschaulicht und ich gehe kurz auf ein Projekt ein, bei dem Cologne Intelligence Explainable AI für einen Kunden nutzbar gemacht hat. Für einen weiterführenden Deep Dive finden interessierte Leser*innen am Ende weiterführende Quellen und Empfehlungen.

Foto von Timo Walter
Timo Walter

Data Scientist

Darum ist Explainable AI so wichtig

Machine Learning (ML) ist in den vergangenen Jahren als Prognosewerkzeug immer mehr in den Vordergrund gerückt. Sowohl in der Wissenschaft als auch in der freien Wirtschaft finden sich immer mehr Anwendungsfälle für Machine Learning Modelle. So lassen sich beispielsweise Moleküle auf ihre biologischen Eigenschaften hin klassifizieren [2], oder Techniken für das autonome Fahren entwickeln [3]. Aber auch Use-Cases wie die automatische Erkennung von Betrugsfällen oder das automatisierte Verarbeiten von Dokumenten lassen sich über Machine Learning Methoden abbilden [4, 5]. Dabei kristallisiert sich der Trend heraus, dass die Performance der meisten ML-Modelle sich proportional zu ihrer Komplexität verhält. Die bisher als State-of-the-Art betrachteten ML-Modelle aus dem Bereich Natural Language Processing (NLP) sind riesige neuronale Netze mit bis zu 175 Milliarden Parametern [6]. Dieses Maß an Komplexität verbietet jeglichen Versuch, die inneren Vorgänge eines solchen Modells in Bezug auf seine Vorhersagen detailliert und nachvollziehbar aufzubereiten. ML-Modelle haben auch deshalb häufig den Ruf einer undurchsichtigen Black Box inne. Hier kommt das Forschungsfeld „Explainable AI“ ins Spiel.

Machine Learning
Abb. 1 Auf den Punkt gebracht: die KI-Black-Box in einer xkcd-Karrikatur.

Explainable AI beschäftigt sich mit der Entwicklung von Methoden, welche menschenfreundliche Erklärungen beziehungsweise Interpretationen von ML Vorhersagen erzeugen. Die Worte Erklärung und Interpretation werden dabei meist synonym verwendet. Je besser die Interpretationsmethoden, desto leichter ist es für Nutzer*innen nachzuvollziehen, wie Entscheidungen oder Vorhersagen getroffen wurden. Das Feld versucht eine Brücke zu schlagen zwischen Menschen und Maschinen und greift dabei auf Disziplinen wie Mathematik, Informatik, Verhaltenspsychologie und Ökonomie zurück. Einige Anwendungsfälle für Explainable AI sind:

  1. Die Erklärung von Vorhersagen zur Unterstützung des Entscheidungsprozesses 
  2. Die Unterstützung in der Fehlersuche bei unerwartetem Modellverhalten
  3. Das Nachschärfen von Modellierungs- und Datensammlungsprozessen
  4. Das Verifizieren von Fairness und Identifizieren von Voreingenommenheit (Bias) in den Vorhersagen 
  5. Die Präsentation der Vorhersagen auf Stakeholder-Ebene

Entwickler*innen bietet das Feld somit mehr Kontrolle und Transparenz beim Verifizieren des Modellverhaltens. Auf Stakeholderseite stärkt Explainable AI das Vertrauen in die von einem Modell erstellten Vorhersagen und hilft dabei, fundiert gegenüber Dritten zu argumentieren.
 

Die Landschaft der Explainable AI-Methoden

In Abbildung 1a ist eine Übersicht über die Landschaft der Explainable AI-Methoden skizziert. Der erste Klassifizierungssplit lässt sich als post-hoc vs. intrinsisch abbilden. Post-hoc bedeutet in diesem Fall, dass eine Interpretation der Modellvorhersagen erst nach dem Training des Modells ansetzt. Intrinsisch hingegen bedeutet, dass aufgrund von geringer Modellkomplexität eine Interpretation der Vorhersagen ohne explizite Explainable AI-Methoden erreicht werden kann. Die lineare Regression ist ein solches, intrinsisch interpretierbares, Modell, da man den Modellparametern für den Menschen verständliche Bedeutungen zuweisen kann. Ebenfalls in diese Kategorie fallen simple Entscheidungsbäume. Bei diesen lässt sich im Idealfall der Pfad eines Inputs bis hin zum Output einfach ablesen. Nimmt aber die Komplexität eines Entscheidungsbaumes zu, können darauf auch post-hoc Methoden angewendet werden. Dies gilt ebenfalls für alle anderen intrinsisch interpretierbaren Modelle.

XAI Landschaft
Abbildung 1a: Landschaft der Explainable AI-Methoden. Diese Grafik erlaubt es, diverse Methoden auf Basis ihres Anwendungsbereiches voneinander zu unterscheiden. [8], angepasst.

Post-hoc Methoden lassen sich unterteilen in lokale und globale Methoden. Lokale Methoden setzen auf Fallbasis an und versuchen Erklärungen für einzelne Vorhersagen (Fälle) der Daten zu generieren. Globale Methoden hingegen versuchen Erklärungen auf Modellebene zu erzeugen.

Sowohl lokale als auch globale Methoden lassen sich in die Kategorien modell-agnostisch und modell-spezifisch unterteilen. Modell-agnostische Methoden sind unabhängig von der Klasse des zu interpretierenden Machine Learning Modells. Es spielt also keine Rolle, ob es sich um einen Regressionsmodell mit Boosting für tabellarische Daten oder ein neuronales Netz zur Bildverarbeitung handelt. Diese Unabhängigkeit impliziert gleichzeitig, dass modell-agnostische Methoden ihre Erklärungen niemals auf die inneren Vorgänge des zugrundeliegenden Modells stützen können. Vielmehr machen sie sich Beziehungen zwischen Input und Output Paaren zu Nutze. Ein Beispiel für eine solche Methode ist SHAP (SHapley Additive exPlanations), welche in einem folgenden Abschnitt genauer beleuchtet wird. Modell-spezifische Interpretationen sind wiederum festgelegt auf die Klasse des zu erklärenden ML-Modells. Gradienten-basierte Erklärungsmethoden können beispielweise nur auf ML-Modelle angewendet werden, bei denen es möglich ist, einen Gradienten über die ML Modellparameter zu berechnen (zum Beispiel künstliche neuronale Netze).  Integrated Gradients ist ein Beispiel für eine modell-spezifische lokale Erklärung, welche ebenfalls in einem folgenden Abschnitt näher betrachtet wird. 

Auf globaler Ebene findet die Unterteilung in modell-agnostisch und modell-spezifisch ebenfalls statt. Eine modell-agnostische globale Methode ist das Darstellen von Partial-Dependence-Plots (PDP). Dazu ebenfalls mehr im nächsten Abschnitt. Anzumerken ist weiterhin, dass lokale Erklärungen aggregiert werden können, um hybride Erklärungen zu erzeugen. So lassen sich beispielsweise Ergebnisse der SHAP Methode aggregieren, um zusätzlich zu lokalen Betrachtung gröbere Interpretationen zu erzeugen.

Explainable AI für tabellarische Daten

Zunächst wird das Konzept der Partial-Dependence-Plots (post-hoc, global, modell-agnostisch) an einem Beispiel erläutert. Anschließend beleuchten wir am selben Beispiel das Konzept von SHAP (post-hoc, local, modell-agnostisch). Als Beispielmodell wird ein XGBoost Regressionsmodell trainiert, um Vorhersagen über Immobilienpreise ($) anhand von diversen Input Features wie dem Immobilienzustand, das Baujahr oder die Wohnfläche treffen.

Abb. 2
Abbildung 2: Eine Variation der PDP in Bezug auf das Input Feature „Overall Quality“ für die Vorhersage von Immobilienpreisen. In der unteren Hälfte sieht man die Anzahl der betrachteten Datenpunkte pro Intervall der Qualitätsstufe. In der oberen Hälfte ist die Verteilung der vorhergesagten Preise relativ zu den „Overall Quality“ Intervallen gegeben. Es lässt sich ein monoton steigender Trend zwischen dem Qualitätsindex und dem Immobilienpreis ablesen.

Partial Dependence Plots (PDP):

Der PDP zeigt visuell den Effekt eines oder zweier Features auf den vorhergesagten Output des ML Modells. So lassen sich zum Beispiel lineare, monotone oder komplexere Zusammenhänge feststellen. Die y-Achse zeigt dabei meist die „Partial Dependence“, also die partielle Abhängigkeit in der Einheit der Zielvariablen (in unserem Beispiel, $). Diese bestimmen wir, in dem wir die marginale Verteilung aller anderen Features (Wohnfläche, Anzahl Bäder, …) mit Bezug auf den Output des Modells berechnen. Dadurch erhält man eine Funktion, welche nur noch von den zu betrachtenden Features (Baujahr und/oder Qualität) abhängt. 

Abbildung 2 skizziert eine Variante eines PDP bezogen auf das XGBoost Regressionsmodell für Immobilienpreise. Hier sehen wir, welchen Effekt das Feature „Overall Quality“ auf die Preisprognose des ML-Modells hat. Dieser Effekt ist errechnet und dargestellt unter Berücksichtigung aller zur Verfügung stehender Testdaten. In Abbildung 3a ist die „Partial Dependence“ als Funktion des Features „Year Built“ aufgetragen. Die Daten zeigen einen erwartbaren Trend, welcher skizziert, dass das Modell gelernt hat, das neuere Immobilien zu höheren Preisen verkauft werden. Die „Partial Dependence“ ist hierbei zu verstehen als Output des ML Modells gemittelt über alle Daten, wenn man den Wert der x-Achse konstant hält. Abbildung 3b zeigt eine zweidimensionale Variante eines PDP. Hierbei werden zwei Features gegeneinander aufgetragen und der Output als Farbkodierung eingezeichnet. Diese Darstellung ermöglicht es qualitativ, mögliche Interaktionen zwischen den Features abzulesen.

Abb. 3a und 3b
Abbildung 3a und 3b: Abbildung 3a zeigt die klassische Darstellung eines PDPs. Hier wird ein Feature gegen die „Partial Dependence“ aufgetragen. Abbildung 3b ist eine Darstellung eines PDP als Heatmap mit Bezug auf zwei Input Feature. Dort lassen sich zusätzlich zu den Trends bezüglich des Modell Outputs auch Feature Interaktionen ablesen. So ist der Immobilienpreis weniger abhängig vom Feature „Year Built“, wenn das Feature „Overall Quality“ hohe Werte zwischen 8 und 10 annimmt.

Der große Vorteil der PDPs ist, dass sie häufig intuitiv und leicht verständlich sind. Sie sind zudem einfach zu implementieren.  Ein großes „Aber“ existiert trotzdem: Es muss sichergestellt sein, dass die Input Feature nicht miteinander korrelieren. Es ist daher erforderlich, PDP im Zusammenhang mit Metriken zur Korrelation zu betrachten. Ein weiterer limitierender Faktor ist die Anzahl der gleichzeitig untersuchbaren Features. Dies ist allerdings eher dem Visualisieren an sich anstatt der Methode geschuldet.

Abb. 4
Abbildung 4: SHAP-Waterfall Plots für eine explizite Vorhersage des XGBoost Modells. Die blau und rot gekennzeichneten Werte sind die berechneten Shapley Values für diesen Fall. Zu lesen ist der Plot von unten nach oben. Der unter der x-Achse eingezeichnete Erwartungswert ist das Mittel aus allen Vorhersagen über die Daten. Von diesem Erwartungswert ausgehend treiben die Shapley Values die tatsächliche Vorhersage pro Feature nun ins positive (rot) oder negative (blau). So haben die Features „Overall Quality“ und „Gr Liv Area“ (Wohnfläche in square ft) den größten Einfluss auf die Modell Vorhersage, welche ganz oben in der Visualisierung skizziert ist. Die Summe aller Shapley Values entspricht dabei der Differenz zwischen durchschnittlicher Modellvorhersage und Vorhersage für einen Fall.

SHAP

SHAP ist ein Akronym und steht für SHapley Additive exPlainer. Die fundamentale Idee dieser Methode stammt aus der kooperativen Spieltheorie und wurde 1951 von Lloyd Shapley eingeführt [11]. Die nach ihm benannten Shapley Values versuchen, jedem Teilnehmer eines kooperativen Spiels eine Belohnung zuzuordnen, welche dem Beitrag des individuellen Teilnehmers zum Erfolg der Gruppe angemessen ist.  Übertragen auf Machine Learning lassen sich Shapley Values für einzelne Input Features berechnen, um abzuschätzen, wie wichtig ein Feature für die Vorhersage des Modells gewesen ist. Die Menge an Input Features kann als Spieler und das ML Modell als kooperatives Spiel verstanden werden.  SHAP [10] ist eine Implementierung dieser Idee von Lundberg und Lee aus dem Jahr 2017 [12]. SHAP ist eine post-hoc, lokale, modell-agnostische Interpretationsmethode. Das bedeutet, dass die Erklärung auf Fallbasis erfolgt, also für ein einzelnes Sample aus den Daten. Es lassen sich dadurch individuelle Fälle im Detail beleuchten. Gleichzeitig besitzt diese Methode ein solides theoretisches Fundament aus der Spieltheorie und muss sich dadurch nicht auf zusätzliche Annahmen berufen, wie das bei anderen Interpretationsmethoden der gleichen Kategorie der Fall sein kann. Abbildung 4 und 5 zeigen Beispiele für Interpretationen, erzeugt auf Basis der SHAP Methode. Dabei bildet Abbildung 4 einen lokalen Fall ab, während in Abbildung 5 Visualisierungen dargestellt sind, welche die Shapley Values über alle Fälle übersichtlich zusammenfassen.

Abb. 5a und 5b
Abbildung 5a und 5b: Globale beziehungsweise hybride Darstellungen der Ergebnisse der SHAP Methode für das XGBoost Modell. 5a zeigt eine Heatmap, aus welcher man Trends für die Höhe der Modellvorhersage, f(x), über die Fälle in den Daten ablesen kann. 5b zeigt die Verteilung der Feature Werte bezogen auf ihren Shapley Value. Farblich gekennzeichnet ist die Magnitude der Feature Werte.

Explainable AI für Computer Vision

Für Problemstellungen, bei denen die Input Daten für das ML Modell statt in tabellarischer Form als Bilder/Videos oder Text vorliegen, ist die Modellklasse der künstlichen neuronalen Netze ein erprobter Ansatzpunkt. Für diese Modellklasse gibt es neben den oben skizzierten modell-agnostischen auch modell-spezifische Interpretationsmethoden. Eine davon ist „Integrated Gradients“, entwickelt von Sundararajan et al. (2017) [13], welche ich im Folgenden anhand eines Klassifikationsbeispiels auf Bilddaten erläutern möchte.

Integrated Gradients

Integrated Gradients ist eine lokale, modell-spezifische Erklärungsmethode. Modell-spezifisch, da als Voraussetzung die Differenzierbarkeit des ML Modells gegeben sein muss (damit fallen unter anderem alle klassischen Baum-basierten Modelle aus). Die Kernidee ist, den Gradienten der Vorhersage des ML Modells mit Bezug auf die Input Features zu berechnen. Dabei wird der Feature-Raum in kleinen, gleich großen Schritten durchschritten und dabei die lokalen Gradienten eines Pixels aggregiert. Das Ergebnis ist ein numerischer Wert pro Pixel, welchen man als Relevanz dieses Pixels für die Vorhersage interpretieren kann. Das Beispiel in Abbildung 6 zeigt Bilder eines Hundewelpen und eines Rennrades. Daneben sind die berechneten Relevanzwerte der Pixel als Heatmap dargestellt. Je heller, beziehungsweise gelblicher, ein Bildbereich eingefärbt ist, desto höher war sein Einfluss auf die Klassifizierung des Modells. Man erkennt sehr deutlich, dass das Modell die Augen, die Schnauze, aber auch die generelle Kopfform des Welpen als ausschlaggebende Faktoren für seine Entscheidung betrachtet hat. Ähnlich intuitiv ist das Rennradbeispiel, wo die Konturen des Rades, aber auch die Regionen um die Reifen und das Lenkrad deutlich hervorgehoben sind.

Abb. 6
Abbildung 6: Integrated Gradient Masken für Input Bilder eines Welpen und eines Rennrades. Auf Bilddaten erzeugt diese Methode sehr intuitive Einblicke in die Vorhersage. Die Beispiele wurden nach dem Berechnen der IG-Attributions (Pixel-Relevanzen) mit der SmoothGrad Methode nachgeschärft, um klarere Kontraste in den Masken zu erzeugen.

Um diese Ergebnisse zu erzielen, wurde ein ResNet18 Modell in Kombination mit der Captum Bibliothek [9] verwendet. Zusätzlich zur Integrated Gradients Methode wurde ein Glättungs-Algorithmus namens SmoothGrad [14] angewandt. Hierbei werden durch das Hinzufügen von künstlichem Rauschen mehrere Versionen des zu interpretierenden Input Bildes erzeugt, um die Datenmenge für die Integrated Gradients Methode zu vergrößern.

Ein charmanter Vorteil der Integrated Gradients Methode sind die intuitiv leicht zugänglichen, visuellen Erklärungen. Als Nachteil lässt sich festhalten, dass hier die Interpretationen nur auf qualitativer Ebene erfolgen kann. Ebenso kann die Methode, wie auch die mit ihr zu erklärenden ML-Modelle, anfällig für manipulierte Klassifikationsbeispiele sein (Stichwort: „Adversarial machine learning“).

Data Science bei Cologne Intelligence

Explainable AI in der Praxis

Zusammenfassend gesagt lassen sich Explainable AI Methoden hervorragend dazu verwenden, das Verständnis und das Vertrauen in die Vorhersagen eines ML-Modells stärken. Das macht Explainable AI für Entwickler*Innen wie Stakeholder zu einem nützlichen Tool. Cologne Intelligence hat beispielsweise im Rahmen eines ML gestützten Rechnungsprüfungsprojektes in der Versicherungsbranche eine Explainable AI Lösung implementiert. Über eine Web-App erhalten die User dort auf Fallbasis tiefere Einblicke in die Entscheidung der Rechnungsklassifikation und können besonders ausschlaggebende Eingabegrößen zu identifizieren. Das Beispiel zeigt den besonderen Mehrwert von Explainable AI in sensiblen Bereichen und Branchen mit besonders hohen Anforderungen an Transparenz in der Entscheidungsfindung. 

Weiterführendes und Quellen

Zusätzlich zu den in Abbildung 1a skizzierten Methoden gibt es noch viele weitere nützliche Werkzeuge. So ist das What-If-Tool [15] ein von Google-Research zur Verfügung gestelltes, interaktives Tool, mit dem es möglich ist, die Wichtigkeit der Input Feature eines ML-Modells einzuordnen. Das Tool bietet zusätzlich die Möglichkeit im Tandem mit SHAP zu arbeiten, um berechnete Shapley Values im What-If-Tool einzubetten. Um Intuition für die Vorgänge in simplen künstlichen neuronalen Netzen aufzubauen, stellt Tensorflow den TF Playground [16] als interaktive Oberfläche bereit. Abschließend wollen wir noch auf das Buch „Interpretable Machine Learning“ von Christoph Molnar [7] verweisen, welches eine Vielzahl von Konzepten und Methoden aus dem Explainable AI Kosmos behandelt und erklärt. 


Quellen:
[1] Grafik – xkcd 
[2] A Deep Learning Approach to Antibiotic Discovery – Stokes et al.
[3] Tesla Artificial Intelligence & Autopilot
[4] How we use machine learning to protect you from fraud - Revolut  
[5] The Future of AI-Powered Document Processing - Forbes 
[6] GPT-3: A Hitchhiker’s Guide - Lambdalabs
[7] Interpretable Machine Learning – Christoph Molnar
[8] Introduction to Explainable AI (ML Tech Talks) – TensorFlow   
[9] Captum
[10] SHAP
[11] Notes on the n-Person Game II: The Value of an n-Person Game – L. S. Shapley
[12] A unified approach to interpreting model predictions – Lundberg et al.
[13] Axiomatic Attribution for Deep Networks - Sundararajan et al.
[14] SmoothGrad: removing noise by adding noise – Smilkov et al.
[15] What-If-Tool – Google Research
[16] TF-Playground - TensorFlow