KI trifft Entscheidungen. Wie vertrauenswürdig sind sie eigentlich?

Je leistungsfähiger moderne KI-Modelle werden, desto schwieriger wird es, ihre Entscheidungen nachzuvollziehen. Gerade bei komplexen Verfahren wie tiefen neuronalen Netzen oder großen generativen Modellen ist oft nicht unmittelbar erkennbar, warum ein System zu einem bestimmten Ergebnis kommt. Genau an dieser Stelle setzt das Konzept der Trustworthy AI an.

Dabei geht es nicht nur darum, eine Entscheidung im Nachhinein erklären zu können. Vertrauenswürdige KI umfasst auch Fragen der Zuverlässigkeit, Fairness, Sicherheit, Transparenz und des Umgangs mit Unsicherheiten. Dieser Artikel zeigt, warum Erklärbarkeit allein nicht ausreicht, welche Rolle Verfahren wie LIME, SHAP und Saliency Maps spielen und wie Vertrauen in KI-Systeme überhaupt entstehen kann.

Wie sehr man einer KI vertrauen kann, hängt zunächst davon ab, was mit Vertrauen eigentlich gemeint ist. In einem menschlichen Sinn kann Vertrauen bedeuten, dass Nutzerinnen und Nutzer einem System glauben, seine Ergebnisse akzeptieren oder ein bestimmtes Risiko bewusst eingehen. Aus technischer Sicht meint Vertrauen dagegen eher die Frage, wie stabil, robust und vorhersehbar ein System funktioniert. Beide Perspektiven hängen eng zusammen, sind aber nicht dasselbe [1, 2].

Eine allgemein akzeptierte Definition von Trustworthy AI gibt es in der Literatur nicht. Der Begriff beschreibt vielmehr eine Gruppe von Eigenschaften, die je nach Anwendung unterschiedlich gewichtet werden. Dazu gehören technische Robustheit, ethische Verantwortung und gesellschaftliche Akzeptanz. Im praktischen Einsatz spielen deshalb viele Aspekte zusammen. Erklärbarkeit, Interpretierbarkeit und Zuverlässigkeit sind ebenso wichtig wie Transparenz über Daten und Trainingsprozesse, Fairness, Datenschutz, Sicherheit, gesellschaftliche Auswirkungen, ethische Prinzipien und Rechenschaftspflicht [1, 2, 3].

Ein Grundproblem liegt darin, dass KI-Systeme in vielen Fällen keine eindeutigen Wahrheiten liefern, sondern Wahrscheinlichkeiten. Moderne Modelle berechnen, welche Antwort, Klasse oder Vorhersage unter den gegebenen Daten am wahrscheinlichsten ist. Je komplexer diese Modelle werden, desto schwieriger wird es jedoch, ihre interne Arbeitsweise zu verstehen. Der sogenannte Black-Box-Charakter vieler KI-Systeme verstärkt damit das Problem der Vertrauenswürdigkeit [1, 3, 4].Ein Grundproblem liegt darin, dass KI-Systeme in vielen Fällen keine eindeutigen Wahrheiten liefern, sondern Wahrscheinlichkeiten. Moderne Modelle berechnen, welche Antwort, Klasse oder Vorhersage unter den gegebenen Daten am wahrscheinlichsten ist. Je komplexer diese Modelle werden, desto schwieriger wird es jedoch, ihre interne Arbeitsweise zu verstehen. Der sogenannte Black-Box-Charakter vieler KI-Systeme verstärkt damit das Problem der Vertrauenswürdigkeit [1, 3, 4].Ein Grundproblem liegt darin, dass KI-Systeme in vielen Fällen keine eindeutigen Wahrheiten liefern, sondern Wahrscheinlichkeiten. Moderne Modelle berechnen, welche Antwort, Klasse oder Vorhersage unter den gegebenen Daten am wahrscheinlichsten ist. Je komplexer diese Modelle werden, desto schwieriger wird es jedoch, ihre interne Arbeitsweise zu verstehen. Der sogenannte Black-Box-Charakter vieler KI-Systeme verstärkt damit das Problem der Vertrauenswürdigkeit [1, 3, 4].

Erklärbarkeit nach der Entscheidung

Viele Erklärungsverfahren setzen erst nach der eigentlichen Vorhersage an. Man spricht dann von Post-hoc-Explainability. Solche Verfahren versuchen, eine bereits getroffene Entscheidung nachträglich verständlicher zu machen. Zu den bekanntesten Methoden gehören SHAP, Saliency Maps und LIME [2, 5].

SHAP verfolgt einen von Spieltheorie inspirierten Ansatz, der modellagnostisch einsetzbar ist. Das heißt, dass das Verfahren unabhängig davon funktioniert, welches KI-Modell im Hintergrund verwendet wird, und bezieht sich im ersten Schritt auf einzelne Entscheidungen des zu erklärenden Modells. Das Verfahren basiert auf sogenannten Shapley-Werten und bietet eine numerische Möglichkeit, den statistischen Beitrag einzelner Merkmale zu einer Vorhersage zu bestimmen. Vereinfacht gesagt wird die Vorhersage als ein Ergebnis betrachtet, zu dem verschiedene Merkmale unterschiedlich stark beigetragen haben. SHAP versucht, diesen Beitrag der einzelnen Merkmale nacheinander individuell zu schätzen. Dazu variiert SHAP nur ein einzelnes Merkmal, fragt das Modell nach vielen weiteren Entscheidungen, und analysiert den Einfluss auf die Ausgabe. Wenn so viele einzelne Entscheidungen eines Modells erklärt wurden, kann das Mittel der Shapley-Werte von einem Merkmal als Schätzung für die Gesamtwichtigkeit dieses Merkmals für das Modell dienen und man kann Muster in der Modelllogik erkennen [3, 8].

Saliency Maps werden vor allem in der Bildverarbeitung eingesetzt, insbesondere bei Convolutional Neural Networks. Sie markieren visuell, welche Bereiche eines Bildes für eine Klassifikationsentscheidung besonders relevant waren. Das Ergebnis ist meist eine Heatmap, die zeigt, worauf das Modell besonders stark reagiert hat. In der medizinischen Bildanalyse kann eine solche Visualisierung zum Beispiel Hinweise darauf geben, ob ein Modell tatsächlich relevante Strukturen wie einen Tumor betrachtet oder ob es sich auf störende Artefakte im Hintergrund stützt [2, 5, 8].

So hilfreich diese Methoden sind, sie liefern keine Garantie dafür, dass die Erklärung tatsächlich der vollständigen Entscheidungslogik des Modells entspricht. SHAP, Saliency Maps und auch LIME (dazu mehr im nächsten Kapitel) liefern Hinweise und Hypothesen. Sie machen Entscheidungen nachvollziehbarer, ersetzen aber keine formale Transparenz. Damit unterscheiden sie sich von sogenannten Ante-hoc-Erklärungen. Dabei werden von Anfang an Modellklassen verwendet, deren Entscheidungslogik grundsätzlich einsehbar ist, etwa lineare Modelle oder Entscheidungsbäume. Allerdings gilt auch hier eine Einschränkung. Selbst formal transparente Modelle können bei hoher Komplexität praktisch kaum noch verständlich sein [1, 2, 4, 9].

Warum LIME dennoch häufig verwendet wird

LIME steht für Local Interpretable Model-agnostic Explanations. Das Verfahren ist ebenfalls modellagnostisch und benötigt keinen Zugriff auf die interne Verarbeitung eines Modells. Es kann daher auch genutzt werden, um Modelle zu erklären, die man zwar verwenden kann, auf die man jedoch keinen weiteren Zugriff hat.

Die Grundidee von LIME ist vergleichsweise einfach. Statt das gesamte Black-Box-Modell erklären zu wollen, betrachtet LIME nur eine konkrete Entscheidung und deren unmittelbare Umgebung. Dazu erzeugt LIME viele leicht veränderte Varianten der ursprünglichen Eingabe. Bei tabellarischen Daten können beispielsweise einzelne Merkmale verändert werden, bei Texten einzelne Wörter und bei Bildern bestimmte Bereiche. Anschließend wird protokolliert, wie sich die Vorhersage des Modells durch diese kleinen Variationen verändert. Auf dieser Grundlage trainiert LIME ein einfaches Ersatzmodell, etwa eine lineare Regression oder einen kleinen Entscheidungsbaum, der nur für den einen betrachteten Fall die Vorhersagen des Modells und seine Variationen abbildet. Dieses Modell ist dann ausreichend wenig Komplex, dass es Ante-hoc-erklärbar ist, seine Gewichte dienen demnach dann als Erklärung für die konkrete Entscheidung [1, 3, 5, 6, 7].

Der zentrale Gedanke besteht also darin, ein komplexes Modell nicht vollständig zu erklären. Stattdessen wird nur das Verhalten in der Nähe einer konkreten Vorhersage betrachtet. LIME geht davon aus, dass sich ein komplexes Modell lokal oft einfacher verhält als global. Diese lokale „Einfachheit“ wird genutzt, um eine verständliche Erklärung zu erzeugen [1, 3, 4].

LIME beruht allerdings auf mehreren Annahmen. Die gewählte Nachbarschaft einer einzelnen Entscheidung muss sinnvoll sein, die verwendete Distanzmetrik muss zur Domäne passen und die erzeugten Perturbationen dürfen nicht völlig unrealistische Datenpunkte produzieren. Genau hier liegt eine der zentralen Schwächen von LIME. Wenn die künstlich erzeugten Varianten der Eingabe nicht plausibel sind, kann auch die daraus abgeleitete Erklärung irreführend sein. Das Ersatzmodell ist außerdem nur zur Erklärung gedacht. Es beschreibt nicht exakt die Modelllogik, sondern approximiert sie lediglich lokal [1, 3, 6].

Weiterentwicklungen und Grenzen von LIME

Seit seiner Einführung hat sich LIME als eine Art Referenzmethode für lokale, modellagnostische Erklärungen etabliert. Gleichzeitig zeigen praktische Anwendungen, dass das Verfahren angepasst werden muss, wenn es verlässliche Hinweise liefern soll [1, 3, 9].

Ein häufiger Kritikpunkt betrifft die Erzeugung synthetischer Nachbarschaftsdaten. Standardmäßig werden Merkmale oft unabhängig voneinander verändert. In vielen realen Domänen ist diese Annahme problematisch, weil Merkmale miteinander zusammenhängen. Werden diese Zusammenhänge ignoriert, entstehen Datenpunkte, die in der Realität kaum vorkommen würden [4].

Aus diesem Grund wurden verschiedene Weiterentwicklungen vorgeschlagen, die domänenspezifisches Wissen stärker einbeziehen. In der Windenergieprognose, bei IoT-Anwendungen oder in sicherheitskritischen Systemen kann es sinnvoll sein, Perturbationen so zu erzeugen, dass sie realistischen Datenverteilungen folgen. Dadurch soll die lokale Umgebung aussagekräftiger werden und die Erklärung näher an das tatsächliche Modellverhalten heranrücken.

LIME wird außerdem nicht nur zur Erklärung einzelner Vorhersagen genutzt, sondern auch zur Analyse von Modellvertrauen. Werden lokale Erklärungen über viele Instanzen hinweg betrachtet, lässt sich prüfen, ob ein Modell konsistent auf relevante Merkmale reagiert. Solche Auswertungen können helfen, Unterschiede zwischen Modellen sichtbar zu machen oder verdächtige Entscheidungslogiken aufzudecken. Ein solches Verfahren ist die Berechnung des so genannten Category Trust Index der aggregieren lokale Erklärungen, der die Stabilität und Konsistenz relevanter Merkmale global schätzt.

Trotz der beschriebenen Weiterentwicklungen bleibt LIME jedoch ein Post-hoc-Verfahren. Es liefert keine kausalen Beweise und keine Garantie dafür, dass ein Modell wirklich aus den richtigen Gründen entscheidet. Die Qualität der Erklärung hängt stark von der Wahl der Nachbarschaft, der Distanzmetrik und des Surrogatmodells ab. Richtig eingesetzt ist LIME daher weniger eine fertige Erklärungsmethode als ein flexibles Framework für lokale Approximationen.

Trustworthy AI ist mehr als Erklärbarkeit

Erklärbarkeit ist ein wichtiger Baustein vertrauenswürdiger KI, aber sie reicht nicht aus. In vielen Fällen steht sie außerdem in einem Spannungsverhältnis zur Vorhersageleistung und Skalierbarkeit von Modellen. Besonders leistungsfähige Ansätze wie tiefe neuronale Netze oder große generative Modelle erzielen oft sehr gute Ergebnisse, sind aber schwerer zu interpretieren. Umgekehrt können auch transparente Modelle mit zunehmender Größe und Komplexität unübersichtlich werden. Interpretierbarkeit ist deshalb kein einfaches Ja-oder-Nein-Kriterium [1, 3, 11].

Ein weiterer zentraler Aspekt ist die Zuverlässigkeit eines KI-Systems. Während Erklärbarkeit fragt, warum eine einzelne Entscheidung zustande gekommen ist, geht es bei Zuverlässigkeit darum, wie stabil und belastbar ein Modell unter realen Bedingungen arbeitet. Dazu gehören zum Beispiel eine gute Kalibrierung, niedrige Fehlerraten und ein robustes Verhalten im produktiven Betrieb. Vertrauen entsteht also nicht nur dadurch, dass ein System seine Entscheidungen erklären kann. Es muss sich auch im Alltag verlässlich verhalten. Besonders wichtig ist dabei die Robustheit gegenüber Verteilungsverschiebungen. Daten verändern sich im Laufe der Zeit. Kundenverhalten, technische Systeme, Marktbedingungen oder Sensordaten können sich verschieben. Ein Modell, das unter Trainingsbedingungen gut funktioniert, muss deshalb nicht automatisch auch langfristig stabil bleiben. Vertrauenswürdigkeit ist damit keine Eigenschaft, die einmalig beim Modelltraining geprüft wird. Sie muss über den gesamten Lebenszyklus eines Systems hinweg betrachtet werden [2, 5].

Auch der Umgang mit Unsicherheit spielt eine zentrale Rolle. In sicherheitskritischen Anwendungen reicht es nicht aus, nur eine Vorhersage auszugeben. Das System sollte auch kommunizieren können, wie sicher diese Vorhersage ist. Verfahren wie Monte-Carlo Dropout oder Conformal Prediction können dabei helfen, Unsicherheit explizit zu modellieren und für Nutzerinnen und Nutzer sichtbar zu machen [2, 13].

Abschließend lässt sich Vertrauenswürdigkeit also nur schwer in einer einzelnen Kennzahl ausdrücken. Es gibt keinen universellen Vertrauenswert, der alle relevanten Aspekte vollständig abbildet. Vertrauen entsteht vielmehr durch das Zusammenspiel technischer und organisatorischer Maßnahmen. Dazu gehören saubere Datenprozesse, nachvollziehbare Modellentscheidungen, Monitoring im Betrieb, klare Verantwortlichkeiten und eine angemessene Bewertung von Risiken [2, 12].

Nicht zuletzt ist Trustworthy AI immer auch eine Frage der Abwägung. Mehr Transparenz, Robustheit oder Fairness kann zusätzlichen Rechenaufwand, höhere Komplexität oder längere Antwortzeiten bedeuten. Welche Maßnahmen sinnvoll sind, hängt deshalb stark vom konkreten Anwendungskontext ab. Ein Empfehlungssystem für Produktsuche stellt andere Anforderungen als ein KI-System in der medizinischen Diagnostik oder in der industriellen Qualitätsprüfung [2].

Sie wollen mehr erfahren? Kontaktieren Sie unser Team!

Quellen

[1] E. T. M. Beltrán et al., “Decentralized Federated Learning: Fundamentals, State of the Art, Frameworks, Trends, and Challenges,” 2022, doi: 10.48550/ARXIV.2211.08413.

[2] H. B. McMahan, E. Moore, D. Ramage, S. Hampson, and B. A. y Arcas, “Communication-Efficient Learning of Deep Networks from Decentralized Data,” 2016, doi: 10.48550/ARXIV.1602.05629.

[3] T. Li, A. K. Sahu, M. Zaheer, M. Sanjabi, A. Talwalkar, and V. Smith, “Federated Optimization in Heterogeneous Networks”.

[4] S. P. Karimireddy, S. Kale, M. Mohri, S. J. Reddi, S. U. Stich, and A. T. Suresh, “SCAFFOLD: Stochastic Controlled Averaging for Federated Learning,” 2019, arXiv. doi: 10.48550/ARXIV.1910.06378.

[5] S. Abdulrahman, H. Tout, H. Ould-Slimane, A. Mourad, C. Talhi, and M. Guizani, “A Survey on Federated Learning: The Journey From Centralized to Distributed On-Site Learning and Beyond,” IEEE Internet Things J., vol. 8, no. 7, pp. 5476–5497, Apr. 2021, doi: 10.1109/JIOT.2020.3030072.

[6] Q. Li, W. Yu, Y. Xia, and J. Pang, “From Centralized to Decentralized Federated Learning: Theoretical Insights, Privacy Preservation, and Robustness Challenges,” Mar. 10, 2025, arXiv: arXiv:2503.07505. doi: 10.48550/arXiv.2503.07505.

[7] L. Yuan, Z. Wang, L. Sun, P. S. Yu, and C. G. Brinton, “Decentralized Federated Learning: A Survey and Perspective,” 2023, arXiv. doi: 10.48550/ARXIV.2306.01603.

[8] N. A. Tuan, S. Jim Soe Moe, Q. W. Khan, A. Rizwan, and D. H. Kim, “Topology Optimization Techniques for Decentralized Federated Learning: Challenges and Solutions,” in 2025 International Conference on Metaverse Computing, Networking and Applications (MetaCom), Seoul, Korea, Republic of: IEEE, Aug. 2025, pp. 51–56. doi: 10.1109/MetaCom65502.2025.00015.

[9] T. Yang et al., “Applied Federated Learning: Improving Google Keyboard Query Suggestions,” Dec. 07, 2018, arXiv: arXiv:1812.02903. doi: 10.48550/arXiv.1812.02903.

[10] A. R. Elkordy et al., “Federated Analytics: A survey,” Feb. 02, 2023, arXiv: arXiv:2302.01326. doi: 10.48550/arXiv.2302.01326.

[11] A. Hard et al., “Federated Learning for Mobile Keyboard Prediction,” Feb. 28, 2019, arXiv: arXiv:1811.03604. doi: 10.48550/arXiv.1811.03604.

[12] V. Pruckovskaja et al., “Federated Learning for Predictive Maintenance and Quality Inspection in Industrial Applications,” Apr. 21, 2023, arXiv: arXiv:2304.11101. doi: 10.48550/arXiv.2304.11101.

[13] X. Zhou et al., “Decentralized P2P Federated Learning for Privacy-Preserving and Resilient Mobile Robotic Systems,” IEEE Wirel. Commun., vol. 30, no. 2, pp. 82–89, Apr. 2023, doi: 10.1109/MWC.004.2200381.

[14] J. Tan et al., “Bridging Data Islands: Geographic Heterogeneity-Aware Federated Learning for Collaborative Remote Sensing Semantic Segmentation,” Dec. 24, 2024, arXiv: arXiv:2404.09292. doi: 10.48550/arXiv.2404.09292.

[15] H. Lin, C. Zhang, D. Hong, K. Dong, and C. Wen, “FedRSClip: Federated Learning for Remote Sensing Scene Classification Using Vision-Language Models,” Jan. 05, 2025, arXiv: arXiv:2501.02461. doi: 10.48550/arXiv.2501.02461.

Die Autorin

Lucia Auburger

Smart Embedded Systems (Fraunhofer IMS)

Lucia Auburger

E-Mail