Trustworthy AI: Können wir KI wirklich vertrauen?

KI trifft Entscheidungen – doch wie vertrauenswürdig sind diese eigentlich?

Je komplexer moderne Modelle werden, desto schwerer lässt sich nachvollziehen, wie sie zu ihren Ergebnissen kommen. Genau hier setzt das Konzept der Trustworthy AI an: Es geht nicht nur um Transparenz, sondern auch um Zuverlässigkeit, Fairness und den Umgang mit Unsicherheiten.

Der Beitrag zeigt, warum Erklärbarkeit allein nicht ausreicht, welche Rolle Methoden wie LIME spielen und wie Vertrauen in KI-Systeme überhaupt entstehen kann.

Wie sehr man einer KI vertrauen kann, hängt wesentlich davon ab, was man unter „Vertrauen“ versteht [1]. Ist das menschliche Vertrauen im Sinne von Glauben, Akzeptanz und subjektiver Risikoabwägung gemeint, oder die technische Zuverlässigkeit, also die Frage, wie stabil, robust und vorhersehbar ein System funktioniert [2]? Beide Perspektiven sind eng miteinander verknüpft, aber nicht deckungsgleich.

In der Literatur existiert keine allgemein akzeptierte Definition von „Trustworthy AI“. Stattdessen beschreibt der Begriff weit gefasste, kontextabhängige Eigenschaften von KI-Systemen, die technisch robust, ethisch verantwortungsvoll und gesellschaftlich akzeptabel sind [1, 3]. Das heißt, es geht dabei sowohl um Erklärbarkeit (Explainability), Interpretierbarkeit (Interpretability) und Zuverlässigkeit (Reliability) als auch um die Transparenz über Daten und Trainingsprozesse, Fairness und Bias-Minderung, Datenschutz, Sicherheit, gesellschaftliche Auswirkungen, ethische Prinzipien und Rechenschaftspflicht [2, 3].

Dadurch, dass KI-Systeme nur Wahrscheinlichkeiten liefern, entsteht daraus unter anderem auch das Kernproblem der Vertrauenswürdigkeit, das durch den zunehmenden Black-Box-Charakter moderner Modelle noch verstärkt wird [1]. Je leistungsfähiger und komplexer KI-Systeme werden, desto undurchschaubarer wird deren interne Arbeitsweise und Entscheidungsfindung [1, 3, 4].

Post-hoc Explainability

Post-hoc-Explainability kann beispielsweise Entscheidungen nachträglich teilweise nachvollziehbar machen, etwa durch Methoden wie SHAP, LIME oder Saliency Maps [2, 5].

LIME (Local Interpretable Model-agnostic Explanations) ist eine modellagnostische Methode und approximiert das Verhalten eines komplexen „Black-Box“-Modells lokal um eine spezifische Instanz herum. Dies geschieht, indem es ein einfacheres, inhärent interpretierbares Surrogatmodell (wie eine lineare Regression oder einen flachen Entscheidungsbaum) trainiert. LIME erzeugt dazu eine Vielzahl von leicht veränderten Varianten der ursprünglichen Eingabe (Perturbationen) und analysiert, wie sich die Vorhersagen des Modells in dieser unmittelbaren Nachbarschaft verändern. Die resultierenden Merkmalsgewichte des einfachen Modells dienen dann als lokale Erklärung für die spezifische Entscheidung [1, 3, 6, 7].

Im Gegensatz zu LIME bietet SHAP eine mathematisch konsistente Grundlage, um den exakten marginalen Beitrag eines Merkmals zu bestimmen, indem es alle möglichen Kombinationen von Merkmalen vergleicht. Dabei werden sogenannte Shapley-Werte genutzt, um den Einfluss jedes Merkmals auf die Vorhersage konsistent zu quantifizieren. Dabei wird die Vorhersage als ein „Gewinn“ betrachtet, der fair auf die einzelnen Merkmale verteilt wird, basierend auf deren jeweiligen marginalen Beiträgen zum Gesamtergebnis. SHAP bietet eine theoretisch fundierte Grundlage für die Merkmalswichtigkeit und ermöglicht sowohl lokale Einblicke in einzelne Vorhersagen als auch ein globales Verständnis der Modelllogik durch die Aggregation dieser Werte [3, 8].

Saliency Maps sind visuelle Erklärungsverfahren, die primär in der Bildverarbeitung und bei Convolutional Neural Networks (CNNs) eingesetzt werden. Sie dienen dazu, die Relevanz einzelner Eingabebereiche grafisch darzustellen. Dabei werden Heatmaps erzeugt, die hervorheben, welche Teile der Eingabe den größten Beitrag zur Klassifizierungsentscheidung des Modells geleistet haben. Während gradientenbasierte Saliency Maps, wie Grad-CAM auf die internen Gradienten des Modells zugreifen, nutzen störungsbasierte Ansätze wie RISE oder D-RISE maskierte Versionen der Eingabe, um die Wichtigkeit von Bildregionen durch Beobachtung der Output-Änderungen zu bestimmen. Diese Karten ermöglichen es menschlichen Experten, visuell zu prüfen, ob sich ein Modell auf relevante Objekte (z. B. die Form eines Tumors) oder auf irrelevante Artefakte im Bildhintergrund fokussiert [2, 5, 8].

SHAP und Saliency Maps bieten allerdings nur Hypothesen, keine Garantien [9]. Deshalb unterscheiden sich diese Methoden von Ante-hoc-Erklärungen, die auf formal transparenten Modellklassen basieren, wie lineare Modelle oder Entscheidungsbäume. Diese Art der Entscheidungslogik ist prinzipiell einsehbar, allerdings in der Praxis jedoch nur bei hinreichend geringer Modellkomplexität tatsächlich nachvollziehbar [1, 2, 4].

Aus diesem Grund ist eine in der Literatur besonders häufig verwendete Methode zur lokalen Post-hoc-Erklärbarkeit LIME, da sie mit dem Ziel entwickelt wurde, Entscheidungen komplexer, nicht transparenter Modelle für einzelne Vorhersagen nachvollziehbar zu machen, ohne Zugriff auf deren interne Struktur zu benötigen [3, 5, 6, 7]. Gerade dieser modellagnostische Charakter hat dazu geführt, dass LIME in vielen Arbeiten als eine Art Baseline für lokale Erklärungen verwendet wird und als Ausgangspunkt für zahlreiche Weiterentwicklungen dient [3, 5, 7]. Deshalb wir im Nachfolgenden LIME genauer erläutert.

Grundidee von LIME: Lokale Approximation statt globalem Verständnis

Der zentrale Gedanke von LIME besteht darin, das Verhalten eines komplexen Modells nicht global, sondern lokal in der Umgebung einer konkreten Vorhersage zu approximieren [1, 3, 4]. Anstatt zu versuchen, die vollständige Entscheidungslogik eines Black-Box-Modells zu erklären, wird angenommen, dass sich das Modell in einer kleinen Umgebung um einen konkreten Datenpunkt hinreichend einfach verhält [3, 7]. Diese lokale Einfachheit wird dann genutzt, um eine verständliche Erklärung zu erzeugen [3].

Dazu wird für eine konkrete Instanz ein einfaches, interpretierbares Surrogatmodell (z. B. ein lineares Modell) trainiert, das das Verhalten des ursprünglichen Modells nur in der unmittelbaren Nachbarschaft nachahmt [3, 7]. Die Parameter dieses Modells dienen anschließend als Erklärung.[1, 7].

Der Ablauf umfasst mehrere Schritte:

1. Zunächst wird eine Instanz ausgewählt, deren Vorhersage erklärt werden soll [1, 3, 4, 6, 7]..

2. Anschließend erzeugt LIME zahlreiche leicht veränderte Varianten dieser Eingabe (Perturbationen), etwa durch Störungen numerischer Werte, das Ein- oder Ausschalten kategorialer Merkmale oder das Maskieren von Text- bzw. Bildbestandteilen [1, 3, 4, 7].

Diese synthetischen Daten bilden eine lokale Nachbarschaft um die ursprüngliche Instanz [1, 3, 4].

Alle Varianten werden durch das Black-Box-Modell bewertet, ohne Einblick in dessen interne Struktur. Die Ergebnisse werden anschließend gewichtet, wobei Eingaben, die der Originalinstanz ähnlicher sind, stärker berücksichtigt werden. Auf dieser Basis wird ein einfaches Surrogatmodell trainiert, dessen Feature-Gewichte als Erklärung interpretiert werden: Sie zeigen, welche Merkmale lokal den größten Einfluss auf die Vorhersage haben und in welche Richtung dieser wirkt.

LIME beruht dabei auf mehreren Annahmen: Black-Box-Modelle müssen lokal approximierbar sein, und die Wahl von Distanzmetrik und Perturbationen muss eine sinnvolle Nachbarschaft abbilden [1, 3, 6]. Diese Designentscheidungen beeinflussen maßgeblich die resultierenden Erklärungen. Zudem ist das Surrogatmodell ausschließlich zur Erklärung gedacht, nicht zur Vorhersage. Die erzeugten Erklärungen sind daher immer lokale Approximationen, keine exakten Beschreibungen der Modelllogik.

Varianten und Weiterentwicklungen von LIME

Seit seiner Einführung hat sich LIME als Baseline für lokale, modellagnostische Erklärungen etabliert, stößt jedoch in realen Anwendungen an Grenzen [1, 3, 9]. Ein zentraler Kritikpunkt ist die Erzeugung synthetischer Nachbarschaftsdaten: Standardmäßig werden Features oft unabhängig und unter vereinfachenden Annahmen (z. B. Normalverteilung) verändert, was in vielen Domänen unrealistische Daten erzeugt [4].

Weiterentwicklungen setzen daher auf domänenspezifische Perturbationsstrategien, die sich an realen Datenverteilungen orientieren, etwa in der Windenergieprognose oder bei IoT-Anwendungen. Ziel ist es, realistischere Nachbarschaften zu erzeugen und die lokale Treue der Erklärungen zu verbessern. Auch in anderen Anwendungsfeldern wird LIME gezielt angepasst, indem Domänenwissen in den Erklärungsprozess integriert wird.

Darüber hinaus wird LIME zunehmend als Analysewerkzeug für Modellvertrauen genutzt. Ansätze wie der Category Trust Index aggregieren lokale Erklärungen über viele Instanzen hinweg, um die Stabilität und Konsistenz relevanter Merkmale zu bewerten. Auch in sicherheitskritischen Anwendungen dient LIME dazu, Entscheidungslogiken zu validieren und Unterschiede zwischen Modellen sichtbar zu machen.

Trotz dieser Weiterentwicklungen bleibt LIME ein Post-hoc-Verfahren, das Hypothesen liefert, aber keine kausalen Garantien bietet. Die Qualität der Erklärungen hängt weiterhin stark von der Wahl der Nachbarschaft, der Distanzmetrik und dem Surrogatmodell ab.

Insgesamt zeigt sich: LIME ist weniger eine fertige Methode als vielmehr ein flexibles Framework für lokale Approximation. Richtig eingesetzt und domänenspezifisch angepasst, bildet es eine wichtige Grundlage für Analysen im Kontext vertrauenswürdiger KI.

Trustworthy AI als mehrdimensionales Konzept

Erklärbarkeit steht häufig in einem Spannungsverhältnis zu Vorhersageleistung und Skalierbarkeit von Modellen [1].. Besonders leistungsfähige Ansätze wie tiefe neuronale Netze oder große generative Modelle liefern zwar hohe Genauigkeiten, sind jedoch deutlich schwerer zu interpretieren [3, 11]. Umgekehrt verlieren auch formal transparente Modelle mit zunehmender Komplexität ihre praktische Verständlichkeit. Interpretierbarkeit ist daher kein binäres Merkmal, sondern skaliert selbst mit der Modellkomplexität.

Vor diesem Hintergrund wird deutlich, dass Trustworthy AI nicht auf Erklärbarkeit allein reduziert werden kann. Ein zentrales ergänzendes Konzept ist die Zuverlässigkeit (Reliability) eines KI-Systems [2]. Während Erklärbarkeit die Nachvollziehbarkeit einzelner Entscheidungen adressiert, beschreibt Reliability, wie konsistent, stabil und belastbar ein Modell unter realen Einsatzbedingungen funktioniert. Dazu gehören unter anderem eine gute Kalibrierung sowie geringe Fehler- und Ausfallraten im produktiven Betrieb. Vertrauen entsteht somit nicht nur durch Transparenz, sondern vor allem durch verlässliches Verhalten im praktischen Einsatz.

Ein wesentlicher Bestandteil dieser Zuverlässigkeit ist die Robustheit gegenüber Verteilungsverschiebungen (Distribution Shift). Modelle müssen auch dann stabil funktionieren, wenn sich Daten im Zeitverlauf verändern oder zwischen Anwendungskontexten variieren [2]. Vertrauen ist damit weniger ein punktuelles Qualitätsmerkmal als vielmehr eine Eigenschaft über den gesamten Lebenszyklus eines Systems hinweg [5].

Darüber hinaus spielt die Quantifizierung von Unsicherheit eine zentrale Rolle. In sicherheitskritischen Anwendungen reicht es nicht aus, eine Vorhersage zu liefern – das System muss auch anzeigen, wie verlässlich diese ist. Verfahren wie Monte-Carlo Dropout oder Conformal Prediction ermöglichen es, Unsicherheiten explizit zu modellieren und zu kommunizieren [2, 13].

Gleichzeitig bleibt Vertrauenswürdigkeit schwer eindeutig zu messen. Es existiert keine einzelne Kennzahl, die „Vertrauen“ vollständig abbildet. Stattdessen ergibt sich Vertrauen aus dem Zusammenspiel verschiedener technischer und organisatorischer Maßnahmen [2, 12].

Nicht zuletzt ist Trustworthy AI auch eine Frage der Abwägung: Maßnahmen zur Erhöhung von Transparenz, Robustheit oder Fairness erhöhen häufig den Rechenaufwand, die Systemkomplexität und die Latenz. Der Einsatz solcher Methoden muss daher immer im Kontext der jeweiligen Anwendung und ihres Risikoprofils bewertet werden [2].

Quellen

[1] E. T. M. Beltrán et al., “Decentralized Federated Learning: Fundamentals, State of the Art, Frameworks, Trends, and Challenges,” 2022, doi: 10.48550/ARXIV.2211.08413.

[2] H. B. McMahan, E. Moore, D. Ramage, S. Hampson, and B. A. y Arcas, “Communication-Efficient Learning of Deep Networks from Decentralized Data,” 2016, doi: 10.48550/ARXIV.1602.05629.

[3] T. Li, A. K. Sahu, M. Zaheer, M. Sanjabi, A. Talwalkar, and V. Smith, “Federated Optimization in Heterogeneous Networks”.

[4] S. P. Karimireddy, S. Kale, M. Mohri, S. J. Reddi, S. U. Stich, and A. T. Suresh, “SCAFFOLD: Stochastic Controlled Averaging for Federated Learning,” 2019, arXiv. doi: 10.48550/ARXIV.1910.06378.

[5] S. Abdulrahman, H. Tout, H. Ould-Slimane, A. Mourad, C. Talhi, and M. Guizani, “A Survey on Federated Learning: The Journey From Centralized to Distributed On-Site Learning and Beyond,” IEEE Internet Things J., vol. 8, no. 7, pp. 5476–5497, Apr. 2021, doi: 10.1109/JIOT.2020.3030072.

[6] Q. Li, W. Yu, Y. Xia, and J. Pang, “From Centralized to Decentralized Federated Learning: Theoretical Insights, Privacy Preservation, and Robustness Challenges,” Mar. 10, 2025, arXiv: arXiv:2503.07505. doi: 10.48550/arXiv.2503.07505.

[7] L. Yuan, Z. Wang, L. Sun, P. S. Yu, and C. G. Brinton, “Decentralized Federated Learning: A Survey and Perspective,” 2023, arXiv. doi: 10.48550/ARXIV.2306.01603.

[8] N. A. Tuan, S. Jim Soe Moe, Q. W. Khan, A. Rizwan, and D. H. Kim, “Topology Optimization Techniques for Decentralized Federated Learning: Challenges and Solutions,” in 2025 International Conference on Metaverse Computing, Networking and Applications (MetaCom), Seoul, Korea, Republic of: IEEE, Aug. 2025, pp. 51–56. doi: 10.1109/MetaCom65502.2025.00015.

[9] T. Yang et al., “Applied Federated Learning: Improving Google Keyboard Query Suggestions,” Dec. 07, 2018, arXiv: arXiv:1812.02903. doi: 10.48550/arXiv.1812.02903.

[10] A. R. Elkordy et al., “Federated Analytics: A survey,” Feb. 02, 2023, arXiv: arXiv:2302.01326. doi: 10.48550/arXiv.2302.01326.

[11] A. Hard et al., “Federated Learning for Mobile Keyboard Prediction,” Feb. 28, 2019, arXiv: arXiv:1811.03604. doi: 10.48550/arXiv.1811.03604.

[12] V. Pruckovskaja et al., “Federated Learning for Predictive Maintenance and Quality Inspection in Industrial Applications,” Apr. 21, 2023, arXiv: arXiv:2304.11101. doi: 10.48550/arXiv.2304.11101.

[13] X. Zhou et al., “Decentralized P2P Federated Learning for Privacy-Preserving and Resilient Mobile Robotic Systems,” IEEE Wirel. Commun., vol. 30, no. 2, pp. 82–89, Apr. 2023, doi: 10.1109/MWC.004.2200381.

[14] J. Tan et al., “Bridging Data Islands: Geographic Heterogeneity-Aware Federated Learning for Collaborative Remote Sensing Semantic Segmentation,” Dec. 24, 2024, arXiv: arXiv:2404.09292. doi: 10.48550/arXiv.2404.09292.

[15] H. Lin, C. Zhang, D. Hong, K. Dong, and C. Wen, “FedRSClip: Federated Learning for Remote Sensing Scene Classification Using Vision-Language Models,” Jan. 05, 2025, arXiv: arXiv:2501.02461. doi: 10.48550/arXiv.2501.02461.

Die Autorin

Lucia Auburger

Smart Embedded Systems (Fraunhofer IMS)

Lucia Auburger

E-Mail

Zurück