Verbesserung von Kontrollen durch Natural Language Processing

Effizienzsteigerung auch bei heterogenen 2nd-Line Kontrollen

Abonnieren Sie den kostenlosen Bank Blog Newsletter

Der Einsatz von Natural Language Processing bietet enorme Potenziale, um textbasierte Kontrollen deutlich zu optimieren. Durch Automatisierung und Standardisierung von Prüfprozessen können Effizienz, Genauigkeit und die Einhaltung erheblich gesteigert werden.

Einsatz von NLP zur Optimierung textbasierter Kontrollen

Einsatz von Natural Language Processing zur Optimierung textbasierter Kontrollen.

Partner des Bank Blogs

BehavioSec ist Partner des Bank Blogs

Spätestens mit DORA wird das 3-Lines-of-Defense-Modell, das schon längere Zeit implizit durch die Aufsicht gefordert wird, auch explizit in den regulatorischen Vorgaben verankert. Der zweiten Verteidigungslinie obliegen in diesem Kontext insbesondere die folgenden drei Aufgaben:

  • Die Erstellung von Vorgaben,
  • die Kontrolle der Einhaltung dieser Vorgaben und
  • die Beratung der ersten Verteidigungslinie bei deren Umsetzung.

Gerade im Bereich Nonfinancial Risk wurden in letzter Zeit in Finanzinstituten neue Strukturen geschaffen, um diese Aufgaben systematisch anzugehen. Typische Funktionen sind hier Compliance, Geldwäsche, Datenschutz, IT-Security, Notfallmanagement, Auslagerungsmanagement oder eine zentrale IKS-Funktion.

Hat man auf der Vorgabenseite einen stabilen Status erreicht, rücken Kontrollen und Beratung in den Vordergrund, wobei die Aufsicht insbesondere auf die Wirksamkeit der Kontrollen achtet. Vor diesem Hintergrund ist ein effizientes und effektives Kontrollframework aus wirtschaftlicher, ökonomischer und Sicherheitsperspektive von hoher Bedeutung.

Typische 2nd-Line Kontrollen sind heterogen

Idealerweise sollten diese Kontrollen standardisiert und automatisiert werden. In der Praxis handelt es sich bei den Kontrollen allerdings leider oft um

  1. eine Vielzahl von heterogenen, prozessunabhängige Kontrollen mit relativ kleiner Stückzahl,
  2. deren Datengrundlage Text ist und
  3. deren Datengrundlage in verschiedenen Systemen oder Verzeichnissen liegt und nicht einheitlich strukturiert ist.

Ein paar Beispiele und ein Lösungsansatz für die oben genannten Herausforderungen sind in folgender Abbildung zu sehen:

Data Analytics für typische textbezogene Kontrollen

Typische Texte, die im Rahmen von Kontrollen behandelt werden können und die grundsätzliche Methodik, um mittels NLP-Methoden Teile dieser Kontrollen durchzuführen.

 

Zentral ist zunächst ein gutes Verständnis der jeweiligen Kontrollen und der zugrundeliegenden Daten. Eine sehr gute Möglichkeit, das zu erreichen, ist die Implementierung eines Data Analytics-Team in der 2nd-Line. Hat man das Data Analytics-Team, so ist der erste Schritt, der die dritte oben genannte Herausforderung adressiert, das „Data Wrangling“. D.h. das Zusammensuchen der Daten und die einheitliche Formatierung. Das kann z.B. das Auslesen von pdf- oder html-Seiten sein und die Umformatierung in eine Textdatei mit standardisierter Formatierung von Absätzen und Sonderzeichen. In der Praxis ist dieser Prozess oft aufwendig und mühsam, kann aber bei einer guten Data Governance und Verwendung einer einheitlichen Plattform deutlich erleichtert werden. Je einheitlicher die Daten gespeichert sind, je besser die Datenqualität und die Berechtigungsstrukturen, desto einfacher gestaltet sich das Data Wrangling. Typischerweise wird ein Großteil (rund drei Viertel) der Zeit für diesen Prozess verwendet.

Zwei Arten von Natural Language Processing-Methoden

Danach stehen einem verschiedene Natural Language Processing-Methoden (NLP) offen. Diese sind z. B. in Python so gut implementiert, dass die eigentliche Auswertung – bei vorhandenen Daten in guter Form – relativ schnell durchgeführt werden kann. Bei der Auswertung kann man grob zwischen zwei Arten unterscheiden:

  • (Vor-)Trainierte Modelle („indeterministisch“) wie z.B. LLM
  • Deterministische NLP-Methoden

(Vor-)Trainierte Modelle vs. deterministische NLP-Methoden

Trainierte Modelle sind z.B. einfache Wortrepräsentationen wie Word2Vec, statistische Klassifikationsverfahren wie die Latent Dirichlet Allocation (LDA), in der aktuellen Praxis aber vor allem Large Language Models wie GPT, Gemini oder Llama. Bei diesen Modellen wird, vereinfacht gesprochen, von den Entwicklern nur die Grundstruktur vorgegeben, danach wird das Modell auf Basis großer Textmengen trainiert. Solche Modelle enthalten typischerweise eine gewisse Zufallskomponente (Temperatur), sodass die Ergebnisse nicht 1:1 reproduzierbar sind. Auch wenn diese ausgeschaltet wird, ist es möglich, dass formal verschiedene, aber inhaltsgleiche Eingaben zu deutlichen unterschiedlichen Ergebnissen führen.

Diese Methoden sind äußerst leistungsfähig, haben jedoch Schwächen in Bezug auf die Erklärbarkeit der Ergebnisse. Die BaFin stellt in ihrer Leitlinie: „Big Data und künstliche Intelligenz: Prinzipien für den Einsatz von Algorithmen in Entscheidungsprozessen“ die folgenden Bedingungen hierzu auf:

  • „Korrekte, robuste und reproduzierbare Ergebnisse sicherstellen“
  • „Angemessene Validierungsprozesse“
  • „Putting the human in the loop“

In diesem hochregulierten Umfeld erscheint der Aufwand für eine notwendige Validierung des Verfahrens, gerade bei geringen Stückzahlen der Kontrollen, extrem hoch. Vor diesem Hintergrund erscheinen solche Verfahren in dem Kontext vor allem für eine risikoorientierte Auswahl einer Stichprobe interessant, da hierdurch weiterhin der Mensch die zentrale Entscheidungsstelle der Kontrolle ist. Außerdem muss eine Stichprobe nicht notwendigerweise reproduzierbare Ergebnisse sicherstellen, da Zufallsstichproben das offensichtlich auch nicht tun.

Eine Möglichkeit besteht auch darin, die Stichprobe in einen risikoorientierten und einen zufallsbasierten Teil zu unterteilen. Hierdurch erhält man erste Erkenntnisse, die man für die Validierung verwenden kann, schon im Rahmen der eigentlichen Kontrolle. Anbei eine beispielhafte Darstellung.

Beispielhafte Kontrolle über eine gemischte Stichprobe

Beispielhafte Durchführung einer Kontrolle über Stichproben, wobei ein Teil der Stichrobe zufällig ist, der andere Teil risikoorientiert gewählt wird.

 

Deterministische NLP-Methoden

Deterministische NLP sind dagegen spezifischer und müssen für jeden Anwendungsfall individuell programmiert werden. Sowohl für die Programmierung als auch für die Datenaufbereitung, die in diesem Fall noch akribischer sein muss, sind hohe Aufwände erforderlich. Aber die Ergebnisse sind dann eindeutig erklärbar und gut auch für Vollprüfungen verwendbar. Anbei noch ein paar Vor- und Nachteile der jeweiligen Methode mit einigen Anwendungsbeispielen für deterministische NLP:

Vergleich LLM und deterministische NLP-Methoden

Gegenüberstellung der Vor- und Nachteile sowie Anwendungsmöglichkeiten von LLM im Vergleich zu deterministischen NLP.

 

Ein Beispiel für eine LLM-Verwendung

In einem Beispielcase haben wir getestet, wie einfach man ein LLM als Qualitätskontrolle von Texten verwenden kann. Hierzu wurden gute Wikipedia-Artikel verwendet, die unter kaggle bereitgestellt wurden. Gut heißt ein Wikipedia-Artikel „that  meets a core set of editorial standards, the good article criteria, passing through the good article nomination process successfully.“ Es wurde ein gpt-3.5 turbo-Modell von OpenAI verwendet, um die Qualität der Artikel zu bewerten. Im Prompt wurden spezifisch die „good article criteria“ als Input gegeben. Weiterhin wurden im Prompting explizit Begründungen vom Modell verlangt.

Als Ergebnis lässt sich festhalten:

  • Die Ergebnisse streuen bei mehrmaligem Durchlauf deutlich. Die Variabilität wird allerdings durch Reduktion der Temperatur geringer
  • Die Begründungen sind nicht immer nachvollziehbar
  • Je homogener die Dokumente sind und je spezifischer der Prompt/ die Kriterien dort, desto besser sind die Ergebnisse

Insgesamt zeigt sich, dass die Ergebnisse einer so allgemeinen Aufgabe auch abgesehen von Validierungsanforderungen noch mit Vorsicht zu betrachten sind. Dennoch können schon sinnvolle Ergebnisse erzeugt werden und eine frühzeitige Beschäftigung mit diesem Thema ist in jedem Fall sinnvoll.

NLP bietet Potentiale und Chancen

Die Potenziale durch NLP sind vielseitig und bieten bedeutende Chancen zur Verbesserung von 2nd-Line-Kontrollen. Während LLMs wie GPT für spezifische Anwendungen hilfreich sein können, sind sie aufgrund ihrer Zufallskomponente und der geringeren Erklärbarkeit in hochregulierten Umfeldern nur eingeschränkt anwendbar. Unabhängig von der genauen Methode sind eine leistungsfähige Plattform und hohe Datenqualität entscheidend für den Erfolg. Die Effizienz und Effektivität der Kontrollen sollte zudem laufend über ein übergreifende Reporting gesteuert werden, in dem auch die Datenqualität thematisiert werden sollte.

Mit dem gezielten Einsatz von NLP können Banken ihre Kontrollprozesse nicht nur effizienter gestalten, sondern auch proaktiv auf regulatorische Anforderungen und sich wandelnde Risiken reagieren – ein entscheidender Schritt in Richtung Zukunftssicherheit.


Patrick Günther-Schmidt - Senior Referent Data, L-Bank

Patrick Günther-Schmidt

Patrick Günther-Schmidt ist Koautor des Beitrags. Er ist Senior Referent für Data Governance & Data Analytics bei der L-Bank. Zuvor war er u.a. Analyse im Bereich Zahlungsverkehr und Treasury bei EnBW.

 

Über den Autor

Dr. Fabian Kopei

Dr. Fabian Kopei ist Bereichsleiter Governance & Compliance bei der L-Bank. Der promovierte Mathematiker war zuvor als Gruppenleiter bei der DZ Bank und als Senior Consultant bei zeb tätig.

Vielen Dank fürs Teilen und Weiterempfehlen


Mit dem kostenlosen Bank Blog Newsletter immer informiert bleiben:

Anzeige

Get Abstract: Zusammenfassungen interessanter Businessbücher

Hinterlassen Sie einen Kommentar

Bank Blog Newsletter abonnieren

Bank Blog Newsletter abonnieren