Moderne Technologie für sicheres Voice-Banking

Finanztransaktionen per Kraft der Stimme tätigen? Multi-Faktor-Sprachauthentifizierung macht es möglich. Eine Kombination aus innovativer Technologie, Künstlicher Intelligenz und Machine Learning sorgt dafür, dass Voice-Banking nicht nur bequem, sondern auch sicher ist.

Technologie ermöglicht bequemes und sicheres Voice Banking

Voice-Banking muss nicht nur bequem, sondern auch sicher sein.

Sprachassistenten erleichtern uns in vielen Situationen das Leben – Navigationssysteme leiten uns durch Sprache, wir reden mit unseren Smart Home-Geräten oder geben unserem Handy kurze (Such-) Befehle per Stimme. Inzwischen hält Sprachtechnologie auch in der Finanzwelt Einzug. Mit steigender Akzeptanz und unterschiedlichen Einsatzszenarien von Sprachschnittstellen wächst allerdings gerade in der Finanzbranche der Bedarf an nutzerfreundlichen, sicheren Voice Banking-Lösungen. Viele Bankkunden fragen sich: Geld überweisen, Rechnungen bezahlen oder größere Transaktionen tätigen – einfach nur mit der Stimme – geht das überhaupt? Und wie kommuniziere ich ein Passwort in der Bahn, ohne dass Mitreisende auch davon Gebrauch machen können? Wie kann das System meine Stimme einwandfrei erkennen und zuordnen? Welche Sicherheitsmaßnahmen greifen im Zweifel, um Schutz vor Missbrauch zu gewährleisten?

Um Betrug zu verhindern, setzen Banken und Finanzinstitute bereits heute überwiegend im Callcenter-Bereich auf Sprachauthentifizierungs-Systeme. Diese ermöglichen wichtige Vorverifikation der Identität des Anrufers, laufen in der Regel im Hintergrund automatisch ab und basieren hauptsächlich auf biometrischen Analysen. Zusätzlich werden zur Mehr-Faktor-Authentifizierung persönliche Daten oder Kennwörter abgefragt.

Solche Systeme kommen allerdings nur in stark eingeschränkten Nutzungsszenarien zum Einsatz. Es wäre allerdings möglich, durch eine Verkettung verschiedener Methoden eine Multi-Faktor-Authentifizierung zu gestalten, die sogar robust genug ist, um im Einzelhandel zum Beispiel als Zahlungsmethode zu dienen. In dieser Vision spielen verschiedene Technologien, Künstliche Intelligenz und semantische Netzwerke eine entscheidende Rolle.

Voiceprints filtern Charakteristiken einer Stimme heraus

Die maschinelle Erkennung von menschlichen Stimmabdrücken, auch Voiceprints genannt, gibt es seit mehr als vierzig Jahren. Jeder Mensch spricht auf eine einzigartige Weise. Heutzutage kann eine biometrische Authentifizierung die Stimme auf über 150 Charakteristiken abgleichen, um Übereinstimmungen mit dem jeweiligen biometrischen Profil zu identifizieren. Innerhalb weniger Sekunden findet die dynamische Vermessung obendrein gleich mehrfach statt.

Machine Learning und Emotion Artificial Intelligence erkennen gestresste Stimmen

Wir alle kennen Filmszenen, bei denen Opfer unter Gewaltandrohung hohe Geldsummen per Telefon anweisen oder einen geheimen Code preisgeben müssen. Auch im echten Leben gilt es, mögliche Erpressungs- oder Betrugsszenarien zu berücksichtigen. Mittels Künstlicher Intelligenz und Machine Learning prüft das System, ob der Sprechende unter Zwang agiert oder sich in einer Situation befindet, die keine sichere Handlungsanweisung erlaubt. Um das Gesprochene automatisch in den Kontext einzuordnen, werden über 50 Parameter in Echtzeit analysiert. Die emotionale Künstliche Intelligenz, die sogenannte Emotion AI, scannt eine Aussage nuancengenau ab und kann so selbst sogar unbewusste Stress- oder Angstsignale in der Stimme identifizieren – etwa anhand von Frequenzeigenschaften oder Sprachmodulation. Eingebunden in ein Machine Learning-Modell unterscheidet das System so bis zu 16 Emotionen. Besteht der Kunde diesen „Stress-Test“, steht einer Transaktion nichts im Wege. Erkennt das System eine Stresssituation, kommt es zum Beispiel zu weiteren Sicherheitsabfragen.

Plausibilitätsprüfung und Alarmwort verhindern unbefugte Transaktionen

Bei einer Plausibilitätsprüfung wird die Geräuschkulisse auf den Standort hin ausgewertet. Registriert der Zahlungsanbieter eine Anweisung, die vom ländlichen Wohnort eines Kunden ausgeht, während im Hintergrund jedoch eindeutig Flughafengeräusche zu hören sind, wird die Transaktion vorsichthalber gestoppt. Ein Alarmwort, das der Nutzer unerkannt von Umstehenden von sich gibt, könnte im System ebenfalls eine Sperre oder sogar einen Notruf auslösen.

Liveness-Check scannt Stimmmanipulation und Sprachaufnahmen

Sprachaufnahmen und künstliche Sprachimitationen sind heutzutage mit wenig technischer Sachkenntnis für jeden erstellbar. Wie kann das Authentifizierungs-System also erkennen, ob es sich bei einem Transaktions-Anweiser um einen echten, autorisierten Menschen handelt? Mit dem Liveness-Check lassen sich Stimmmanipulationen oder Sprachaufnahmen identifizieren. Dazu werden Frequenzbereiche analysiert. Vorgefertigte Audioaufnahmen unterscheiden sich von Live-Aufnahmen durch Stimmhöhen und -tiefen, Atemgeräusche und Klangklarheit. In den Mustern eines Sprachspektrogramms zeigen sich dann visuell deutliche Unterschiede. Auch eine fehlende akustische Rückkopplung enttarnt eine Aufnahme.

Verschlüsselter Passwortschutz erübrigt verbale PIN-Eingabe

Ob im vollbesetzen Zug, in der Kassenschlange beim Elektronikhändler, am Flughafen – keiner gibt sein Passwort oder PIN zur Autorisierung einer Transaktion verbal preis, wenn andere Menschen zuhören. Das ist auch gar nicht nötig: Mithilfe eines Einmalpasswortes und Natural Language Understanding-Technologien hinterlegt ein Nutzer ein „geheimes Objekt“ im Authentifizierungs-System des Finanzinstituts. Etwa so etwas wie „Sonnenblume“ oder „Flugzeug“. Dann erstellt die Passwortverwaltungs-Anwendung mittels Semantischen Netzwerken, Knowledge Graphs oder Ontologien eine Vielzahl an Authentifizierungsfragen, deren Antworten nur der richtige Nutzer wissen kann: „Ist dein geheimes Objekt aus Holz?“ „Ist es größer oder kleiner als eine Kuh?“ Kommen die richtigen Antworten – zusätzlich zu den anderen bestandenen Prüfmethoden – wird die Transaktion gewährt.

Sprachauthentifizierung bietet Komfort für Kunden

Bisher haben nur die wenigsten Banken und Finanzinstitute das volle Potenzial von Sprachauthentifizierung erkannt. Dabei wäre der Komfort für Kunden enorm. Schließlich trägt man das Mittel zur Legitimation – nämlich die Stimme – immer bei sich. Mit der vorgestellten Multi-Faktor-Authentifizierung im Einsatz, wären die Systeme optimal geschützt und nutzerfreundlich. Banken und Finanzinstitute, die diesen Trend frühzeitig erkennen und für sich nutzen, werden entscheidende Vorteile gegenüber dem Wettbewerb haben.

Maria Müller

Maria Müller ist Koautorin des Beitrags. Als Voice UX-Spezialistin bei Triplesense Reply konzipiert sie Anwendungen für Sprachassistenten wie Amazon Alexa oder Google Assistant. Ferner gestaltet die Diplom Kommunikationsdesignerin grafische Interfaces für Endanwender und Industrie, sowie Lösungen im IoT- und Smart-Home-Bereich.

So funktioniert sicheres Voice-Banking

Sprache statt PIN-Eingabe