»Deepfakes«: Mit KI-Systemen Audio- und Videomanipulationen verlässlich entlarven

Künstliche Intelligenz (KI) bietet viele Chancen wie eine verbesserte Gesundheitsversorgung, einen effizienteren Energieverbrauch oder langlebigere Produkte. Mit KI gehen aber auch neue Risiken einher. »Deepfakes« ist dabei ein wichtiges Schlagwort. Es erinnert an »Fake News«: Bewusst falsche Text-Nachrichten in den sozialen Netzwerken zur Verfälschung der öffentlichen Meinungsbildung. »Deepfakes« meinen dagegen täuschend echt wirkende Video- und Audiomanipulationen, die nur mit KI hergestellt werden können. Die Risiken und Herausforderungen, die »Deepfakes« mit sich bringen, sind erheblich – nicht nur für die Medienlandschaft, sondern auch für Unternehmen und Einzelpersonen. Zugleich bietet KI aber auch das Rüstzeug, um »Deepfakes« verlässlich zu entlarven.

KI-basierte Systeme können lernen, eine Stimme oder Körpersprache nachzuahmen.
Neuronale Netze können auch darauf trainiert werden, manipulierte Medieninhalte als Fälschungen zu erkennen.

In der Vergangenheit war das Anfertigen hochwertiger Manipulationen von Video- oder Audiomaterial nahezu unmöglich. Aufgrund des dynamischen Inhalts besteht die Herausforderung darin, mindestens 16.000 Datenpunkte pro Sekunde konsistent zu verfälschen. KI-Methoden können dies inzwischen nahezu spielerisch meistern. Die nötige Software dazu findet sich als Open-Source-Software frei verfügbar im Netz, überzeugende Manipulationen können damit automatisiert erstellt werden.

Wie genau gelingt dies? Auch bei der »Deepfake«-Erstellung werden Systeme wie bei vergleichbaren Machine-Learning-Modellen mit Trainingsdaten aus dem Netz angelernt. Architekturen wie Tacotron und Wav2Lip (Quellen: Wang, Yuxuan, et al., Shen, Jonathan, et al., Prajwal, K. R., et al.) ermöglichen es, neuronale Netze zu konstruieren, die jeden beliebigen Satz einer Zielperson mit dem passenden Gesichtsausdruck und der typischen Sprachmelodie verbinden. Auf eben diese neuronalen Netze spielt auch der Begriff »Deep« in der englischen Wortkombination »Deepfakes« an. Dabei reichen bereits etwa 30 Minuten an geeignetem Audio- und Video-Material aus. 

Mit »Deepfakes« gehen neue Risiken einher 

Die Risiken, welche »Deepfakes« mit sich bringen, sind erheblich. Ein jeder von uns läuft theoretisch Gefahr, dass online in seinem Namen mittels gefälschter Stimme oder Videos Überweisungen getätigt oder Verträge abgeschlossen werden – vorausgesetzt, es ist ausreichend Audio- und Videomaterial verfügbar. Auch Unternehmen können Schaden nehmen, wenn etwa Angestellte mit gefälschten Audionachrichten zu betrügerischen Handlungen verleitet werden. So ist es im Fall eines in Großbritannien ansässigen Energieunternehmens geschehen, dessen CEO scheinbar vom Vorstandsvorsitzenden der deutschen Mutter-Firma, in Wirklichkeit aber von einer maschinell geklonten Stimme gebeten wurden, einen sechsstelligen Geldbetrag zu überweisen (Quelle: Forbes).

Für die Medienlandschaft stellt die Möglichkeit der Manipulation von Aussagen von Politik*innen oder einflussreichen Entscheidungsträger*innen eine besondere Herausforderung dar. Denn von Personen des öffentlichen Lebens liegen in der Regel umfassende Audio- und Videoinhalte und damit ausreichend KI-Trainingsmaterial für die Anfertigung von »Deepfakes« vor. So können hochrangigen Politikern*innen weltweit quasi beliebige Sätze »in den Mund« gelegt werden, die in Bild und Ton täuschend echt wirken (Beispiel mit Angela Merkel).

»Deepfakes« mit den eigenen Waffen schlagen

KI macht »Deepfakes« zwar möglich, kann aber auch wesentlich dabei helfen, Audio- und Videomanipulationen verlässlich zu entlarven. Genau hier setzt das Fraunhofer-Institut für Angewandte und Integrierte Sicherheit AISEC an. Die IT-Sicherheitsexpert*innen der Forschungsabteilung Cognitive Security Technologies (CST) gestalten Systeme, die »Deepfakes« sicher und automatisiert als Fälschungen aufdecken. Außerdem forschen sie zu Methoden zur Stärkung der Robustheit von Systemen, die Video- und Audiomaterial auswerten. 

Damit die Wissenschaftler*innen des Fraunhofer AISEC die hinter dem Betrug steckende Technologie umfassend verstehen, mögliche Schwachstellen ausmachen und Schutzmaßnahmen entwerfen können, wechseln sie in Simulationen zunächst auf die Seite der Fälscher*innen. Hier generieren sie überzeugend gefälschte Audio- und Video-Daten, anhand derer sie anschließend Algorithmen zur Aufdeckung von Fälschungen entwickeln. Der Einsatz von KI ist dabei entscheidend. Denn so, wie neuronale Netze die Erstellung von Medieninhalten lernen können, können sie auch zur Erkennung von gefälschtem Material trainiert werden. Dafür führt man ihnen eine Reihe echter und manipulierter Aufnahmen vor, anhand derer die Netze lernen, kleinste Unstimmigkeiten zu erkennen, die ein Mensch nicht wahrnehmen kann. Derartige KI-Algorithmen sind dann auch in der Lage, automatisiert zu entscheiden, ob eine Audio- oder Videodatei echt oder gefälscht ist.

Mit Übung können Nutzer*innen »Deepfakes« verlässlicher erkennen, erreichen aber nicht die Trefferquoten von KI-Sicherheitssystemen.

Außerdem unterziehen die Cyber-Security-Expert*innen des Fraunhofer AISEC KI-Systeme, die z. B. bei der Gesichtserkennung oder Sprachverarbeitung eingesetzt werden, genauen Sicherheitsprüfungen. Mittels Penetrationstests analysieren sie ihre Schwachstellen und entwickeln »gehärtete« Sicherheitslösungen, die Täuschungsversuche mit »Deepfakes« standhalten. Mit Verfahren wie »Robust Learning« und »Adversarial Learning« gibt das Fraunhofer AISEC den KI-Algorithmen sozusagen eine dickere Panzerung und macht sie resilienter, beispielweise durch ein komplexeres Design der Programmierung.

Use Case Versicherungswirtschaft: »Deepfakes« täuschen Voice-ID-System

Banken, Versicherungen oder Mobilfunkanbieter bieten mehr und mehr an, sich bei einem Anruf mit der Stimme zu identifizieren. Der Stimme kommt also die Bedeutung eines Passworts zu. Die Authentifizierung mittels Spracherkennung mag zwar komfortabler sein als herkömmliche Authentifizierungsmethoden wie PIN oder Passwort. Um aber als vertrauenswürdige und verlässliche Alternative eingesetzt zu werden, muss das Voice-ID-System robust und sicher sein.

Dass es in puncto Sicherheit noch Nachholbedarf gibt, zeigten die Wissenschaftler*innen des Fraunhofer AISEC im jüngsten Use Case: Sie hebelten in einem Penetrationstest erfolgreich das System zur Stimmenerkennung (ein sogenanntes Voice-ID-System) einer großen deutschen Versicherungsgesellschaft aus. Anhand von bereitgestelltem Trainingsmaterial in Form einer etwa zehnminütigen Aufnahme einer öffentlichen Rede der Zielperson wurde am Fraunhofer AISEC dafür eigens ein hochwertiges Audio-»Deepfake« angefertigt, welches das Sicherheitssystem täuschen konnte und Zugriff auf den persönlichen Account der Zielperson ermöglichte.

Kompetenz und Bewusstsein für die Erkennung und die Abwehr von »Deepfakes« aufbauen

»Deepfakes« werden in Zukunft immer leichter zu produzieren sein. Daher gilt es, Kompetenzen sowie Werkzeuge aufzubauen und Maßnahmen zu ergreifen, um den Einsatz von KI beim Entstehen von Daten nachvollziehbar zu machen und Fälschungen als solche zu erkennen.

Die Expert*innen des Fraunhofer AISEC verfügen bereits heute über Methoden, die Manipulationen deutlich verlässlicher aufdecken als der Mensch. Gleichzeitig empfiehlt es sich, »Deepfakes« als solche zu kennzeichnen und ihren Einsatz zu regulieren. Entsprechende rechtliche Rahmenbedingungen, die Strafmaßnahmen beim verdeckten Einsatz von KI vorsehen, könnten dabei hilfreich sein. Parallel dazu sollte auch die Nachvollziehbarkeit von unveränderten Informationen gestärkt werden. So lassen sich ergänzend zur Aufdeckung von »Deepfakes« unveränderte Originalaufnahmen nachweisbar als solche kennzeichnen.

Außerdem lassen sich Sicherheitssysteme auf ihre Anfälligkeit für Täuschungen testen und schützen. Anhand eigener »Deepfakes« der Forschenden des Fraunhofer AISEC werden Sprach-ID- und andere Sicherheitssysteme im Rahmen von Penetrationstests umfassend geprüft, um Schwachstellen aufzudecken, bevor es ein Angreifer tut.

Nicht zuletzt ist es in Anbetracht der Bedeutung von KI-gestützten System notwendig, das Risikobewusstsein zu schärfen. Nutzer*innen müssen lernen, Medienmaterial – sei es die Rede eines Politikers oder die überraschende telefonische Bitte der Vorgesetzten, eine Überweisung an ein unbekanntes Konto zu tätigen – stärker zu hinterfragen und zu prüfen. Auswertungen der Sicherheitsforschenden deuten darauf hin, dass es Nutzer*innen mit zunehmender Sensibilisierung leichter fällt, »Deepfakes« als solche zu erkennen. Die am Fraunhofer AISEC angefertigten »Deepfakes« werden daher auch zu Schulungs- und Aufklärungszwecken verwendet.

»Deepfakes« in der Praxis

Die am Fraunhofer AISEC entwickelten Lösungen unterstützen Unternehmen und Einrichtungen der öffentlichen Hand bei der Erkennung von Video- und Audio-»Deepfakes«. Außerdem können im Rahmen von Sicherheitschecks mittels eigens erstellter »Deepfakes« frühzeitig Sicherheitslücken in Systemen ausgemacht und geschlossen werden. Ferner werden »Deepfake«-Demonstratoren genutzt, um Nutzer*innen für die Thematik zu sensibilisieren, das nötige Wissen im Umgang mit »Deepfakes« zu vermitteln und bei der Bewertung der Echtheit von Medieninhalten zu schulen.

Datenschutz und Datenverarbeitung

Wir setzen zum Einbinden von Videos den Anbieter YouTube ein. Wie die meisten Websites verwendet YouTube Cookies, um Informationen über die Besucher ihrer Internetseite zu sammeln. Wenn Sie das Video starten, könnte dies Datenverarbeitungsvorgänge auslösen. Darauf haben wir keinen Einfluss. Weitere Informationen über Datenschutz bei YouTube finden Sie in deren Datenschutzerklärung unter: https://policies.google.com/privacy

Angela Merkel rezitiert vermeintlich ein Gedicht: Der Demonstrator illustriert den Reifegrad deutschsprachiger »Deepfakes«.

Demonstratoren

 

Klon von Angela Merkel

Eine Deepfake-KI synthetisiert die Stimme der ehemaligen Bundeskanzlerin Angela Merkel.

 

Can you spot the Audio Deepfake?

Mensch gegen Maschine: Wer erkennt manipulierte Audios verlässlicher?

 

Deepfake Total

Die Plattform Deepfake Total des Fraunhofer AISEC erkennt KI-gesteuert Audio-Deepfakes. Einzelne Dateien und YouTube-Videos können mit unterschiedlichen Audio-Spoof- und Deepfake-Erkennungsmodellen auf ihre Authentizität überprüft werden.

Downloads

Verschaffen Sie sich anhand der Publikationen unserer Mitarbeitenden einen Überblick über aktuelle Forschungsergebnisse aus dem Themengebiet »Deepfakes«.

 

Paper

Harder or Different? Understanding Generalization of Audio Deepfake Detection

von Nicolas M. Müller, Nicolas M. Müller, Nicholas Evans, Hemlata Tak, Philip Sperl und Konstantin Böttinger

 

Paper

MLAAD: The Multi-Language Audio Anti-Spoofing Dataset

von Nicolas M. Müller, Piotr Kawa, Wei Herng Choong, Edresson Casanova, Eren Gölge, Thorsten Müller, Piotr Syga, Philip Sperl und Konstantin Böttinger

 

Paper

Human Perception of Audio Deepfakes

von Nicolas M. Müller, Karla Markert und Konstantin Böttinger

 

Paper

Speech is Silver, Silence is Golden: What do ASVspoof-trained Models Really Learn?

von Nicolas M. Müller, Franziska Dieckmann, Pavel Czempin, Roman U. Canals, Konstantin Böttinger und Jennifer Williams

 

Paper

Does Audio Deepfake Detection Generalize?

von Nicolas M. Müller, Pavel Czempin, Franziska Dieckmann, Adam Froghyar und Konstantin Böttinger

 

Paper

Attacker Attribution of Audio Deepfakes

von Nicolas M. Müller, Franziska Dieckmann und Jennifer Williams