In der Vergangenheit war das Anfertigen hochwertiger Manipulationen von Video- oder Audiomaterial nahezu unmöglich. Aufgrund des dynamischen Inhalts besteht die Herausforderung darin, mindestens 16.000 Datenpunkte pro Sekunde konsistent zu verfälschen. KI-Methoden können dies inzwischen nahezu spielerisch meistern. Die nötige Software dazu findet sich als Open-Source-Software frei verfügbar im Netz, überzeugende Manipulationen können damit automatisiert erstellt werden.
Wie genau gelingt dies? Auch bei der »Deepfake«-Erstellung werden Systeme wie bei vergleichbaren Machine-Learning-Modellen mit Trainingsdaten aus dem Netz angelernt. Architekturen wie Tacotron und Wav2Lip (Quellen: Wang, Yuxuan, et al., Shen, Jonathan, et al., Prajwal, K. R., et al.) ermöglichen es, neuronale Netze zu konstruieren, die jeden beliebigen Satz einer Zielperson mit dem passenden Gesichtsausdruck und der typischen Sprachmelodie verbinden. Auf eben diese neuronalen Netze spielt auch der Begriff »Deep« in der englischen Wortkombination »Deepfakes« an. Dabei reichen bereits etwa 30 Minuten an geeignetem Audio- und Video-Material aus.
Mit »Deepfakes« gehen neue Risiken einher
Die Risiken, welche »Deepfakes« mit sich bringen, sind erheblich. Ein jeder von uns läuft theoretisch Gefahr, dass online in seinem Namen mittels gefälschter Stimme oder Videos Überweisungen getätigt oder Verträge abgeschlossen werden – vorausgesetzt, es ist ausreichend Audio- und Videomaterial verfügbar. Auch Unternehmen können Schaden nehmen, wenn etwa Angestellte mit gefälschten Audionachrichten zu betrügerischen Handlungen verleitet werden. So ist es im Fall eines in Großbritannien ansässigen Energieunternehmens geschehen, dessen CEO scheinbar vom Vorstandsvorsitzenden der deutschen Mutter-Firma, in Wirklichkeit aber von einer maschinell geklonten Stimme gebeten wurden, einen sechsstelligen Geldbetrag zu überweisen (Quelle: Forbes).
Für die Medienlandschaft stellt die Möglichkeit der Manipulation von Aussagen von Politik*innen oder einflussreichen Entscheidungsträger*innen eine besondere Herausforderung dar. Denn von Personen des öffentlichen Lebens liegen in der Regel umfassende Audio- und Videoinhalte und damit ausreichend KI-Trainingsmaterial für die Anfertigung von »Deepfakes« vor. So können hochrangigen Politikern*innen weltweit quasi beliebige Sätze »in den Mund« gelegt werden, die in Bild und Ton täuschend echt wirken (Beispiel mit Angela Merkel).
»Deepfakes« mit den eigenen Waffen schlagen
KI macht »Deepfakes« zwar möglich, kann aber auch wesentlich dabei helfen, Audio- und Videomanipulationen verlässlich zu entlarven. Genau hier setzt das Fraunhofer-Institut für Angewandte und Integrierte Sicherheit AISEC an. Die IT-Sicherheitsexpert*innen der Forschungsabteilung Cognitive Security Technologies (CST) gestalten Systeme, die »Deepfakes« sicher und automatisiert als Fälschungen aufdecken. Außerdem forschen sie zu Methoden zur Stärkung der Robustheit von Systemen, die Video- und Audiomaterial auswerten.