Von Angesicht zu Angesicht

Von Marco Wehr 

Ist das „nächste große Ding“ nicht eine weitere revolutionäre technische Entwicklung sondern ein tiefsinniges Gespräch unter Freunden — bei gutem Essen und mit einem Glas schweren Rotweins in der Hand? Erfährt das wirkliche Leben eine Renaissance, weil die gepriesene Virtualität immer mehr zu einem betrügerischen Vexierspiel verkommt? Dafür gibt es gute Gründe.

Nach einer euphorischen Gründerphase, in der vor allen Dingen Transparenz und der freie Austausch von Daten im Zentrum der Aufmerksamkeit standen, wurde schnell klar, dass es eine dunkle Seite der Medaille gibt. Mittlerweile sind Lug und Trug im Internet so verbreitet, dass man nicht weiß, wo man beginnen soll: Beim Cybergrooming? Dem schlüpfrigen Heranpirschen pädophiler Männer, die sich mit Fake-Accounts und falschen Bildern auf Foren herumtreiben, in denen sich junge Mädchen ihre Reiterlebnisse erzählen. Oder bei Hackern, die es auf die Sabotage von Kraftwerken oder Krankenhäusern absehen? Die Liste ließe sich beliebig verlängern.

Trotzdem haben wir uns bis dato nicht aus den digitalen Informationsparadiesen vertreiben lassen. Jetzt tauchen allerdings dunkle Wolken auf: Es wird schon in naher Zukunft für den normalen Internetnutzer nicht mehr möglich sein, Filme, in denen Menschen zu sehen sind, die einem aufs engste vertraut sind, von raffinierten Fälschungen unterscheiden zu können, selbst wenn die Vertrauten mit ihrer eigenen Stimme sprechen. Damit transformiert sich der digitale Raum zum potentialen Lügenland, zumindest für das Gros der Nutzer, das nicht über hoch entwickelte Analyseverfahren verfügt, mit denen sich der Schwindel offenlegen ließe.

Seine Begründung findet dieser Umstand in einer wenig beachteten Besonderheit: Das Internet spricht nicht die Gesamtheit unserer Sinne an sondern bevorzugt Augen und Ohren. Man kann sich eigentlich jeden Computerbenutzer als ein riesiges Auge vorstellen, an dem zwei große Ohren kleben. Dieser degenerierte sensorische Homunculus besitzt weder eine Nase noch einen Mund, er hat keine Haut und auch keine komplexe Innenwahrnehmung. Die Ursache dieser Degeneration ist die Tatsache, dass sich gerade Bilder und Töne besonders gut digitalisieren lassen. Für andere Sinnesqualitäten ist das nur in eingeschränktem Maße oder gar nicht möglich.

Seit den Pionierarbeiten von Ivan Sutherland in den 70er Jahren des vorigen Jahrhunderts wird zwar viel vom sogenannten ultimate display gesprochen — das wäre die ersehnte omnipotente Computer-Mensch-Schnittstelle, die in der Lage wäre, die gesammelte Sinnesfülle unserer Alltagserfahrungen zu reproduzieren — aber bis dato müssen wir auf ehrliche Berührungen, prägende Geschmacks- oder Geruchserlebnisse als Computerbenutzer verzichten. Über vibrierende Joysticks mit variablem Widerstand und ein paar andere Gimmicks ist man bis dato nicht hinausgekommen.

Augen und Ohren lassen sich jedoch exzellent durch hochauflösende Kameras und empfindliche Mikrophone ersetzen. Lautsprecher und Bildschirme wiederum verwandeln den Input in einen natürlich erscheinenden Output.

Doch damit wächst auch die Möglichkeit des Missbrauchs. Als Fotos noch aufwendig in der Dunkelkammer entwickelt wurden, war viel handwerkliche Finesse notwendig, um ein Bild glaubwürdig zu manipulieren, auch wenn etwa Hitlers Leibfotograf Heinrich Hoffmann beim Retuschieren schon beachtliches Geschick besaß. Das gleiche galt für die in dieser Zeit gemachten Filme. Aus diesem Grund konnte man als Betrachter lange wenigstens einigermaßen sicher sein, dass das, was auf dem Bild zu sehen war, auch „in Wirklichkeit“ so war. Doch schon 1994 konstatierte der Medienwissenschaftler William J. Mitchell, dass die Sicherheit, ein Foto dokumentiere die Wirklichkeit, unwiederbringlich vorbei war. Schon mit damaliger noch rudimentärer digitaler Technik gelang es, Fotos, auf denen Politiker zu sehen waren, so zu arrangieren, dass der Kontext der Beziehung zwischen den Personen verändert wurde. Aber das war nichts im Vergleich zu gegenwärtigen Möglichkeiten. Im optisch-akustischen Bereich gibt es eigentlich nichts mehr, was sich nicht überzeugend fälschen ließe.

Beginnen wir mit der Stimme. Ihr individueller Klang macht jeden Menschen unverwechselbar. Bis vor kurzem jedenfalls. Heute reichen 20 Minuten Sprachmaterial, das viele Menschen nichtsahnend im Netz verfügbar machen, damit ein Computer in der Lage ist, eine Stimme recht echt zu imitieren! Mit Hilfe eines Programms wie VoCo von Adobe, wird jeder Satz, den man mit Tastatur eingibt, mit der Stimme wiedergegeben, die gesampelt wurde. Damit kann man jemanden Dinge sagen lassen, die er nie sagen würde. Das ist bedrohlich. Was passiert, wenn sich Pädophile die Imitationsfähigkeiten des Computers zunutze machen und vermeintlich mit der Stimme der Eltern auf die Mailbox der Kinder sprechen?

„Nicole, hier ist Mama. Komme bitte nach dem Reiten um 18 Uhr zu dem Parkplatz am Waldrand! Wir holen Dich ab!“ Auf dem Parkplatz warten aber nicht die Eltern sondern der Verfasser der trügerischen Botschaft.

Damit sind die Möglichkeiten des Betrugs nicht ausgeschöpft. Es ist Stand der Technik, auf der Grundlage von Filmaufnahmen genauestens zu analysieren, in welcher Weise bestimmte Menschen beim Sprechen ihren Mund bewegen und mit welcher Mimik sie das tun. Damit kann man eine Zielperson in einer computergenerierten Filmaufnahme jeden denkbaren Satz artikulieren lassen: mit ihrer persönlichen Stimme und ihrer eigenen Mimik! Die Systeme werden in wenigen Jahren perfekt sein.

Bedenkt man, dass sich schon Amateure einen Spaß daraus machen, in Fake-Pornos die Köpfe von Prominenten auf einen anderen Körper zu „pflanzen“, dann ist klar, dass neben dem Foto auch der Film als Dokument tatsächlich Geschehenens ausgedient hat.

Doch das Internet wird noch aus anderen Gründen ein ungemütlicher Raum. Betrachten wir eine alltägliche Gesprächssituation! Der Inhalt der Worte ist nur ein kleiner Teil der Information, der zwischen den Sprechenden ausgetauscht wird. Viele andere Dinge schwingen mit: die Körperhaltung, der räumliche Abstand, das Minenspiel, Stimmlage und Betonung. Obwohl wir diese Informationen meist unbewusst wahrnehmen, sind sie essentiell, um das Gesagte richtig zu bewerten.

Interessanterweise lassen sich Deep Learning-Algorithmen so trainieren, dass sie in solchen Kontexten genauer hinschauen können als Menschen und ihnen deshalb im feingewebten Spiel der Emotionen nichts entgeht. Natürlich verstehen die Computer die Gefühle nicht. Sie lesen aber deren Zeichen! Und das reicht den Menschen, die die Maschinen in ihrem Sinne ge- oder missbrauchen. Sie können mittels sublimer Informationen auf die seelische Verfasstheit der observierten Menschen schließen. So lässt sich etwa das Minenspiel minutiös analysieren. Und Körpersprache und Gangbild zeigen, ob sich jemand in irgendeiner Weise auffällig macht. Auch die Stimme gibt Geheimnisse preis. Sie verrät dem Computer zum Beispiel, ob der Observierte depressiv ist oder Gefahr läuft, an Parkinson zu erkranken. Als wenn das nicht genug wäre, gibt es bereits Algorithmen, die Probanden umfassend charakterisieren und säuberlich in Schubladen einordnen. Die deutsche Firma Precire will die gesamte Persönlichkeit auf der Grundlage von Sprachdaten entschlüsseln. Sie ordnet Probanden in Kategorien ein wie „selbstorganisiert“, „ausgeglichen“ oder „autonomiebedürftig“ und verteilt Punkte.

Es gibt bereits Unternehmen wie die Fraport AG, die die Software verwenden, um Bewerber zu bewerten. Man kann sich auszumalen, dass in Zukunft auch Headhunter Sprachdaten im Internet bei der Suche nach geeigneten Persönlichkeiten durchforsten. Wann werden Krankenversicherungen solche Mittel für ihre Zwecke nutzen? Und will man solche Analyseverfahren in den Händen der Geheimdienste? Gemäß der Informatikerin Julia Hirschberg von der Columbia StateUniversity ist die Bewertung der Persönlichkeit auf der Basis von Sprachdaten seriöse Wissenschaft. Sie selbst hat ein Programm entwickelt, das Lügner besser enttarnt als jede andere Methode. Was passiert, wenn ein solches Werkzeug im Sultanat Brunei in Verhören zur Anwendung kommt, um etwa die sexuelle Präferenz zu erfragen? Dort wurde damit gedroht, Homosexualität mit dem Tode zu bestrafen.

Unterm Strich sind dystopische Szenarien denkbar. Einen Vorgeschmack gab es 2016, als in Russland die App Find Face auf den Markt kam. Ein Foto eines Menschen lässt sich mit dieser App einem Profilbild in den Sozialen Medien zuordnen. Bis vor kurzem war die App auf das russische Facebook-Pendant VK.com beschränkt. Das wird wohl nicht so bleiben. Für einen Stalker ist dieses Tool eine Wunderwaffe: Eine unbekannte hübsche Frau auf der Straße erblickt, schnell ein heimliches Bild gemacht und schon lässt sich ermitteln, wer sie ist, wenn sie mit Originalbild in den sozialen Medien aktiv ist. Aber es dauerte nicht lange, bis Find Face in einem anderen Kontext zu Anwendung kam. Man enttarnte Pornodarstellerinnen, um sie dann zu erpressen. Doch damit sind mögliche Szenarien nur angerissen:

Ein Krimineller fotografiert zum Beispiel einen unbescholtenen Bürger, der aus Interesse das politische Programm einer radikal rechten oder linken Partei an einem Wahlstand durchblättert. Durch Abgleich mit Bildern im Internet ermittelt er dessen Identität. Da es auch Sprach- und Filmmaterial von ihm gibt, erstellte er ein Video mit Originalstimme und persönlicher Mimik, in dem der Fotografierte üble menschenverachtende Parolen von sich gibt. Im nächsten Schritt prüft er, ob sein Opfer ängstlich ist und sich wahrscheinlich erpressen lässt. Wenn dem so ist, stellt er ihm Foto und Video zu, verbunden mit der Aufforderung 50. 000 Euro auf ein anonymes Bitcoinkonto zu überweisen. Ansonsten droht er, das Machwerk viral zu verbreiten — mit unabsehbaren Folgen für den persönlichen Ruf des Adressaten.

Vor diesem Hintergrund sollte uns die Einschätzung von Artem Kukharenko, dem Chef-Entwickler von Find Face, in den Ohren klingen. In einem Interview mit „jetzt.de“ sagt er, dass durch Software wie Find Face unsere Privatsphäre in großem Maße zerstört wird.

Wer diese zumindest in Maßen erhalten will, muss sich deshalb genau überlegen, was er von sich selbst und seinen Nächsten ins Netz stellt. Vermutlich wäre es noch besser, konsequent zu handeln: Um Manipulationen auszuschließen, trifft man sich mit vertrauten Menschen aus Fleisch und Blut und sorgt dafür, dass Handys und Computer ausbleiben. In diesem Sinne war der kürzlich verstorbene Karl Lagerfeld, der sowohl Handy als auch Uhr ablehnte, nicht ein aus der Zeit gefallener Hinterwäldler sondern eher ein Visionär, der seiner Zeit voraus war.


Dieser Beitrag ist am 26. Juli 2019 in gekürzter Fassung zuerst in der Neuen Zürcher Zeitung erschienen. 

Marco Wehr ist Physiker und promovierter Philosoph. Er leitet in Tübingen das Philosophische Labor.