Stellen Sie sich vor, Sie sitzen zu Hause auf dem Sofa und machen eine Online-Überweisung. Während Sie auf Ihrem Smartphone oder Tablet nichtsahnend die Zugangsdaten zu Ihrem Online-Konto eingeben, zeichnet das Mikrofon in Ihrem Smartphone die Tippgeräusche auf. Am nächsten Tag ist das Konto leergeräumt. Was nach einem schlechten Film klingt, könnte schon bald Realität werden. Computerwissenschafter der University of Cambridge zeigen in einer aktuellen Studie, wie sich mithilfe von Spracherkennungssystemen Smartphonegeräusche entschlüsseln lassen.

Passwörter können theoretisch über Smart Speaker wie Alexa oder Spracherkennungssoftware wie Siri gefischt werden.
Foto: Getty Images

Die Informatiker wollten in ihrem Experiment ein Szenario simulieren, wo ein Smart Speaker das Tippen auf einem mobilen Endgerät aufzeichnet. Weil weder Google noch Amazon Dritten Zugang zu Audio-Rohdaten ihrer Netzwerklautsprecher Home bzw. Echo gewähren, nutzten die Wissenschafter einen Respeaker als Hardware, um Umgebungsgeräusche aufzuzeichnen. Das runde Gerät kommt mit seinen sechs Mikrofonen dem Amazon Echo recht nahe. Die Probanden sollten in dem Versuch einen fünf-stelligen Code oder ein Wort aus dem englischen Wörterbuch auf drei verschiedenen Geräten abtippen: auf zwei Smartphones (Nokia 5.1, Huawei Mate 20 Pro) sowie einem Tablet (Nexus 9).

Um eine reale Geräuschkulisse zu simulieren, wurden die Tippgeräusche in einem Raum aufgezeichnet, in dem Leute ein- und ausgingen und sich im Hintergrund leise unterhielten. Zudem wurde in der Nähe der Mikrofone ein Podcast abgespielt, um einen zusätzlichen Klangteppich zu schaffen. Trotz des Grundrauschens konnten die Forscher das Tippen erkennen – anhand von winzigen Ausschlägen in einem Frequenzbereich von 1.000 bis 5.500 Hertz.

Erzeugte Vibrationen

Wenn jemand auf einem Display tippt, erzeugt das Vibrationen, kleine Schallwellen, die man messen kann. Radioschaffende kennen das aus schallisolierten Hörfunkstudios, wo die hochsensiblen Mikrofone sogar ein leises Klopfen auf dem Tisch erkennen. Doch woher wussten die Forscher, welche Zeichen die Probanden in ihre Geräte eingaben?

Computerwissenschafter der Universität Berkeley haben bereits 2005 einen Algorithmus entwickelt, der aus Tonaufnahmen von Tastaturanschlägen die einzelnen Buchstaben und somit Teile des Texts ableiten konnte. Mithilfe der statistischen Lerntheorie konnten die Geräusche von jedem Anschlag kategorisiert und eine Wahrscheinlichkeit für die Zeichen errechnet werden. Bei Buchstaben lag sie bei 60 Prozent, bei Wörtern bei 20 Prozent.

Der Hintergrund: Jeder Anschlag hat einen eigenen Sound. Der Anschlagrhythmus, also Schreibgeschwindigkeit, Tastendruck und Pausenverhalten, sind ein biometrisches Merkmal, das uns von anderen Menschen unterscheidet. Bloß, das Geräusch, das entsteht, wenn man in die Tasten greift, ist noch einmal etwas ganz anderes, als wenn man auf die Buchstaben einer virtuellen Tastatur einer Glasscheibe hämmert.

Schwierige Schlussfolgerung

Es gibt da keine Mechanik oder Druckknöpfe, die man unterschiedlich betätigen könnte. Daher ist es viel schwieriger, von virtuellen Tastaturanschlägen auf die Zeichen zu schließen. Zumal die Signalstärke von einer Reihe von Faktoren abhängt, etwa ob man das Gerät in einer Hand oder in beiden Händen hält und einhändig oder mit beiden Daumen schreibt.

Mithilfe einer Audiosignalverarbeitungstechnik konnten die Cambridge-Forscher den Druckbereich bzw. die Schallquelle auf dem Display exakt lokalisieren. Je nachdem, ob der Nutzer oben, in der Mitte oder unten auf das Display drückt, ist die Schallwelle länger oder kürzer unterwegs. Das sind nur Zentimeter, zuweilen auch nur Millimeter, doch mit entsprechenden Messinstrumenten lassen sich diese Unterschiede feststellen. Und aus diesen unterschiedlichen Distanzen lässt sich eine Wahrscheinlichkeit ableiten, ob der Nutzer bei der PIN-Abfrage auf die Eins links oben im Zahlenfeld oder auf die Neun rechts unten gedrückt hat.

Einfache Problemstellung

"Das Problem, das wir lösen, ist überhaupt nicht schwierig", erklärt Studienleiter Ilia Shumailov auf Anfrage. "Man muss herausfinden, wann der Tastendruck stattfindet, wo die relative Position der Taste ist und wie die Ausrichtung des Smartphones ist." Moderne Sprachassistenten verfügen über zwei bis sieben Richtstrahlmikrofone, was bedeute, dass man wie bei der Triangulation aus jedem Winkel sehr präzise Positionsdaten bekommen könne. Mit den Daten trainierten die Informatiker schließlich einen Machine-Learning-Algorithmus, der eine Wahrscheinlichkeit von Zahlen und Buchstaben errechnete.

Bei den in den Porträtmodus geschalteten, in einer Hand gehaltenen Smartphones konnten die Informatiker einen fünfstelligen Code mit einer Wahrscheinlichkeit von bis zu 40 Prozent beim ersten Versuch entziffern. Beim Tablet, wo die Abstände zwischen den Zeichen und damit auch die Schalldistanz größer ist, war die Genauigkeit höher. Damit haben die Forscher bewiesen, dass man nicht nur physische, sondern auch virtuelle Tastaturen ausspionieren kann.

Die Studienergebnisse haben Auswirkungen auf die Praxis. Cyberkriminelle könnten, warnen die Forscher, mithilfe von Netzwerklautsprechern PINs oder Passwörter abgreifen, die jemand in der Nähe in sein mobiles Endgerät tippt. Der Angriff wäre zwar sehr schwierig durchzuführen, aber nicht unmöglich. Phishing-Attacken sind derzeit die häufigste Methode, um Passwörter zu erschwindeln. Dabei werden User häufig per Mail aufgefordert, sensible Daten preiszugeben. (Adrian Lobe, 11.1.2021)