Businessmeetings, Telemedizin, Fernunterricht – seit Ausbruch der Corona-Pandemie sind Videokonferenzen fester Bestandteil des Alltags. Statt stundenlang in Zügen oder Flugzeugen sitzt man am Schreib- oder Küchentisch, um sich mit Kollegen zu besprechen. Dass Videodienste wie Zoom und Skype einmal die größte Konkurrenz für Airlines sein würden, hätte kaum ein Analyst zu prognostizieren gewagt.

Doch so komfortabel es auf den ersten Blick erscheinen mag, Meetings aus dem Wohnzimmer zu absolvieren, so anstrengend und zermürbend können Videokonferenzen auf Dauer sein: Man starrt stundenlang auf den Bildschirm und steht gleichzeitig ständig unter Beobachtung – wie auf einer Bühne. Selbst wenn die Kamera deaktiviert und das Mikrofon stummgeschaltet ist, kann der Chef einen jederzeit hinzuschalten. Der Teilnehmer muss dann "performen". Die "Zoom-Fatigue", also das Ermüdungs- und Erschöpfungssyndrom durch Videocalls, gilt längst als Nebenwirkung der Corona-Pandemie.

Virtueller Spiegel

Einen zentralen Grund, weshalb Videokonferenzen als anstrengend empfunden werden, sehen Psychologen darin, dass sich die Konferenzteilnehmer in den Mini-Fenstern selbst sehen – wie in einem Spiegel. Man schaut ständig, ob die Frisur noch sitzt, das Make-up noch dran ist oder der Hemdkragen akkurat steht, schließlich will man sich von seiner besten Seite zeigen. Das erzeugt zusätzlichen Stress und Druck durch Ablenkung.

Wissenschafter der University of Saskatchewan in Kanada haben bereits 2017 in einem Videochat-Experiment herausgefunden, dass die Bildschirmpräsenz in Verbindung mit visuellem Feedback die Selbstwahrnehmung erhöht. Das heißt: Je mehr man selbst im sozialen Fokus steht, desto größer ist die Erwartung, von den anderen wahrgenommen zu werden.

Forscher sprechen in diesem Zusammenhang vom "looking glass effect", auch "Spiegel-Effekt" genannt. Die gesteigerte Selbstwahrnehmung geht inzwischen so weit, dass die Nachfrage nach Beautyprodukte und Schönheitsoperationen in die Höhe geschossen ist. Je mehr man sich den ganzen Tag im virtuellen Spiegel sieht, desto schneller wächst offenbar die Unzufriedenheit mit Mund-, Nase- oder Augenpartie.

Der amerikanische Technikethiker L. M. Sacasas hat noch eine weitere Ursache für die Zoom-Fatigue identifiziert: die fehlende Körperlichkeit. In einer Face-to-Face-Konversation suche man nach dem "optimalen Grip" im Kommunikationsprozess. Man versucht, ein Gespür für die Situation zu entwickeln. Ist der Gesprächsteilnehmer müde, gelangweilt oder gereizt? Dann spart man sich vielleicht eine weitere Bemerkung. In einer Videokonferenz, wo man über Bildschirme wie durch eine dicke Glasscheibe vom anderen getrennt ist, lassen sich diese nonverbalen Signale viel schlechter entschlüsseln. Man sieht ja in den kleinen Kacheln eines Videocalls nicht, ob der Kollege gerade müde oder nervös ist.

Mittlerweile bietet eine Reihe von Start-ups spezielle Software an, die mithilfe von KI-Systemen Gesichtsausdrücke und Emotionen in Videokonferenzen erkennen soll.
Foto: EPA

Fehlender Blickkontakt

Das zentrale Problem: Man kann dem anderen nicht in die Augen schauen. Denn wenn man in die – meist über dem Bildschirm installierte – Kamera blickt, sieht man nicht die Augen des Konferenzteilnehmers. Wenn man dagegen dem Gesprächspartner auf dem Bildschirm in die Augen sieht, schaut man selbst nicht in die Kamera, um seine Augen zu zeigen. Ein Dilemma.

Um dieses Problem zu lösen, hat Apple vor zwei Jahren für seine Videochat-Software Facetime eine Funktion eingeführt, die mithilfe einer Software die Position der Augen auf dem Bildschirm korrigiert. Mithilfe eines Gesichtserkennungsalgorithmus wird das Bild quasi manipuliert und der Augenkontakt simuliert.

Mittlerweile bietet eine Reihe von Start-ups spezielle Software an, die mithilfe von KI-Systemen Gesichtsausdrücke und Emotionen in Videokonferenzen erkennen soll. Rümpft ein Teilnehmer die Nase? Hebt er die Augenbrauen? Schließt er die Augen oder gähnt er?

Der Computer hat alle und alles auf dem Schirm. Ein Tool der Firma Headroom erstellt automatisch ein Transkript der Konferenz und übersetzt Gesten mithilfe von Computervision in digitale Icons. Wenn zum Beispiel jemand in die Kamera winkt, wird dem transkribierten Text ein Wink-Symbol hinzugefügt. So spart man sich nicht nur die Anfertigung von Sitzungsprotokollen, sondern kann auch noch ein Stimmungsbild erzeugen. Wie begeistert waren die Teilnehmer? Reagierten sie auf einen Vorschlag aus der Runde irritiert?

Grenzen der Technologie

Schon seit einiger Zeit setzen Konzerne bei Jobinterviews KI-gestützte Emotionsmesstechnologie ein, die Gestik, Mimik und Tonalität des Bewerbers analysiert. Der Algorithmus soll bestimmte Mikroexpressionen aus dem Gesicht herauslesen, die dem Personaler verborgen bleiben. Das klingt gut, bloß arbeiten diese Technologien noch recht schablonenhaft. Vor allem hat KI nach wie vor Probleme, geöffnete Augen von asiatischen Gesichtern zu erkennen. Und nur, weil jemand die Augen geschlossen hat, muss das nicht heißen, dass er unaufmerksam ist.

Wenn jede Regung, jedes Räuspern, jeder Wortbeitrag in Ton und Bild aufgezeichnet werden, agieren Menschen kontrollierter und womöglich uninspirierter. Unbemerkt ein Nickerchen zu machen ist in Videokonferenzen deutlich schwieriger. Abgesehen von manchen Pannen. Es sei denn, man schaltet die Kamera einfach aus. (Adrian Lobe, 2.2.2021)