Automatische Textanalyse soll künftig Online-Hassrede bannen.

Foto: Thomas Trutschel/photothek.net

Manchmal eskaliert es schnell. Hassrede ist zum strukturellen Problem der Online-Kommunikation geworden und reicht vom deftigen Ausrutscher beim Artikulieren einer Meinung bis zu orchestrierten Kampagnen von Extremisten hinter Fake-Identitäten. Selbst wenn der Wille zum Kuratieren eines großen Facebook-Auftritts vorhanden ist, müssen erst einmal die Ressourcen aufgebracht werden, stundenlang nach Hass-Spam zu suchen. Wie wäre es also mit einer technischen Lösung? Warum kann man keinen Hate-Speech-Filter installieren?

Während eine einfache Stichwortsuche dem Problem kaum gerecht werden kann, sind semantische Suchen mit besserem Textverständnis aufwendig zu implementieren. Ein neuer Ansatz kommt nun von den Wiener Textanalyse-Spezialisten Cortical.io. Bisher kümmerten sich der Start-up-Gründer Francisco Webber und seine Kollegen vor allem um Systeme für die Analyse großer Bestände an Verträgen oder Rechtstexten in Konzernen, bei Finanzdienstleistern oder Unternehmensberatern. Nun ist man dabei, auch eigene, sehr spezialisierte Hardware für die schnelle Untersuchung von Textlandschaften zu entwickeln – eigene Server, die in die Firmennetzwerke integriert werden können. IT-Verantwortliche in Unternehmen sollen ihre Anwendungsfälle damit weitgehend selbst konfigurieren können.

Textverständnis für Computer

"Wir suchen nach Massenanwendungen; etwas, das auf breiter Basis gebraucht wird", sagt Webber. Für kommendes Jahr ist zuerst eine Anwendung geplant, die in Unternehmen einlangende E-Mails nach bestimmten Kriterien filtert. Eine andere konzentriert sich auf Social-Media-Auftritte und die Suche nach Hasspostings. "Konzerne, die über viele Marken und ebenso viele Social-Media-Auftritte, noch dazu in verschiedenen Sprachen, verfügen, sollen mit dem System Hasskommentare schnell entfernen können", sagt Webber.

Grundsätzlich geht das Start-up in Sachen Artificial Intelligence ganz eigene Wege abseits der konventionellen, sehr rechenintensiven Machine-Learning-Methoden. Konventionelle Versuche, Computern Textverständnis beizubringen, würden große "kombinatorische Räume" aufmachen, in denen statistische Modelle auf Basis von Wortpositionen und -häufigkeiten durchgerechnet werden, um Wahrscheinlichkeiten abzuleiten, erläutert Webber.

Digitaler Fingerabdruck

Was Cortical.io macht, sei im Vergleich dazu "Mengenlehre": Im Prinzip werden Texte dabei in der Summe der Kontexte, die darin vorkommen, dargestellt. Auf Basis einschlägiger Quellen wie Lehrbüchern werden Wörtern Kontexte zugeordnet. Bei der Analyse eines Textes werden die Kontexte dann in Form eines digitalen Fingerabdrucks abgebildet. Legt man beim Trainieren des Systems mehrere dieser Fingerabdrücke – beispielsweise von Hasskommentaren – übereinander, ergeben sich Überlagerungen von Positionen. Tauchen diese Positionen auch in den zu untersuchenden Texten auf, schlägt der Filter an. Für Webber entspricht dieser Ansatz auch der Arbeitsweise des Gehirns, wo einlangende Signale ebenfalls ständig mit abgespeicherten abgeglichen werden.

Der Rechenaufwand bei dieser Methode besteht darin, die Kontextlandkarten neuer Texte – man kann sie sich als Feld von 128 mal 128 Positionen vorstellen – immer wieder mit den auf ein Problem trainierten Matrizen zu vergleichen. Für diese Operationen möchte das Start-up nun maßgeschneiderte Chips herstellen und ist dafür eine Partnerschaft mit Xilinx im Silicon Valley eingegangen. Der kalifornische Hersteller ist auf sogenannte FPGAs (Field Programmable Gate Arrays) spezialisiert – Chips, deren Hardware-Schaltungen konfigurierbar sind. Für Webber ist eine solche Architektur umsetzbar, die sich grundlegend vom heute üblichen Prinzip unterscheidet: "Seit den Anfängen der Computertechnik in den 1940er-Jahren werden Daten aus einem Speicher geladen und zu einem Prozessor zur Verarbeitung geschickt, bevor sie erneut in einem Speicher abgelegt werden. Unser Ansatz ermöglicht dagegen, dass wir die Berechnungen durchführen können, ohne dass wir die Speicherinhalte bewegen müssen."

Suche nach Hass

Die Kontextlandkarten der Texte sind im Grunde Binärzahlen, die also aus Nullen und Einsen bestehen. Diese Zahlen werden auf diesen Chips gleichzeitig zur Adresse des Speichers. Die Schaltung ist zudem darauf ausgelegt, eine einzige Rechenoperation zu erledigen – das Vergleichen dieser Zahlen. Angebunden an ein konventionelles Computersystem sollen die Chips den Kern der neuen Hardware geben. Bald könnten also diese "künstlichen Gehirne" auf die Suche nach Hassrede in diversen Social-Media-Kanälen gehen. (pum, 20.10.2019)