Lernen S’ Geschichte, Kollege KI: Computersysteme sollen Urkunden wie diese aus dem Jahr 1533 (sie dreht sich um eine Erbschaftsangelegenheit) verstehen und einordnen lernen.

Foto: Salzburger Landesarchiv

Papier ist geduldig. Und so sind geschriebene und gedruckte Dokumente seit Jahrhunderten der wesentliche Datenträger für die geschichtswissenschaftliche Arbeit. Die Digitalisierung solcher Artefakte – in der Frühzeit meist von Geistlichen und Juristen verfasst – hat es möglich gemacht, dass Forschende online in Datenbanken vom eigenen Schreibtisch aus derartige Schriftstücke einsehen können. Das ist ein großer Vorteil, vor allem für Historikerinnen und Historiker, die sich mit Epochen vor dem Buchdruck auseinandersetzen und daher meist Unikate als Quelle heranziehen müssen.

Trotz dieses Fortschritts habe sich die eigentliche wissenschaftliche Arbeit im Blick auf die Ergebnisse aber bisher nicht wesentlich geändert, verrät Georg Vogeler, Leiter des Zentrums für Informationsmodellierung der Universität Graz: "Europaweit wurde inzwischen ein wunderbarer Datenschatz geschaffen. Dennoch hat die Erforschung solcher Dokumente immer noch die Tendenz, nur für kleinräumige Untersuchungen genutzt zu werden. Dabei sollten sich mit diesem Datenschatz auch europaweite Tendenzen erforschen lassen."

Angesichts der Fülle des Materials stößt der Mensch da auch digital schnell an seine Grenzen: "Etablierte Methoden reichen nicht mehr aus, um die große Zahl der Urkunden, die seit dem 13. Jahrhundert in Europa entstanden sind, zu analysieren", sagt Vogeler. "Es braucht andere Methoden als die einfache Archivsuche."

Sein Vorschlag lautet daher: Die Wissenschaft sollte sich auch hier künstliche Intelligenz (KI) zu Hilfe holen. Wie das funktionieren kann, versucht Vogeler in seinem Projekt namens DiDip (From Digital to Distant Diplomatics) auszuloten. Für seine Forschung erhält er nun einen Advanced Grant des Europäischen Forschungsrates ERC – und somit eine der höchsten EU-Forschungsförderungen, die vergeben werden.

KI lernt Geschichte

Damit geht für Vogeler ein langgehegter Wunsch in Erfüllung: "Ich frage mich schon seit mehr als 20 Jahren, wo man in der europäischen Vergangenheit Gemeinsamkeiten und übergreifende Trends findet. Das war damals aber nicht möglich, weil man nicht genügend Dokumente schnell verarbeiten konnte und stattdessen dafür Jahrzehnte durch Europa hätte reisen müssen, auch weil die Bestände aus historischen Gründen eigenwillig verteilt sind."

Inzwischen sei die dafür notwendige Technologie aber nicht mehr bloß experimentell, weshalb sich ihr Einsatz lohnen würde. "Das maschinelle Lernen ist nun in einem Zustand, dass wir es auch dafür nutzen können, wofür es eigentlich gar nicht primär gemacht ist."

Von Vogeler und seinen Kollegen bekommt die KI nun Geschichtsunterricht beziehungsweise eine Einführung in Archivrecherche. Den Lehrstoff liefert die Datenbank Monasterium.net: Die vom International Centre for Archival Research (Icarus) betriebene Datenbank versammelt mehr als 500.000 mittelalterliche und frühneuzeitliche Urkunden aus über 60 Institutionen in zehn europäischen Ländern.

Ausgehend von diesem Material arbeiten die DiDip-Forschenden an einer Software, die durch ihren Einsatz bei der Recherche stetig intelligenter werden soll: Die User heben verschiedene Dokumente hervor, deren Verwandte sie zu finden hoffen, worauf das Programm ähnliche Schriftstücke heraussucht. Liegt das Programm daneben, wird erklärt, warum es sich irrt, beziehungsweise eruiert, warum es sich für dieses Exemplar entschieden hat.

Historische Texte lesbar machen

Dieses anfängliche Verständigungsproblem hatte Vogeler – laut eigener Aussage selbst mehr digitaler Geisteswissenschafter als klassischer Historiker – zu Beginn seiner Überlegungen für das Projekt auch mit den Informatikern, mit denen er zusammenarbeitet.

Handgeschriebene historische Texte seien nicht nur bloß für die Gegenwart lesbar zu machen, sondern enthalten viele Aspekte, die man nicht sofort sieht: "Daher kann man diese Dokumente nicht einfach nur mit klassischer Texterkennungssoftware bearbeiten. Wir müssen eine ganz spezifische Technologie entwickeln."

Jedes Dokument ist eben anders, und diese Vielfalt muss auch dem Programm begreiflich gemacht werden. Zum Beispiel hielt sich der Klerus durchaus nicht immer an die von oben vorgegebenen Formatvorgaben – so ähneln sich laut Vogeler die Schriftstücke portugiesischer Bischöfe erstaunlich wenig den Erlässen der Päpste in Rom.

Auch gab es keine europaweit einheitliche Regelung, wer befugt war, rechtskräftige Siegel auszustellen. Zudem etablierte sich in manchen Regionen der Berufsstand des Notars früher, während die Rechtsgeschäfte anderweitig weiterhin die Kirchen erledigten.

Sprachliche Differenzierung

Und dieses Dickicht wucherte zu Beginn der Frühen Neuzeit durch die sprachliche Differenzierung weiter aus: War vorher noch Latein als einheitliche Sprache der Jurisprudenz gebräuchlich, änderte sich das nun: In Österreich tauchten vermehrt Urkunden im bairischen Dialekt auf, während Notare weiter im Norden zunehmend das Niederdeutsche verwendeten. Auf der anderen Seite des Rheins wiederum wurden Rechtsdokumente immer häufiger im Altfranzösischen und Provençalischen verfasst.

Diese vielensprachlichen und strukturellen Unterschiede der einzelnen Regionen muss auch ein Computerprogramm erst einmal verstehen lernen. Warum die Europäische Union ein so großes Interesse an dem Projekt hat, dürfte daher verständlich sein.

Und wofür wird Vogeler die üppige Förderung in erster Linie ausgeben? "Um ganz viele Menschen zu beschäftigen, die sich jeweils die Frage stellen, was so ein Forschungssystem können muss. Dazu braucht es Gehirne." (Johannes Lau, 17.5.2021)