Algorithmen grasen die ÖNB-Bestände ab – und sind dabei schon auf einige bislang unbekannte Werke in der Sammlung von Handschriften und alten Drucken gestoßen.
Foto: ÖNB

"Eine offene Barke wiegt mich über die silbernen Fluthen von Triest zu Istriens Küsten. Berge und Thäler fliegen vorüber, immer neue Ansichten steigen aus dem Schooss des Meeres, und das ahnungsvolle Blau der Ferne durchzittern weiße Segel, gleich Geistern künftiger Genüsse." Was sich anhört wie schwülstige Träume von der Ferne in Zeiten, in denen Urlaubsreisen mit Selbstisolation in den eigenen vier Wänden getauscht werden müssen, sind in Wirklichkeit die ersten Worte von Joseph Georg Wiedemanns Streifzüge an Istriens Küsten, erschienen 1810.

Das Buch ist eines von hunderten Reiseberichten, die bisher in den Beständen der Österreichischen Nationalbibliothek (ÖNB) schlummerten, ohne dass sie als solche im Katalog aufschienen. Bis ein Algorithmus, der die digitalisierten ÖNB-Bestände abgraste, befand, das Werk sei zu 99 Prozent dem Genre "Reisebericht" zuzuordnen. Was zu 100 Prozent richtig ist.

"Mit den Methoden der Digital Humanities, der digitalen Geisteswissenschaften, eröffnen sich ganz neue Möglichkeiten für die Auswertung und Analyse von großen Textmengen", sagt Martin Krickl, Data Librarian an der ÖNB. Krickl ist Teil des Teams des Projekts "Travelogues", in dem Expertise aus Geschichts-, Bibliotheks- und Computerwissenschaften zusammengeführt wird, um deutschsprachige Reiseberichte von 1500 bis 1876 semiautomatisiert und mithilfe von Machine-Learning ausfindig zu machen und zu analysieren.

Algorithmus für Stereotype

Das Projekt, das von Historikern des Instituts für die Erforschung der Habsburgermonarchie und des Balkanraumes der Akademie der Wissenschaften geleitet und vom Wissenschaftsfonds FWF sowie der Deutschen Forschungsgesellschaft (DFG) gefördert wird, läuft noch bis 2021. Es hat zum Ziel, dass eigens entwickelte Algorithmen speziell Berichte über Orientreisen abklopfen, und zwar dahingehend, wie sie die Konzepte "Fremdheit" und "Orient" darstellen.

Stich einer Karawanen-Brücke bei Smyrna aus einem 1864 erschienenen Reisebericht namens "Bilder aus dem Orient". Algorithmen sollen nun in historischen Texten nach Orient-Sprachbildern fahnden.
Foto: ÖNB / Aus: A. Löffler: "Bilder aus dem Orient"

"Wir haben im Projekt Austrian Books Online in den vergangenen Jahren in Kooperation mit Google 600.000 Bücher mit 200 Millionen Seiten digitalisiert", sagt Max Kaiser, Leiter der Abteilung Forschung und Entwicklung der ÖNB. "Wir machen diese Volltexte nicht nur online der Öffentlichkeit zugänglich, sondern stellen sie auch als Daten für Forschungsprojekte zur Verfügung." Mithilfe von computerunterstütztem "Distant Reading" können im Unterschied zum herkömmlichen "Close Reading", in dem Wissenschafter Bündel von Texten sozusagen eigenhändig lesen, Forschungsfragen auf Basis großer Datenmengen bearbeitet werden, wie Kaiser betont – wie eben zum Beispiel die Entwicklung von Orient-Stereotypen anhand von Reiseliteratur.

KI-Verfahren für alte Drucke

Mit dem Travelogues-Projekt werden historische deutschsprachige Reiseberichte nun erstmals systematisch gesammelt und nicht nur qualitativ, sondern auch mit quantifizierenden, der künstlichen Intelligenz entlehnten Verfahren analysiert. Dazu wurde zunächst die Texterkennung mithilfe von Machine-Learning-Techniken verbessert. "Gerade deutsche historische Druckschriften sind extrem heterogen", sagt Krickl. "Jede Druckwerkstatt hatte ein eigenes Typenmaterial. Auch wenn sich Buchstaben oft nur leicht unterscheiden, ein Schnörkel da und ein Strich dort ist für die automatische Texterkennung eine Herausforderung." Auch die Erkennung von unterschiedlichen Segmentierungen, also der Leerräume zwischen den Wörtern, bedurfte einigen Trainings – das vom Forschungsinstitut L3S der Universität Hannover übernommen wurde.

Das Austrian Institute of Technology (AIT) wiederum entwickelte auf Basis einer von den Historikern festgelegten Definition einen sogenannten Classifier. Das ist ein Algorithmus, der aus dem gesamten digitalisierten Bestand historische Reiseberichte eruiert. "Bereits eine verifizierte Grundmenge von 30 Werken reichte als Basis für die Erkennung", sagt Krickl. Insgesamt steht nun ein Korpus von rund 3500 Reiseberichten zum Text-Mining bereit.

Lernen von Machine Learning

Um diese Werkzeuge auf andere Genres und Sprachen umzulegen, brauche es vor allem klare Definitionen des gesuchten Themas, betonen Kaiser und Krickl. Ein Testlauf, bei dem der Algorithmus mit einer Grundmenge an Kochbüchern gefüttert wurde, zeigte, dass das System alle möglichen Bücher mit Rezepten vorschlug, seien es Apothekerrezepte oder Anleitungen, wie man Schießpulver herstellt, schildert Krickl. "Machine-Learning zeigt auch die Lücken im eigenen Denken auf, wodurch auch die Forschung ihr Selbstverständnis hinterfragen muss."

Weil sich viele Reiseberichte auf die Wahrnehmung anderer Autoren stützten, gerade was die Auffassungen über das "Fremde" in orientalischen Ländern betrifft, erarbeiten die Travelogues-Forscher Modelle für Intertextualität, um automatisiert nach Abhängigkeiten zwischen den Reiseberichten suchen zu können. "Wir experimentieren sowohl mit linguistischen Ansätzen, wie man sie aus der Plagiatssoftware kennt, als auch mit Methoden, die etwa Ortsnamen vergleichen, um Bezüge herzustellen", erklärt Krickl. "In einem weiteren Schritt müssen die Historiker das diffuse Thema der Fremdheit in metrisierbare Einheiten zerlegen und dann mithilfe von Algorithmen feinjustieren, damit letztlich verlässlich wiederkehrende Muster erkannt werden können."

Sämtliche Informationen fließen dann auch in die Datenbanken der ÖNB ein – wodurch der Katalog aufgewertet und Werke mitsamt ihren Inhalten und Bezügen zu anderen Autoren besser auffindbar werden. "Wir lernen so unseren Bestand besser kennen", sagt Max Kaiser. Die Forschungsdaten, Metadaten und Softwarecodes werden übrigens frei zugänglich gemacht für weitere Erforschungen – die geneigten Leser und Leserinnen können sich derweil anhand der historischen Berichte auf eigene Faust auf eine imaginäre Reise begeben. (Karin Krichmayr, 5.4.2020)