Das digitale Gedächtnis Österreichs
Die Österreichische Nationalbibliothek (ÖNB) hat bereits in den Kindertagen des Internets erste digitale Schritte gesetzt. Was 1997 mit der Digitalisierung des Karteikarten-Katalogs begann, setzte sich im Lauf der Zeit mit Zeitungen, Gesetzestexten, Büchern und Handschriften fort, die nun bereits zu einem großen Teil via Internet zugänglich und volltextlich durchsuchbar sind. Die Vision von Österreichs "Gedächtnis" geht jedoch weit über das Einscannen von Objekten hinaus.
Die 1368 als kaiserliche Hofbibliothek gegründete ÖNB am Wiener Heldenplatz birgt ein gewaltiges Sammelsurium an Wissensschätzen in ihren Archiven. Mit einem Gesamtbestand von rund 12,5 Mio. Objekten ist die ÖNB die größte Bibliothek des Landes. Laut Jahresbericht 2018 sind dort 8,6 Millionen analoge Medien, davon rund 3,94 Mio. Bücher und Periodika gelagert. Hinzu kommen noch 3,98 Mio. elektronische Medien, die aus sogenannten "Born-Digital-Medien" und Digitalisaten von analogen Beständen bestehen.
Von "KatZoom" bis "ABO"
Ab 1997 wurde damit begonnen, den Zettelkatalog, bei dem jedes Werk auf einer eigenen Karteikarte vermerkt war, mit Hilfe der eigens entwickelten Software "KatZoom" ins Internet zu überführen und nutzbar zu machen. Diesem ersten Meilenstein der Digitalisierung folgten weitere Großprojekte, wie etwa ABO, Austrian Books Online. In einer Public-Private-Partnership mit Google wurden dabei seit 2011 rund 600.000 urheberrechtsfreie Werke mit insgesamt 200 Millionen Seiten digitalisiert, die zwischen dem frühen 16. bis zur Mitte des 19. Jahrhunderts erschienen sind.
Darunter befinden sich auch jene 200.000 Bücher, die sich in dem von Kaiser Karl VI (1685-1740) gebauten Prunksaal befinden. Für Generaldirektorin Johanna Rachinger ist das ein Zeichen für Kontinuität, wie sie gegenüber APA-Science bemerkt: "Der als Kaiser der Aufklärung bekannte Karl VI sagte, der Prunksaal muss für alle zugänglich sein, nicht nur für den Adel. Wir setzen den Gedanken der Aufklärung mit der Digitalisierung unserer Bestände fort, im Sinne der Demokratisierung des Wissens."
Unter den digitalen Beständen finden sich nun so unterschiedliche Materialien wie Ansichtskarten (AKON), Zeitungen (ANNO), oder das Bildarchiv Austria. Während Massendigitalisierungsprojekte wie jenes mit Google ausgelagert wurden, werden heiklere Bestände wie Papyri, Karten oder alte Drucke vor Ort von der Abteilung für Digitale Services eingescannt. Dort stehen Spezialscanner, die von speziell ausgebildeten Mitarbeitern bedient werden.
KI erkennt Frakturschrift
Die Präzision und Effizienz der Digitalisierung hat sich mit der ständigen Weiterentwicklung der Technologien in den vergangenen Jahren spürbar gesteigert, wie Max Kaiser, Leiter der Hauptabteilung Digitale Bibliothek, im Gespräch mit APA-Science erklärt: "Die Scantechnologie hat sich wesentlich verbessert. Die Kameras sind schneller und viel genauer, man kann viel mehr ins Detail gehen." Gleichzeitig würden die modernen Geräte einen schonenderen Umgang mit den Objekten erlauben. Zudem habe sich speziell in den vergangenen fünf Jahren die automatische Texterkennung (OCR) extrem verbessert. Mittlerweile sei es möglich, sogar in Frakturschrift verfasste Texte automatisch zu erfassen. Mit dem Aufkommen von Künstlicher Intelligenz (KI) und Machine Learning habe sich die Erkennungsrate zusätzlich noch einmal verbessert, wenn auch OCR noch immer nicht ganz fehlerfrei funktioniere.
Schwieriger ist die Automatisierung im Bereich der Handschriften. Aber auch hier kommen in Zukunft verstärkt Formen der KI zum Tragen, wie Bernhard Fetz, Leiter der Steuerungsgruppe Forschung in der ÖNB, erläutert. "Texterkennungs-Software wird darauf trainiert, individuelle Handschriften zu erkennen und dann zu transkribieren - was bei der Masse der Handschriften, die bei uns in den Archiven liegen, hilfreich ist", so der Direktor des Literaturarchivs.
Für die Transkription einer unleserlichen Handschrift wie jener des österreichischen Dramatikers Arthur Schnitzler habe es bisher Experten gebraucht, die sich diese Fähigkeit zum Teil über Jahrzehnte angeeignet hätten. Neue Technologien vermögen diese mühselige Arbeit dramatisch abzukürzen. Das EU-Projekt READ (Recognition and Enrichment of Archival Documents), an dem auch die Universität Innsbruck beteiligt ist, sei in diesem Bereich schon weit fortgeschritten. "Das wird natürlich auch die Editionen revolutionieren, weil jetzt ein sehr großer Anteil der Arbeit auf das Entziffern von Handschriften entfällt", sagte Fetz.
Automatisierte Methoden können sich besonders dabei als hilfreich erweisen, in bestehenden Texten spezielle Muster zu erkennen und ihnen neue, bisher unerkannte Informationen zu entlocken. In dem gemeinsam mit der Österreichischen Akademie der Wissenschaften (ÖAW), dem Austrian Institute of Technology (AIT) und dem Institut L3S (Hannover) betriebenen Projekt "Travelogues" werden von 1500 bis 1876 erschienene Reiseberichte computergestützt analysiert. Aus den Volltexten des rund 3.000 deutschsprachige Reiseberichte umfassenden Korpus wurden Modelle für Machine Learning generiert. "Dann wurde der gesamte deutschsprachige digitalisierte Korpus, den wir haben, das sind rund 150.000 Bücher, durch dieses trainierte Modell gejagt. So haben wir mehr als 300 zusätzliche Reiseberichte gefunden, rein aufgrund der Textsignale in den Volltexten", erklärte Kaiser.
Hauptarbeit intellektueller Art
Für die Digitalisierungsexperten der Nationalbibliothek ergeben sich in Zukunft viele Herausforderungen, die von der Standardisierung der gewonnenen Daten bis hin zur Langzeitarchivierung reichen. Über allen technischen Fragen gelte es eine wichtige Tatsache nicht zu vergessen, betont Fetz: "Die Hauptarbeit bleibt die intellektuelle Arbeit der Kommentierung und der Aufbereitung der Information in Registern."
Mit der Digitalisierung ändere sich auch die Rolle von Bibliothekaren massiv, unterstreicht der Experte. Während man früher einfach Kataloge erstellt habe, würden Verantwortliche in Gedächtnisinstitutionen - Museen, Bibliotheken, Universitäten - immer mehr in die Rolle von Kuratoren kommen, die Inhalte aufbereiten oder bestimmte Samples zusammenstellen. "Das ist eine sehr verantwortungsvolle aber auch notwendige Aufgabe. Da geht es auch um große Themen wie Demokratisierung oder Überwachung", so Fetz. Die Kunst bestehe darin, die Fülle an Daten anzubieten, ohne zu werten, und damit eine Orientierungshilfe zu bieten.
Mehrwert als Vision
"Digitalisierung alleine ist zu wenig, es geht darum, einen Mehrwert aus diesen Daten zu schaffen", betonte auch ÖNB-Generaldirektorin Johanna Rachinger im Gespräch mit APA-Science. Das sei ein wesentliches Thema des aktuellen Strategieplans und der 2012 erstellten "Vision 2025". Mittlerweile werde bereits an der "Vision 2030" gearbeitet, von der ein erster Bericht ungefähr mit Jahresbeginn 2021 vorliegen soll.
"Künstliche Intelligenz wird viele Bereiche unserer Bibliothek betreffen, von der Beschlagwortung bis zur Katalogisierung", lässt Rachinger ein wenig in die Zukunft blicken. "Das heißt aber nicht, dass wir dann Mitarbeiter abbauen, wir werden sie in anderen Bereichen brauchen."
Von Mario Wasserfaller / APA-Science