Forschungsinfrastruktur: Leuchttürme, aber noch viel Luft nach oben
Von einer viele Millionen Euro schweren nationalen Forschungsdateninitiative wie in Deutschland können heimische Forscher nur träumen. Daher sind die Aktivitäten in diesem Bereich hierzulande eher kleinteilig und unsystematisch. Nichtsdestotrotz haben es einige Digital Humanities-Projekte geschafft, international wahrgenommen zu werden.
Ein Grund für den schleppenden Auf- und Ausbau der Infrastrukturen dürfte darin liegen, dass die Zusammenarbeit zwischen universitären und außeruniversitären Forschungsinstitutionen mit Gedächtniseinrichtungen wie Archiven, Bibliotheken und Museen zu wünschen übrig lässt. Hier fordern Branchenkenner mehr finanzielle Mittel beziehungsweise ein systematisches Infrastrukturprogramm. Bis dahin sollten die Akteure versuchen, Synergien zu nutzen und verstärkt auf Kooperation und Komplementarität zu setzen, empfiehlt Katja Mayer vom Zentrum für Soziale Innovation (ZSI), die im Auftrag des Bildungsministeriums eine Studie zu den Digital Humanities in Österreich erstellt hat (siehe "Digitale Geisteswissenschaften mit enormen Potenzialen").
Bei den internationalen Infrastrukturen stechen CLARIN (Common Language Resources and Technology Infrastructure) und DARIAH (Digital Research Infrastructure for the Arts and Humanities) hervor. Ziel dieser europäischen Großprojekte ist es, Standort-übergreifende Strukturen für das Management von Forschungsdaten zu schaffen. Voraussetzung für die Teilhabe als Partner sind eigene technische Infrastrukturen. "CLARIN ist stark auf Sprachressourcen, Standards und Tools ausgerichtet, DARIAH auf Digital Arts and Humanities und hat auch eine starke Vermittlungskomponente für die Lehre", erklärt Claudia Resch vom Austrian Centre for Digital Humanities and Cultural Heritage (ACDH-CH) der Österreichischen Akademie der Wissenschaften (ÖAW).
"Aber bei beiden geht es um den Aufbau von Infrastrukturen, deshalb wachsen sie in vielen Ländern zusammen", ergänzt Johannes Stigler vom Austrian Centre for Digital Humanities an der Universität Graz. In Österreich ist das aufgrund der knappen finanziellen Ressourcen in Form von CLARIAH-AT schon passiert. Hier hat sich eine nationale Community gebildet, die in beiden Projekten tätig ist. Laut Stigler wird auch auf europäischer Ebene schon jetzt gemeinsam an einer Authentifizierungsinfrastruktur gearbeitet, mit der man Forschergruppen in bestimmten Kontexten Zugriffsrechte auf digitale Ressourcen geben kann.
Inhalte für Maschinen lesbar
Abseits davon geht es um die Etablierung gemeinsamer Datenstandards, so Stigler. In den Digital Humanities setzt man sich im Rahmen der Text Encoding Initiative (TEI) schon seit langem mit der Frage auseinander, wie geisteswissenschaftliche Textdaten auf eine standardisierte Art und Weise – unabhängig von proprietären Firmenformaten – präsentiert werden können. Dadurch soll der Inhalt dieser Texte nicht nur für den Menschen, sondern auch für Maschinen lesbar sein. Beispielsweise werden in solchen Datenformaten grammatikalische Strukturen kodiert, so dass ein Algorithmus in der Lage ist, in einem größeren Textbestand etwa nach bestimmten Satzstrukturen zu suchen.
Unter den österreichischen Infrastrukturen, darunter viele Repositorien, also Dokumentenserver, auf denen Forschungsmaterialien zugänglich gemacht und archiviert werden, gibt es mehrere "Leuchttürme". Für geisteswissenschaftliche Daten besonders geeignet erachtet Mayer in Österreich vor allem ARCHE (ÖAW), GAMS (Uni Graz) und das Repositorium der Österreichischen Nationalbibliothek (ÖNB). "Die beiden erstgenannten sind die einzigen digitalen Repositorien in Österreich, die nach internationalen Kriterien als vertrauenswürdig zertifiziert sind", erläutert Stigler. Dabei wird nicht nur der technische Aspekt berücksichtigt, sondern auch die institutionelle Einbettung. So will man sicherstellen, dass digitale Inhalte dauerhaft verfügbar sind. "Das ist für die Akzeptanz durch die Fachwissenschafter von zentraler Bedeutung", meint der Experte.
Sichtbar geworden sei das auch beim Projekt KONDE (Kompetenznetzwerk Digitale Edition), das auf die Etablierung einer nachhaltigen, nationalen Publikationsplattform für Digitale Editionen abzielt. Die Meinung der Skeptiker sei gewesen, dass das Buch noch immer die sicherere Variante gegenüber einer digitalen Version in einem Repositorium wäre. Dennoch sei es erstmalig gelungen, Vertreter von Gedächtnisinstitutionen und universitären Forschungsinstituten zusammenzubringen und rund um das Thema digitaler Text zu gemeinsamen Initiativen zu bewegen, sagt Stigler (SIEHE auch "Digitale Editionen retten das kulturelle Erbe").
Beratung zum Datenmanagement
Ein Schritt hin zur Integration Österreichs in die Aktivitäten von CLARIN und DARIAH ist das Repositorium ARCHE (A Resource Centre for the HumanitiEs), das der Archivierung von digitalen Forschungsdaten dient. Ein zentraler Punkt des an der ÖAW angesiedelten Angebots ist die Unterstützung von konkreten Forschungsprojekten und Consulting zu einem zeitgemäßen Forschungsdatenmanagement beziehungsweise zur Anwendung möglichst standardkonformer Formate und Metadatenschemata.
Bei GAMS (Geisteswissenschaftliches Asset Management System) wiederum können schon seit vielen Jahren digitale Ressourcen aus allen geisteswissenschaftlichen Fächern verwaltet, publiziert und langfristig archiviert werden. Entwickelt wurde das System am Zentrum für Informationsmodellierung an der Uni Graz. Auch das Repositorium der ÖNB basiert darauf. Mithilfe dieser technischen Lösung wurden bereits mehrere Digitale Editionen – unter anderem die Tagebücher von Andreas Okopenko – veröffentlicht. Eine digitale Musil-Edition ist in Vorbereitung. Künftig sollen alle digitalen Editionen, die auf Quellenmaterial der ÖNB fußen, in dieser Infrastruktur realisiert werden.
Mit der Texterkennung historischer Schriften beschäftigt sich die Forschungsplattform Transkribus an der Universität Innsbruck. Mittlerweile werden auch mit Handschriften sehr gute Ergebnisse erzielt. "Das ist ein System, das Deep Learning-Strategien anwendet, wodurch es nach einer gewissen Trainingsphase möglich ist, dass auf Basis eines Scans der Inhalt des Textes erfasst werden kann. Das war früher nur mit Druckschriften möglich", so Stigler. An der Uni Salzburg werde derzeit das Projekt dhPlus, mit dem der dauerhafte und sichere Betrieb der eigenen DH-Projekte gesichert werden soll, aufgebaut. Eine Möglichkeit, Daten zu verwalten bietet auch PHAIDRA, das Repositorium der Universität Wien für die langfristige Aufbewahrung und Archivierung von verschiedenen Objekten.
Viele digitale Helferlein
Eine wichtige Infrastruktur sind auch digitale Werkzeuge, auf die im Forscheralltag kaum mehr verzichtet werden kann. "Schon bei der Forschungsfrage muss man sich überlegen: Wie bringe ich meine Quellen in eine maschinenlesbare Form? Will ich sie mit anderen Texten vergleichen? Da gibt es viele Möglichkeiten", erklärt Resch vom ACDH-CH der ÖAW: "Wir haben Tools zum Annotieren, Vergleichen, Verknüpfen und Visualisieren von Texten, zum Kuratieren, Anreichern und Transformieren von Daten sowie zum Versionieren und digitalen Veröffentlichen. Es gibt einige bewährte Off-the-shelf-Tools und Services, die ich immer verwenden kann, aber meist müssen sie noch ein wenig angepasst werden."
Das kostet natürlich Zeit und muss bei der Projektentwicklung mitkalkuliert werden. "Deshalb werden von den Fördergebern sogenannte Datenmanagementpläne verlangt, bei denen man von Beginn an wissen muss, in welchem Format die Daten sind, beziehungsweise wie sie weiterverarbeitet und prozessiert werden." Eines der Ziele des ACDH-CH sei daher, den Forschenden stabile und robuste Tools nahe zu bringen und zur Verfügung zu stellen. "Bei uns laufen derzeit rund 200 Services. Deshalb geht es neben der technischen Infrastruktur auch um die Vermittlung von Kompetenzen. Da ist neben der Expertise viel Kommunikation und Interaktion nötig", so Resch.
In dieser Beratungsfunktion kläre man, welche Werkzeuge für die jeweiligen Projekte geeignet sind, und biete auch sogenannte Tool-Gallerys an. "Da können sich Forschende innerhalb eines Tages mit einem Tool vertraut machen und danach entscheiden, ob das für ihre Forschungsfrage dienlich ist oder nicht. Es gibt eine theoretische Einführung, Anwendungsbeispiele und eine Hands-on-Session", streicht die Expertin hervor. Dieser Wissenstransfer sei wichtig, um Wissenschafter zu inspirieren, hier selbst tätig zu werden.
Die Werkzeuge müssten aber nicht nur gut dokumentiert, auffindbar und benutzerfreundlich sein. Auch die Offenheit und freie Verfügbarkeit werde immer stärker propagiert. "Was bei CLARIN erarbeitet wird, kann ich auch als Forscher in Österreich mitnutzen. Umgekehrt bringen wir die Anwendungen, die wir entwickeln, wiederum bei CLARIN und DARIAH ein", erklärt Resch. Was die Daten betrifft, gehe es einerseits um die Bereitschaft, sie zu teilen und andererseits darum, sie so aufzubereiten, dass andere sie nutzen können. "Es führt kein Weg daran vorbei, seine Daten unter bestimmten Lizenzen, die möglichst offen sein sollten, auch für andere freizugeben, einsehbar und weiterverarbeitbar zu machen", resümiert Resch.
Praxisbeispiel Wiener Diarium
Wie breit die Palette der Tools ist, die bei Forschungsprojekten eingesetzt werden, zeigt das Beispiel "Wiener Diarium", bei dem es um die Erschließung historischer Ausgaben der "Wiener Zeitung" im Volltext geht.
- Bilder der Zeitungsausgaben werden aus ANNO (AustriaN Newspapers Online), dem digitalen Zeitungs- und Zeitschriftenlesesaal der Österreichischen Nationalbibliothek, abgerufen.
- Anschließend werden sie in die Plattform Transkribus hochgeladen und dort einer automatischen Seitenlayout-Erkennung unterzogen. Dabei wird die Reihenfolge festgelegt, in der die Seitenelemente zu Volltext umgewandelt werden sollen.
- In den segmentierten Blöcken werden automatisch Textzeilen erkannt, die dann mit Hilfe von statistischen Modellen zu Zeichenketten transformiert werden. Der auf diese Weise generierte Volltext wird nach manueller Überprüfung den Richtlinien der TEI entsprechend kodiert. Dazu werden Metadaten angelegt und Struktureinheiten im Zeitungstext - wie Überschriften, Fließtext und Tabellen - gekennzeichnet.
- Danach werden die Textausgaben in eine Datenbank überspielt, sodass sie auf einer Website übersichtlich dargestellt werden können.
- Teil dieser Datenbank ist ein Suchmaschinenmodul, das den Volltext in einzelne Wörter zerlegt und einen Index anlegt, der nach bestimmten Worten, Wortteilen, Wortketten oder -mustern durchsuchbar ist.
- Neben dem Volltext sind die Ausgaben auch als Faksimile-Seiten sichtbar, die auf einem Bildserver gespeichert und über einen Imageviewer abgerufen werden.
- Die Daten und Skripte für den gesamten Workflow werden in einem verteilten Versionskontrollsystem verwaltet, das es erlaubt, den Bearbeitungsverlauf transparent zu dokumentieren.
Von Stefan Thaler / APA-Science