Forschungsinfrastruktur: Leuchttürme, aber noch viel Luft nach oben

Kultur & Gesellschaft / APA-Science / 30.01.2020, 15:04

Forschungsinfrastruktur: Leuchttürme, aber noch viel Luft nach oben

Von einer viele Millionen Euro schweren nationalen Forschungsdateninitiative wie in Deutschland können heimische Forscher nur träumen. Daher sind die Aktivitäten in diesem Bereich hierzulande eher kleinteilig und unsystematisch. Nichtsdestotrotz haben es einige Digital Humanities-Projekte geschafft, international wahrgenommen zu werden.

Sandra Lehecka

Repositorien machen Forschungsmaterialien breit zugänglich

Ein Grund für den schleppenden Auf- und Ausbau der Infrastrukturen dürfte darin liegen, dass die Zusammenarbeit zwischen universitären und außeruniversitären Forschungsinstitutionen mit Gedächtniseinrichtungen wie Archiven, Bibliotheken und Museen zu wünschen übrig lässt. Hier fordern Branchenkenner mehr finanzielle Mittel beziehungsweise ein systematisches Infrastrukturprogramm. Bis dahin sollten die Akteure versuchen, Synergien zu nutzen und verstärkt auf Kooperation und Komplementarität zu setzen, empfiehlt Katja Mayer vom Zentrum für Soziale Innovation (ZSI), die im Auftrag des Bildungsministeriums eine Studie zu den Digital Humanities in Österreich erstellt hat (siehe "Digitale Geisteswissenschaften mit enormen Potenzialen").

Bei den internationalen Infrastrukturen stechen CLARIN (Common Language Resources and Technology Infrastructure) und DARIAH (Digital Research Infrastructure for the Arts and Humanities) hervor. Ziel dieser europäischen Großprojekte ist es, Standort-übergreifende Strukturen für das Management von Forschungsdaten zu schaffen. Voraussetzung für die Teilhabe als Partner sind eigene technische Infrastrukturen. "CLARIN ist stark auf Sprachressourcen, Standards und Tools ausgerichtet, DARIAH auf Digital Arts and Humanities und hat auch eine starke Vermittlungskomponente für die Lehre", erklärt Claudia Resch vom Austrian Centre for Digital Humanities and Cultural Heritage (ACDH-CH) der Österreichischen Akademie der Wissenschaften (ÖAW).

"Aber bei beiden geht es um den Aufbau von Infrastrukturen, deshalb wachsen sie in vielen Ländern zusammen", ergänzt Johannes Stigler vom Austrian Centre for Digital Humanities an der Universität Graz. In Österreich ist das aufgrund der knappen finanziellen Ressourcen in Form von CLARIAH-AT schon passiert. Hier hat sich eine nationale Community gebildet, die in beiden Projekten tätig ist. Laut Stigler wird auch auf europäischer Ebene schon jetzt gemeinsam an einer Authentifizierungsinfrastruktur gearbeitet, mit der man Forschergruppen in bestimmten Kontexten Zugriffsrechte auf digitale Ressourcen geben kann.

Inhalte für Maschinen lesbar

Abseits davon geht es um die Etablierung gemeinsamer Datenstandards, so Stigler. In den Digital Humanities setzt man sich im Rahmen der Text Encoding Initiative (TEI) schon seit langem mit der Frage auseinander, wie geisteswissenschaftliche Textdaten auf eine standardisierte Art und Weise – unabhängig von proprietären Firmenformaten – präsentiert werden können. Dadurch soll der Inhalt dieser Texte nicht nur für den Menschen, sondern auch für Maschinen lesbar sein. Beispielsweise werden in solchen Datenformaten grammatikalische Strukturen kodiert, so dass ein Algorithmus in der Lage ist, in einem größeren Textbestand etwa nach bestimmten Satzstrukturen zu suchen.

Unter den österreichischen Infrastrukturen, darunter viele Repositorien, also Dokumentenserver, auf denen Forschungsmaterialien zugänglich gemacht und archiviert werden, gibt es mehrere "Leuchttürme". Für geisteswissenschaftliche Daten besonders geeignet erachtet Mayer in Österreich vor allem ARCHE (ÖAW), GAMS (Uni Graz) und das Repositorium der Österreichischen Nationalbibliothek (ÖNB). "Die beiden erstgenannten sind die einzigen digitalen Repositorien in Österreich, die nach internationalen Kriterien als vertrauenswürdig zertifiziert sind", erläutert Stigler. Dabei wird nicht nur der technische Aspekt berücksichtigt, sondern auch die institutionelle Einbettung. So will man sicherstellen, dass digitale Inhalte dauerhaft verfügbar sind. "Das ist für die Akzeptanz durch die Fachwissenschafter von zentraler Bedeutung", meint der Experte.

Sichtbar geworden sei das auch beim Projekt KONDE (Kompetenznetzwerk Digitale Edition), das auf die Etablierung einer nachhaltigen, nationalen Publikationsplattform für Digitale Editionen abzielt. Die Meinung der Skeptiker sei gewesen, dass das Buch noch immer die sicherere Variante gegenüber einer digitalen Version in einem Repositorium wäre. Dennoch sei es erstmalig gelungen, Vertreter von Gedächtnisinstitutionen und universitären Forschungsinstituten zusammenzubringen und rund um das Thema digitaler Text zu gemeinsamen Initiativen zu bewegen, sagt Stigler (SIEHE auch "Digitale Editionen retten das kulturelle Erbe").

Beratung zum Datenmanagement

Ein Schritt hin zur Integration Österreichs in die Aktivitäten von CLARIN und DARIAH ist das Repositorium ARCHE (A Resource Centre for the HumanitiEs), das der Archivierung von digitalen Forschungsdaten dient. Ein zentraler Punkt des an der ÖAW angesiedelten Angebots ist die Unterstützung von konkreten Forschungsprojekten und Consulting zu einem zeitgemäßen Forschungsdatenmanagement beziehungsweise zur Anwendung möglichst standardkonformer Formate und Metadatenschemata.

Bei GAMS (Geisteswissenschaftliches Asset Management System) wiederum können schon seit vielen Jahren digitale Ressourcen aus allen geisteswissenschaftlichen Fächern verwaltet, publiziert und langfristig archiviert werden. Entwickelt wurde das System am Zentrum für Informationsmodellierung an der Uni Graz. Auch das Repositorium der ÖNB basiert darauf. Mithilfe dieser technischen Lösung wurden bereits mehrere Digitale Editionen – unter anderem die Tagebücher von Andreas Okopenko – veröffentlicht. Eine digitale Musil-Edition ist in Vorbereitung. Künftig sollen alle digitalen Editionen, die auf Quellenmaterial der ÖNB fußen, in dieser Infrastruktur realisiert werden.

Mit der Texterkennung historischer Schriften beschäftigt sich die Forschungsplattform Transkribus an der Universität Innsbruck. Mittlerweile werden auch mit Handschriften sehr gute Ergebnisse erzielt. "Das ist ein System, das Deep Learning-Strategien anwendet, wodurch es nach einer gewissen Trainingsphase möglich ist, dass auf Basis eines Scans der Inhalt des Textes erfasst werden kann. Das war früher nur mit Druckschriften möglich", so Stigler. An der Uni Salzburg werde derzeit das Projekt dhPlus, mit dem der dauerhafte und sichere Betrieb der eigenen DH-Projekte gesichert werden soll, aufgebaut. Eine Möglichkeit, Daten zu verwalten bietet auch PHAIDRA, das Repositorium der Universität Wien für die langfristige Aufbewahrung und Archivierung von verschiedenen Objekten.

Viele digitale Helferlein

Eine wichtige Infrastruktur sind auch digitale Werkzeuge, auf die im Forscheralltag kaum mehr verzichtet werden kann. "Schon bei der Forschungsfrage muss man sich überlegen: Wie bringe ich meine Quellen in eine maschinenlesbare Form? Will ich sie mit anderen Texten vergleichen? Da gibt es viele Möglichkeiten", erklärt Resch vom ACDH-CH der ÖAW: "Wir haben Tools zum Annotieren, Vergleichen, Verknüpfen und Visualisieren von Texten, zum Kuratieren, Anreichern und Transformieren von Daten sowie zum Versionieren und digitalen Veröffentlichen. Es gibt einige bewährte Off-the-shelf-Tools und Services, die ich immer verwenden kann, aber meist müssen sie noch ein wenig angepasst werden."

Das kostet natürlich Zeit und muss bei der Projektentwicklung mitkalkuliert werden. "Deshalb werden von den Fördergebern sogenannte Datenmanagementpläne verlangt, bei denen man von Beginn an wissen muss, in welchem Format die Daten sind, beziehungsweise wie sie weiterverarbeitet und prozessiert werden." Eines der Ziele des ACDH-CH sei daher, den Forschenden stabile und robuste Tools nahe zu bringen und zur Verfügung zu stellen. "Bei uns laufen derzeit rund 200 Services. Deshalb geht es neben der technischen Infrastruktur auch um die Vermittlung von Kompetenzen. Da ist neben der Expertise viel Kommunikation und Interaktion nötig", so Resch.

In dieser Beratungsfunktion kläre man, welche Werkzeuge für die jeweiligen Projekte geeignet sind, und biete auch sogenannte Tool-Gallerys an. "Da können sich Forschende innerhalb eines Tages mit einem Tool vertraut machen und danach entscheiden, ob das für ihre Forschungsfrage dienlich ist oder nicht. Es gibt eine theoretische Einführung, Anwendungsbeispiele und eine Hands-on-Session", streicht die Expertin hervor. Dieser Wissenstransfer sei wichtig, um Wissenschafter zu inspirieren, hier selbst tätig zu werden.

Die Werkzeuge müssten aber nicht nur gut dokumentiert, auffindbar und benutzerfreundlich sein. Auch die Offenheit und freie Verfügbarkeit werde immer stärker propagiert. "Was bei CLARIN erarbeitet wird, kann ich auch als Forscher in Österreich mitnutzen. Umgekehrt bringen wir die Anwendungen, die wir entwickeln, wiederum bei CLARIN und DARIAH ein", erklärt Resch. Was die Daten betrifft, gehe es einerseits um die Bereitschaft, sie zu teilen und andererseits darum, sie so aufzubereiten, dass andere sie nutzen können. "Es führt kein Weg daran vorbei, seine Daten unter bestimmten Lizenzen, die möglichst offen sein sollten, auch für andere freizugeben, einsehbar und weiterverarbeitbar zu machen", resümiert Resch.

Praxisbeispiel Wiener Diarium

Wie breit die Palette der Tools ist, die bei Forschungsprojekten eingesetzt werden, zeigt das Beispiel "Wiener Diarium", bei dem es um die Erschließung historischer Ausgaben der "Wiener Zeitung" im Volltext geht.

- Bilder der Zeitungsausgaben werden aus ANNO (AustriaN Newspapers Online), dem digitalen Zeitungs- und Zeitschriftenlesesaal der Österreichischen Nationalbibliothek, abgerufen.

- Anschließend werden sie in die Plattform Transkribus hochgeladen und dort einer automatischen Seitenlayout-Erkennung unterzogen. Dabei wird die Reihenfolge festgelegt, in der die Seitenelemente zu Volltext umgewandelt werden sollen.

- In den segmentierten Blöcken werden automatisch Textzeilen erkannt, die dann mit Hilfe von statistischen Modellen zu Zeichenketten transformiert werden. Der auf diese Weise generierte Volltext wird nach manueller Überprüfung den Richtlinien der TEI entsprechend kodiert. Dazu werden Metadaten angelegt und Struktureinheiten im Zeitungstext - wie Überschriften, Fließtext und Tabellen - gekennzeichnet.

- Danach werden die Textausgaben in eine Datenbank überspielt, sodass sie auf einer Website übersichtlich dargestellt werden können.

- Teil dieser Datenbank ist ein Suchmaschinenmodul, das den Volltext in einzelne Wörter zerlegt und einen Index anlegt, der nach bestimmten Worten, Wortteilen, Wortketten oder -mustern durchsuchbar ist.

- Neben dem Volltext sind die Ausgaben auch als Faksimile-Seiten sichtbar, die auf einem Bildserver gespeichert und über einen Imageviewer abgerufen werden.

- Die Daten und Skripte für den gesamten Workflow werden in einem verteilten Versionskontrollsystem verwaltet, das es erlaubt, den Bearbeitungsverlauf transparent zu dokumentieren.

Von Stefan Thaler / APA-Science

Stichwörter

Museen

Sozialwissenschaften

Wien

Dossier

Kunst & Kultur

Kultur

Wissenschaft

Technologie

Forschung

Facts

dha - digital humanities austria: https://digital-humanities.at/de

ACDH-CH ÖAW - Austrian Centre for Digital Humanities and Cultural Heritage der Österreichischen Akademie der Wissenschaften: https://www.oeaw.ac.at/acdh/

Studie "Mapping der Digital Humanities in Österreich" - ab Ende Februar hier abrufbar: https://www.zsi.at/de/object/publication/5469

Digital Humanities Austria Strategie (2015)

CLARIAH-AT: http://go.apa.at/VhNIJioT

ARCHE - A Resource Centre for the HumanitiEs: http://go.apa.at/0WU2xKn2

GAMS - Geisteswissenschaftliches Asset Management System: https://gams.uni-graz.at/

KONDE - Kompetenznetzwerk Digitale Edition: http://www.digitale-edition.at/

Transkribus: http://go.apa.at/C5zAZciG

dhPLUS - digital humanities Salzburg: http://go.apa.at/Hc2L1TOI

PHAIDRA: http://go.apa.at/UhOAKWj1

ANNO - AustriaN Newspapers Online: http://anno.onb.ac.at/

Archive of Digital Art: http://go.apa.at/ZL9hzIbO

International

Text Encoding Initiative: https://tei-c.org/

DHD (Digital Humanities im deutschsprachigen Raum): https://dig-hum.de/

centerNet (International Network of Digital Humanities Centers): https://dhcenternet.org/

Termine

Graph Technologies in the Humanities 2020, Wien, 21.-22.2.2020: http://go.apa.at/7B7yyGkg

ACDH-CH Open Data Virtual Hackathon - Round Two, Wien, 28.2.-31.3.2020: http://go.apa.at/jzerCtws

Dhd 2020: 7. Jahrestagung des Verbands "Digital Humanities im deutschsprachigen Raum e.V.", Paderborn, 2.-6.3.2020: http://go.apa.at/qEW7FgEm

Design Thinking & Maker Culture: Sticky Learning for the 21st Century, Konferenz, Wien, 25.-26.3.2020: http://go.apa.at/k8FAPE0B

Spring School LiSeH 2020: Linked Data & the Semantic Web for Humanities Research, Graz, 14.-17.4.2020: http://go.apa.at/6jVqzjXf

COMPTEXT Konferenz, Innsbruck, 14.-18.5.2020: http://go.apa.at/TFREjYE3

Forschungsinfrastruktur: Leuchttürme, aber noch viel Luft nach oben

Mehr zum Thema

Zu Besuch in der ÖNB

Das digitale Gedächtnis Österreichs

D!gital€ Spr@che

Digital Geschichte(n) erzählen

Digital, im Geiste

Projekt "Time Machine" will virtuelle Zeitreisen ermöglichen

Wissenschaft: Wien wird Zentrum des "Digitalen Humanismus"

Faßmann: 50 Mio. Euro für Digitalisierung an unseren Universitäten

Forschungsprojekt bereitet Holocaust-Filmdokumente digital auf

Studie: Digitale Geisteswissenschaften mit "enormen Potenzialen"

Unis erhalten 50 Mio. Euro für Digitalisierungsprojekte

Wien fördert Forschung zu "Digitalem Humanismus" mit 2 Mio. Euro

Gastbeiträge

Bildorientierte Digital Humanities: 2005 bis heute

"Der digitale Archäologe"

"Das Naturhistorische Museum Wien macht seine Sammlungen digital zugänglich"

"Digitale Geisteswissenschaften? Läuft!"

"Digital Humanities - Vom Schattencurriculum zum Schwerpunkt in der Lehre"

"Digitale Editionen retten das kulturelle Erbe"

Das könnte Sie auch interessieren

Nachrichten leicht verständlich vom 17. März 2025

Umbau der Uni Wien-Hauptbibliothek: Stempel und Kuli für die Nachwelt

"Lieferketten im Krisenmodus - Wie können Unternehmen sich besser absichern?"