D!gital€ Spr@che
Wie nennt man das, was von einem Apfel übrig bleibt, nachdem er gegessen wurde? Für das, was der Tiroler "Apfelputzen" und der Vorarlberger "Öpflbudzga" sagt, was der Südhesse charmant "Äbbelgrotze" und sein Thüringer Nachbar "Apelkrebs" nennt, existieren mehrere dutzend verschiedene Ausdrücke, abhängig von der Lokalität.
Solche feinen, regionalen Unterschiede sind es, die Alexandra Lenz einzufangen untersucht. Im Rahmen des vom Wissenschaftsfonds FWF geförderten Spezialforschungsbereichs "Deutsch in Österreich" erhebt und analysiert die Universitätsprofessorin für Germanistische Sprachwissenschaft der Universität Wien Gebrauch und Wahrnehmung von gesprochenem und geschriebenem Deutsch in Österreich.
Als Datenbasis für Geschriebenes wird unter anderem das "Austrian Media Corpus" (AMC) herangezogen. Diese digitale Sammlung des Österreichischen Zentrums für Digitale Geisteswissenschaften und Kulturelles Erbe (ACDH-CH) der Österreichischen Akademie der Wissenschaften (ÖAW), von dem Lenz Direktorin ist, entstand in einer Kooperation mit der APA - Austria Presse Agentur. Das Corpus umfasst die österreichische Medienlandschaft der vergangenen Jahrzehnte. Die enthaltenen Zeitungs- und Zeitschriftentexte, transkribierten Fernseh- und Radiobeiträge, Pressemitteilungen, etc. werden seit 2012 für linguistische Projekte herangezogen. Auch im Rahmen von "Deutsch in Österreich" seien bereits einige Forschungsarbeiten auf Basis des AMC entstanden, "etwa zur Frage, welche Wortschatz-Veränderungen in den letzten Jahrzehnten in der Presselandschaft Österreichs festzustellen sind", oder "in welcher Art und Weise Fremd- und Lehnwörter grammatisch in die deutsche Sprache integriert werden", so Lenz.
Schwerpunkt Sprechen
In der ersten Projektphase von 2016 bis 2019 lag der Schwerpunkt jedoch auf gesprochener Sprache. "In unserem Projekt versuchen wir, möglichst verschiedene Situationen bzw. Situationstypen nachzuahmen und die Sprecher und Sprecherinnen beziehungsweise ihr 'Sprachverhalten' in diesen Situationen zu 'beobachten': Wer spricht wie mit wem?", vereinfacht Lenz. Die Analyse der Aufnahmen bestätigte die These, dass Sprecher sich beispielsweise in formellen Interviewsituationen anders ausdrücken als im Gespräch mit Freunden. Dabei würden, so Lenz, dialektale, umgangssprachliche und hochdeutsche Sprachvarianten kreativ vermischt. Auch Bausteine aus anderen Sprachen spielten je nach Hintergrund der Individuen eine Rolle.
"Gesprochene Sprache ist ein komplexes Untersuchungsobjekt, das eben zunächst nur gesprochen vorliegt und in Form von Tonaufnahmen von uns erfasst wird", erklärt Lenz. "Um diese Tonaufnahmen dann intensiv weiter zu erforschen, bedarf es zunächst einer Verschriftlichung der aufgenommenen Daten. Und diese Verschriftlichung bedeutet einen enormen Zeit- und Energieaufwand, den wir in der ersten Projektphase intensivst betrieben haben. Dabei hat uns eine Fülle von studentischen Mitarbeitern und Mitarbeiterinnen geholfen, die nicht selten auch mit dem Problem konfrontiert waren, die aufgenommenen Gespräche zu verstehen. Insbesondere in den erwähnten Freundesgesprächen wurde nämlich nicht selten Dialekt gesprochen - das war für Hörende aus anderen Regionen Österreichs nicht per se leicht zu verstehen."
Warum heißt die Teebutter eigentlich Teebutter?
Neben der Datenerhebung in unterschiedlichen Gesprächssituationen, Experimenten und Aufgaben werden auch über ein Citizen Science Projekt Informationen und Anregungen gesucht. "In aller Munde und aller Köpfe" bietet als Plattform interessierten Personen die Möglichkeit, sich zu beteiligen. Etwa bei einer "Schnitzeljagd nach Schrift", wo Graffiti-Schriftzüge, Texte auf Plakaten, Hauswänden, etc. per Foto festgehalten und in eine entsprechende App hochgeladen werden können. Oder unter dem Punkt "Frage des Monats", wo Wissenschafter Antworten auf Fragen wie Warum heißt die Teebutter eigentlich Teebutter? oder Woher kommt das Wort 'Tschick' und was bedeutet es? liefern.
Digitalisierung hat die Forschungslandschaft mittlerweile nachhaltig verändert. Erkenntnisse werden online publiziert, wissenschaftliche Paper als PDFs gelesen. "Auch Fragebogen-Erhebungen werden zunehmend online durchgeführt. Forschung findet inzwischen immer häufiger in irgendeiner Form 'digital' statt, somit ist es gegenwärtig eigentlich selbstverständlich, mit digitalen Daten zu arbeiten", weiß Lenz aus eigener Erfahrung. "Nicht nur für die Datenerhebung, sondern erst recht für die diversen Analysen von Sprachdaten bringen digitale Methoden und Werkzeuge viele Vorteile mit sich." Daten können "miteinander verknüpft und analysiert", "deutlich größere Mengen in deutlich kürzerer Zeit" gesammelt werden, und diese dann "mithilfe von Online-Forschungsplattformen einem breiten Publikum zur Verfügung gestellt werden."
Der direktere Kontakt mit der Öffentlichkeit führe letztendlich dazu, dass Ergebnisse zunehmend auf eine Weise aufbereitet würden, die nicht nur für ein Fachpublikum geeignet sei. Die erhobenen Sprachdaten über die Plattform der Wissenschaftscommunity und der Öffentlichkeit zugänglich zu machen, sei deshalb auch ein weiterer Schritt für das Projekt.
Und wozu das Ganze?
Wozu sich eigentlich die Mühe machen, sprachliche Diversität zu erhalten? "Sprache hat viele Funktionen", erklärt Afrikanistik-Professor Adams Bodomo von der Universität Wien - Kommunikation sei nur ein kleiner Teilaspekt.
Sprache sei ein Mittel des kulturellen Ausdrucks. "Wir brauchen sprachliche Vielfalt, um über Diversität in anderen Bereichen sprechen zu können", erläutert Bodomo anhand seines Forschungsprojekts zu Begriffen der Flora und Fauna in verschiedenen afrikanischen Sprachen: "Wie spricht man über Vogelarten, ohne die Namen dieser Vogelarten in den Regionen zu kennen, in denen sie vorkommen?", nennt er ein Beispiel.
Disziplinenübergreifend forschen
Nicht nur für die Linguistik, sondern für alle Wissenschaften sei Sprache also relevant. "Biologische und sprachliche Diversität sind untrennbar miteinander verbunden und sollten einen zusammenhängenden interdisziplinären Forschungsbereich in den Geistes- und Sozialwissenschaften bilden. In unserer wissenschaftlichen Welt kann man nicht durch das Leben gehen, ohne disziplinenübergreifend zu denken."
Durch die leichtere Zugänglichkeit der Daten stünden der Forschung immer mehr Quellen zur Verfügung - "und diese gehen weit über die Disziplinen hinaus", betont auch Lenz. "So können zum Beispiel Daten aus "Deutsch in Österreich" für sozialwissenschaftliche, historische oder politikwissenschaftliche Studien oder andere Disziplinen interessant sein. Perspektiven werden durch die Quellenvielfalt und die Verknüpfung der Daten erweitert."
Die Digitalisierung der Geisteswissenschaften habe Bodomos Arbeit als Sprachwissenschafter in den vergangenen zehn Jahren stark verändert. "Digital Humanities haben dazu beigetragen, die wissenschaftliche Analyse und das Erlernen einer Sprache zu verändern", zählt er den Zugang und Automatisierung als wichtige Punkte auf. "Früher musste man in eine Bibliothek gehen, um Zugang zu linguistischem Material zu erhalten. Heutzutage bekommt man digitalisiertes Material einfach online." Digitale Wörterbücher könne man leichter durchsuchen als ihre analogen Vorfahren. "Man könnte sich sogar dazu entschließen, nach lexikalischen Kollokationen zu suchen, das heißt, wie ein Wort in Verbindung mit anderen Wörtern verwendet werden könnte."
Omas digitalisiertes Tagebuch
Mit dem schriftlichen Aspekt der Sprache beschäftigt sich Transkribus. Hierbei handelt es sich um eine Plattform zur Texterkennung und Analyse von handschriftlichen, historischen Dokumenten. "Es hat inzwischen einen hohen Reifegrad erreicht", betont Günter Mühlberger, der das Projekt als Leiter der Gruppe für Digitalisierung und Elektronische Archivierung der Universität Innsbruck ins Leben gerufen hat. Das ursprüngliche Ziel, nämlich die Handschrift der Urgroßmutter durch den Computer auslesen zu lassen, sei mittlerweile erreicht worden. "Mit dieser neuen Technologie kann man den Computer trainieren, jede Art von Schrift zu erkennen - egal ob mittelalterliche Kodizes, neuzeitliche Handschrift oder die Sauklaue irgendeines Schriftstellers aus dem 20. Jahrhundert. Es ist auch egal, ob arabisch oder hebräisch."
Scanne ich also das Tagebuch meiner Urgroßmutter ein, und der Computer übernimmt die Transkriptionsarbeit? "Um es kurz zu sagen: Jein", so Mühlberger. "Aufgrund der großen Variabilität von Handschriften wird es bis zu dem Zeitpunkt, an dem man den Computer mit einer x-beliebigen Handschrift füttert und ein ebenso gutes Ergebnis wie bei Druckschriften erhält, noch viele Jahre dauern." Um diesen Punkt zu erreichen, habe man den Nutzern die Möglichkeit gegeben, selbst Modelle zu trainieren. "Auf der Plattform werden pro Monat hunderttausende Seiten von Benutzern hochgeladen und so dann Modelle trainiert. Der ganze Workflow wird von den Benutzern selbst durchgeführt." Das sei auch das Geheimnis hinter dem Erfolg der Plattform: Statt auf Crowd Sourcing werde auf Expert Sourcing gesetzt. "Wir geben den Leuten das Werkzeug in die Hand, weil der Benutzer seine Dokumente selbst am besten kennt. Die Leute sind Experten für ihre eigenen Dokumente und erkennen mit Transkribus von Brasilien bis Russland und von Kanada bis in die Türkei ihre Dokumente."
Um mit den Dokumenten der Großmutter zu sprechen: "Wenn die Großmutter Tagebuch geschrieben hat, reicht es, einige Seiten zu transkribieren und das allgemeine Modell darauf zu trainieren. Das Ergebnis wird dann ganz gut sein", spricht Mühlberger von einer Fehlerquote von ungefähr drei Prozent. "Das ist sehr, sehr gut - bei unter zehn Prozent kann man einigermaßen sinnerfassend lesen." Die Benutzer, von denen mittlerweile mehr als 30.000 registriert sind, agieren dabei im privaten Bereich. Die Anzahl der transkribierten Dokumente sei deshalb schwer abzuschätzen, pro Monat würden aber mehr als 200 Modelle trainiert, über 300.000 Seiten wurden bisher von den Benutzern als Trainingsmaterial erstellt. Würde man so viele Dokumente zur Übersetzung in Auftrag geben, käme man bei einem Preis von 15 Euro pro Seite bereits auf mehrere Millionen Euro, die von den Benutzern an Werten geschaffen wurden, rechnet Mühlberger vor.
Transkribus wird seit Juli 2019 als Genossenschaft unter dem Namen READ (Recognition and Enrichment of Archival Documents) geführt. Zu den rund 30 Genossenschaftern zählen internationale Universitäten (unter anderem die Universität Wien) und Institutionen, aber auch natürliche Personen.
Vorteile durch Fortschritt
Mühlberger beschäftigt sich seit den neunziger Jahren mit Texterkennung, die den historischen Wissenschaften in vielen Bereichen bisher abgegangen sei. "Eine gute Texterkennung ist die Grundlage für alle weiteren Schritte", sieht er mit Befriedigung die technischen Fortschritte in dem Bereich, die "die Geisteswissenschaften auf einen neuen Level heben" werden. "Die Texterkennung wird noch eine Zeit lang brauchen, bis sie ein Niveau erreicht, wo man Texte fehlerlos erkennen kann. Was es aber schon gibt ist, dass man fast fehlerfrei suchen kann. Hier hinken österreichische Kulturinstitutionen hinterher", wünscht sich Mühlberger verstärkte Anstrengungen und Schritte in Richtung komplett digitalisierter Bestände.
Dass sich durch die Digitalisierung der Geisteswissenschaften durchaus neue Chancen ergeben, sieht auch Günther Stocker, Professor für Neuere deutsche Literatur an der Universität Wien: "Der größte Vorteil für meine Arbeit sind alle Formen von Datenbanken." Dass Daten, die weit entfernt analog liegen, in digitalisierter Form von seinem Schreibtisch aus abrufbar sind, sei "eine grandiose Sache".
Die Entwicklung in Richtung Open Access sei ebenfalls begrüßenswert. So müssen beispielsweise vom FWF geförderte Publikationen im Internet frei zugänglich publiziert werden. "Der Gedanke dahinter ist der: Wenn man auf Basis öffentlicher Förderung arbeitet, muss man das Ergebnis auch öffentlich zur Verfügung stellen. Die Distribution der Forschung hat sich nachhaltig verändert. Da ist gerade in den Humanities viel in Bewegung."
Die andere Seite der Medaille
Was man aber nicht vergessen dürfe, sei die Kehrseite der Medaille. "Diese Debatte der Digitalisierung wird ganz stark von Seite der digitalen Techniken und nicht von der Seite der Menschen her gedacht, die diese Techniken anwenden", so Stocker. Das vom FWF geförderte Projekt "Books on Screen - zur Digitalisierung des Lesens", das von Stocker gemeinsam mit Hajo Boomgaarden vom Institut für Publizistik- und Kommunikationswissenschaft geleitet wird, widmet sich der Frage, ob das Lesemedium Unterschiede in der Leseerfahrung bedingt.
"Es macht einen Unterschied, ob jemand eine Pergamentrolle gelesen hat, oder ein gedrucktes Buch. Das Lesemedium prägt das Erfassen, Verstehen und die Leseerfahrung, das ist eine Grundthese in der Kulturwissenschaft und der Buchforschung", verweist Stocker auf den französischen Philosophen Régis Debray: "Es gibt keine unschuldigen Träger, jedes Material hat seine Preis." Wer via Tablet liest, könnte zum Beispiel durch ablenkende Faktoren wie eintrudelnde E-Mails an dem Eintauchen in eine Geschichte gehindert werden.
Lesen für die Forschung
Um herauszufinden, ob diese und andere Annahmen empirisch belegbar sind, werden im Laufe des dreijährigen Projekts Experimente mit mehreren hundert Versuchspersonen durchgeführt. Das interdisziplinäre Forschungsteam, das von der Psychologin Annika Schwabe und dem Germanisten Lukas Brandl komplettiert wird, setzt dabei im Gegensatz zu ähnlichen Projekten auf literarisch anspruchsvolle Texte und längere Lesezeiten von rund dreißig Minuten. "Wir versuchen eine möglichst angenehme Leseatmosphäre in unserem Labor zu schaffen, mit einem Lesesessel, einer Leselampe etc.", erklärt Stocker.
Obwohl das Projekt erst seit einigen Monaten läuft und es noch keine konkreten Ergebnisse gebe, sei das internationale Interesse daran bereits groß. Sie seien schon zu Konferenzen und Projektpräsentationen in Venedig oder Hannover eingeladen und von Leseforschern in Dänemark, Deutschland oder Großbritannien kontaktiert worden, zählt Stocker auf. "Es gibt sehr wenig Forschung zum vergleichenden Lesen literarischer Texte on screen oder in Print. Gleichzeitig gibt es eine große Dynamik und einen Wunsch nach Studien mit erstens längeren Texten und Lesezeiten, zweitens literarischen Texten und drittens mit Einbeziehung literaturwissenschaftlichen Wissens. Da sind wir auf einem sehr guten Weg", freut sich Stocker über den Anklang, den das Projekt bereits findet.
"Nicht zulasten anderer relevanter Forschungsfragen"
Befürchtungen, dass das E-Book seinen gedruckten Vorgänger verdrängen werde, hätten sich zwar bisher nicht bewahrheitet, besonders im Wissenschaftsbereich und im Bereich des Lernens werde aber viel auf Bildschirmen gelesen. In der Stavanger-Erklärung von Anfang 2019 sprachen sich mehr als 130 Leseforscher aus Europa dafür aus, analoges Lesen zu fördern. Der Expertenempfehlung liegt eine Metastudie zugrunde, die zu dem Ergebnis kam, dass geduckte Bücher ihren digitalen Gegenstücken beim Textverständnis von Informationstexten klar überlegen sind - unabhängig davon, ob es sich bei den Lesern um Digital Natives handelt oder nicht. Ähnliche Ergebnisse bei literarischen Texten seien vorstellbar, so Stocker.
Die Auswirkungen der Digital Humanities spürt er, obwohl er selbst nicht direkt daran arbeitet. "Die Wissenschaftsförderung ist ganz stark darauf konzentriert", erklärt er. "Digital Humanities ist ein großes Schlagwort geworden, das, was das Interesse und die Forschungsförderung betrifft, sehr stark in den Vordergrund gerückt wird, wobei mir das nicht immer ganz einleuchtet und manchmal voreilig vorkommt. Ich glaube, man kann viel damit machen - aber nicht alles. Und es sollte nicht zulasten anderer relevanter Forschungsfragen gehen."
Von Anna Riedler / APA-Science