Big Data - Big Picture?
Egal ob in Astronomie, Biomedizin oder Klimaforschung: Die Wissenschaft muss sich schon seit längerem mit großen Datenmengen herumschlagen. Jetzt kommt das Thema aber anscheinend erst richtig in Fahrt – Stichwort "Big Data". APA-Science hat sich deshalb angesehen, wie die heimische Forschungslandschaft in diesem Bereich aufgestellt ist, warum Data Scientist als "sexiest job" des 21. Jahrhunderts gilt, welche Infrastruktur für das neue " Öl der Wissensgesellschaft"notwendig ist und ob die Kausalität tatsächlich von der Korrelation abgelöst wird.
Bereits im September 2008 hievte das Wissenschaftsmagazin "Nature" den Begriff "Big Data" auf die Titelseite einer Sonderausgabe. Inzwischen hat sich herauskristallisiert, dass das Thema vielschichtig ist: Denn neben den enormen Datenmengen (Volume) ergeben erst die Geschwindigkeit, mit der Daten verarbeitet werden (Velocity), die Datenvielfalt (Variety) und die Richtigkeit der Daten (Veracity) optimal genutzt den Wert der Daten (Value). Big Data extrahiert dabei Zusammenhänge aus unterschiedlichsten Daten und liefert zum Teil Antworten auf bisher nicht gestellte Fragen.
Das Wachstum des sogenannten "digitalen Universums" ist jedenfalls enorm: Laut Analysen der Marktforscher von IDC wird das Datenvolumen bis 2020 weltweit um das Zehnfache anwachsen – von derzeit 4,4 Billionen auf 44 Billionen Gigabyte. Treiber der Entwicklung sind Trends wie das Internet der Dinge, Maschinen-Kommunikation (M2M) bzw. die grundsätzlich stark steigende Zahl von Sensoren. Dazu kommen soziale Medien, der Vormarsch der mobilen Anwendungen und die Freigabe von Daten durch den öffentlichen Bereich (Open Government Data).
Aber egal, ob Smart Meter, Produktionsmaschinen oder Genanalysen: Derzeit wird das Potenzial noch kaum ausgeschöpft. Zwar soll der Anteil der brauchbaren Daten laut IDC von 22 Prozent im Jahr 2013 auf 35 Prozent bis 2020 steigen, beschlagwortet werden den Angaben zufolge derzeit aber nur fünf Prozent, analysiert sogar lediglich 0,5 Prozent. Es gibt also noch erhebliches Potenzial.
Stärken bei Datenanalyse
Die Breite der Anwendungsgebiete, die von österreichischen Unternehmen, Forschungsinstituten und Universitäten im Bereich intelligente Datenanalyse adressiert wird, ist dabei durchaus beachtlich, ergibt die Studie " Conquering Data in Austria", ein Empfehlungskatalog für die Ausrichtung des Förderprogramms "IKT der Zukunft: Daten durchdringen - Intelligente Systeme". Am wichtigsten wurden Gesundheit, Energie, E-Science sowie Produktion und Logistik eingeschätzt. Stärken gibt es vor allem bei Statistik, effizienten Algorithmen, Machine Learning, Computer Vision und Semantic Web, so die Autoren von der Technischen Universität (TU) Wien und der max.recall information systems GmbH.
Sie sehen aber auch noch einen gewissen Nachholbedarf. Gefordert werden in der von der Forschungsförderungsgesellschaft (FFG) und dem Bundesministerium für Verkehr, Innovation und Technologie (BMVIT) in Auftrag gegebenen Studie unter anderem Investitionen in ein heimisches Ökosystem für daten-basierte Innovationen als breitenwirksames Leuchtturmprojekt, das Dienste und Daten zugänglich und interoperabel macht. Außerdem wird empfohlen, ein "Austrian Data Technology Institute" ins Leben zu rufen, das einerseits Spitzenforschung und andererseits die Vernetzung und den Know-how-Austausch zwischen österreichischen und internationalen Akteuren ermöglicht.
Lob für heimische Forschungsleistungen
Herausragende Leistungen in der Forschung in Teilbereichen von Data Science sieht auch Martin Köhler vom Austrian Institute of Technology (AIT). Es gebe in Österreich einige Einrichtungen, die in Europa führend an vielen Projekten teilnehmen und gerade methodisch ein sehr hohes Forschungsniveau aufweisen würden. Das gelte unter anderem für High Performance Computing, die Implementierung von skalierbaren Programmiermodellen und Datenbanken.
Sehr stark vertreten sei Österreich auch im semantischen Bereich. "Allerdings könnte die Zusammenarbeit für die internationale Sichtbarkeit und die explizitere Förderung dieser Leistungen aber teilweise noch gestärkt werden", so Köhler, Mitautor der Studie "#BigData in #Austria", die am 4. Juni im Rahmen der neuen Konferenzreihe "IMAGINE" präsentiert wird.
"Universelle Denker" statt Fachexperten
Notwendig sind den "Conquering Data in Austria"-Autoren zufolge auch neue Bildungsprogramme, um den dringenden Bedarf an hoch-qualifiziertem Personal im Bereich der Datentechnologien zu befriedigen (mehr zum Thema "Data Scientist", dem vom Harvard Business Review als "sexiest job" des 21. Jahrhunderts bezeichneten Beruf des Datenwissenschafters, ist hier abrufbar). Gefragt sind laut den Autoren inzwischen eher "universelle Denker" als Fachexperten.
Europaweit und weltweit geht hier der Trend sehr stark zu neuen Studienrichtungen und Ausbildungen, um dieses Berufsbild zu stärken. "Die wichtigsten Fähigkeiten, die wir sehen, liegen einerseits in einer fundierten Informatik-Ausbildung mit parallelen, verteilten Systemen, Datenbanken, Machine Learning bzw. in Kombination mit Mathematik und Statistik mit sehr starkem Fokus auf diese Punkte", so Köhler im Gespräch mit APA-Science. Ein klassisches Data Science-Studium in dem Sinne gebe es derzeit in Österreich nicht, wenngleich die Möglichkeiten dafür sehr wohl an unterschiedlichen Institutionen bestehen würden.
Nachholbedarf bei Vernetzung
Wissensaustausch und Networking sind den für die Studie "Conquering Data in Austria" befragten Stakeholdern zufolge in Österreich eher wenig entwickelt. Auch mangelnde Transparenz wurde kritisiert. Unternehmen vermissen Informationen über die Kompetenzen von heimischen Forschungseinrichtungen und Universitäten. Diese wiederum wissen zu wenig über verfügbare Daten, Diensteanbieter und Hardware. Oft werden auch potenziell nützliche Forschungsergebnisse nicht effektiv kommuniziert. Beide Seiten sind zudem zurückhaltend mit der Veröffentlichung von Daten.
Als Vorbild in diesem Bereich könnte Deutschland dienen, vor allem was die Schnittstelle Wirtschaft/Wissenschaft betrifft: So haben erst kürzlich Forschungsinstitute wie Fraunhofer oder das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) und namhafte Unternehmen von Bayer bis Siemens in Karlsruhe das "Smart Data Innovation Lab" (SDIL) gestartet, ein Innovationszentrum für intelligente Daten.
Auch in Österreich gibt es zahlreiche Aktivitäten, um die Vernetzung zu verbessern. Treffen zum Thema Big Data, bei denen sich Unternehmer, Forscher und Fördergeber kennen lernen können, werden beispielsweise von der FFG, dem IT-Cluster Vienna, der Wirtschaftskammer Österreich (WKO) und ZIT – Die Technologieagentur der Stadt Wien GmbH organisiert. Außerdem pflegt der Arbeitskreis "Cloud Computing & Big Data" der Österreichischen Computer Gesellschaft (OCG) Kontakte zwischen Forschern und Unternehmen.
Infrastrukturausbau eher unkoordiniert
Was die Infrastruktur betrifft, wird von den "Conquering Data in Austria"-Autoren ein eher unkoordinierter Ausbau bemängelt (mehr zur notwendigen Rechenleistung und zum Thema Supercomputer findet sich hier). "Das System ist derzeit sehr heterogen", bestätigte auch Köhler. Eine Institution wie das in Deutschland initiierte "Smart Data Innovation Lab" gebe es in Österreich derzeit nicht und auch nicht die dazugehörige Infrastruktur, um entsprechende Datenmengen verarbeiten zu können.
"Hier haben wir in der Studie ganz klar die Weiterentwicklung und Förderung dieser Kompetenzen und den Zusammenschluss in diesem Bereich empfohlen", so der AIT-Forscher. In Sachen Ressourcen und Infrastruktur zeige sich außerdem, dass Zugang zu den Daten selbst geschaffen werden muss, einerseits über Open Data-Initiativen, andererseits über Data Markets, beispielsweise für Satellitendaten.
Computer wird zum virtuellen Labor
Die Explosion der Rechenleistung in den vergangenen Jahrzehnten biete heutzutage viele neue Möglichkeiten, bestätigte auch Christoph Dellago von der Universität Wien, der sich mit Computational Physics beschäftigt. Big Data helfe etwa dabei, Materialien auf der atomistischen Ebene zu verstehen. "Das heißt, wir können aufgrund der atomaren Zusammensetzung eines Materials erklären und vorhersagen, wie es sich verhält", sagte Dellago. Der Computer werde damit zu einem virtuellen Labor, in dem man Prozesse, die in Materialien ablaufen, im Detail verfolgen und schließlich dazu verwenden kann, um neue Materialien zu designen.
Das sei vor allem im Bereich neuer Nanomaterialien relevant, ein Gebiet das sich im Moment rasant entwickle und in dem Computersimulationen eine wichtige Rolle spielen würden. "Atomistische Simulationen, wie wir sie am Vienna Scientific Cluster durchführen, erzeugen jedoch riesige Datenmengen und die Herausforderung besteht nun darin, aus diesen Daten Erkenntnisse zu gewinnen", so der Physiker.
Standardisierung und Interoperabilität
Ein weiteres Problem für Big Data stellen mangelnde Standardisierung und Interoperabilität dar. Hier gibt es einige Initiativen, gerade im Open Data-Bereich, etwa um gemeinsame Datenschemen bereitzustellen. "Im Endeffekt ist genau die Schnittstelle und auch die Integration der Daten eine der größten Herausforderungen", sagte Köhler.
Neben den Schwierigkeiten auf der technischen Ebene, gebe es aber auch rechtliche Herausforderungen zu bewältigen: Auf welche Daten darf wer wie zugreifen? Zudem seien wirtschaftliche Fragestelllungen zur Verwertung der Daten zum Teil unbeantwortet. Aber auch soziale Implikationen müssten berücksichtigt werden: "Was hat die Datenverarbeitung für Auswirkungen, beispielsweise auf das Benutzerverhalten?", so der AIT-Experte.
"Korrelationen statt Kausalität"
Zunehmend hinterfragt wird in letzter Zeit auch das Thema "Korrelationen statt Kausalität": Der Vorwurf dabei lautet, dass statt nach Ursachen zu forschen, nur mehr nach Mustern und Korrelationen in den vorhandenen Daten Ausschau gehalten wird. Die Gesellschaft müsse sich "gewohnter Vorstellungen von Kausalität entledigen und stattdessen vermehrt auf Korrelationen verlassen: Man wird oft nicht mehr wissen warum, sondern nur was", meint dazu Viktor Mayer-Schönberger, Professor am Oxford Internet Institute,im Buch "Big Data: Die Revolution, die unser Leben verändern wird".
Dieser Trend verändere die Art, wie wir Entscheidungen treffen und die Wirklichkeit verstehen, tiefgreifend. Was die Erfindung des Fernrohres für das Verständnis des Kosmos und die Erfindung des Mikroskops für die Entdeckung der Mikroben brachte, könnten Datensammlungs- und Datenanalyse-Werkzeuge in großem Stil für ein Verständnis der Welt leisten, das wir heute erst erahnen, so Mayer-Schönberger.
Forscher verleihen Daten Sinn
Laut Ulrike Felt, Wissenschafts- und Technikforscherin an der Universität Wien, ermöglichen Big-Data-Analysen zwar eine neue Sicht auf die Welt, gleichzeitig weist sie aber darauf hin, dass Informationszugewinn nicht so einfach Hand in Hand mit Wissenszugewinn geht. "Wir werden auch in Zukunft für die Daten sprechen müssen, sie interpretieren und ihnen Sinn verleihen", so Felt kürzlich in univie – dem Alumni-Magazin der Universität Wien.
Für Stefan Strauß, wissenschaftlicher Mitarbeiter am Institut für Technikfolgen-Abschätzung (ITA) an der Österreichischen Akademie der Wissenschaften (ÖAW), scheint Big Data "eine Art Mythos von kausalen Korrelationen anzuhaften, der Unterschiede zwischen Korrelation und Kausalität vernachlässigt. Aufgezeigte Zusammenhänge beruhen meist auf Wahrscheinlichkeiten, sind längst nicht kausal und müssen keineswegs der Realität entsprechen", so Strauß in einem Gastkommentar für APA-Science.
"Garbage in, garbage out"
Köhler wiederum verweist in diesem Zusammenhang auf die neuen Möglichkeiten, Daten zu verschneiden, um neue Zusammenhänge zu finden und die Vorteile einer größeren Stichprobe durch Big Data. Das ändere aber nichts an den grundsätzlichen Anforderungen an die Qualität der Daten und die Verwendung der richtigen Methode für die Wissensextraktion. "Garbage in, garbage out. Wenn in den Daten keine Informationen enthalten sind, wird man daraus auch keine neuen Erkenntnisse gewinnen", so Köhler.
Die Herausforderung liege ganz klar darin, aus den erzeugten Daten Verständnis zu erzeugen, ist auch Dellago überzeugt. Verantwortlich dafür sei weniger die Heterogenität der Daten, sondern eher ihre schiere Menge. Eine molekulardynamische Simulation einer Flüssigkeit liefere beispielweise die räumlichen Positionen aller Atome im System und ihre Veränderung im Lauf der Zeit.
Nun könne man diese atomaren Bewegungen filmen und sich anschauen, aber im Allgemeinen gewinne man damit noch keine tollen Einsichten. "Das Ziel ist es ja, jene physikalischen Größen zu isolieren, die wichtig sind und die man nutzen kann, um vereinfachte Modelle und Theorien von den untersuchten Prozessen zu konstruieren, denn erst damit erzeugt man physikalisches Wissen und Verständnis", so Dellago: "Letztlich will man kausale Zusammenhänge erkennen und nicht Korrelationen feststellen. Man muss da im Umgang mit Daten sehr vorsichtig und kritisch sein."
Automatische Analysemethoden
Mit Big Data könnten einerseits Hypothesen und Modelle getestet und dann verworfen oder verfeinert werden. Andererseits lassen sich aus den Datenmengen automatisch Modelle generieren und gleichzeitig testen.
"Dieser zweite Zugang, in dem man Methoden des Machine Learning nutzt, wird im Bereich von Big Data eine zunehmend wichtige Rolle spielen. Man nutzt dabei den Computer, um die Nadel im Datenhaufen zu suchen und verborgene Gesetzmäßigkeiten aufzuspüren", erklärte der Physiker. Er ist überzeugt, dass es ohne solche automatischen Analysemethoden nicht gelingen wird, die weiter stark wachsenden Datenmengen zu bewältigen.
Von Stefan Thaler / APA-Science