Data Science: Tüfteln im Team
Kein Beruf der Zukunft, sondern einer, der längst ausgeübt wird: Geht man nach einschlägigen Vorträgen und Konferenzen, dann gibt es den Beruf des Data Scientists schon, meint FH-Prof. Alexander Mense, Leiter des Instituts für Information Engineering & Security und Leiter des Master-Studiengangs Informationsmanagement und Computersicherheit an der FH Technikum Wien. Mittlerweile finde man ihn auch als Berufsbezeichnung von Vortragenden, so seine Beobachtung. Und auch Jobbörsen spucken den Suchbegriff aus.
Ein Data Scientist ist laut Mense weniger tatsächlicher Wissenschafter als vielmehr Experte für Datenanalyse. Er erstellt Modelle, betreibt Datenanalyse, kümmert sich - in technischer Hinsicht - um Datenaggregation und -bereitstellung in Form von Anpassung, Konvertierung, Filterung, analysiert die Daten und visualisiert seine Erkenntnisse in einer für die Zielgruppe geeigneten Form, zum Beispiel als Dashboard.
Neugierde an Zusammenhängen
Nicht jeder Data Scientist muss ein Forscher sein, und auch nicht jeder Forscher eine Zusatzausbildung zum Data Scientist absolvieren, beruhigt Mense: "Genau so wenig wie jeder Webentwickler auch Grafiker sein muss und umgekehrt - aber es kann sich ergänzen." Notwendig sei ein Gespür für Zusammenhänge, statistische Auswertungen, Aufbereitung und Präsentation von Ergebnissen, Neugierde an Zusammenhängen und natürlich Kreativität, denn neue Erkenntnisse entstünden oft durch unorthodoxe neue Denkansätze und Modelle.
Das Ausbildungsangebot für Data Scientists sei ausbaufähig, meint Mense: "Die technischen Grundlagen sind im Informatikstudium bereits gut abgebildet. Aber es wären sicher zusätzliche Schwerpunkte notwendig, die in der Regel nicht in der benötigten Tiefe vorkommen: vor allem Mathematik, Statistik, spezielle Datenanalysemethoden wie Mustererkennung, Sprachanalyse, Data- und Textmining, maschinelles Lernen oder Semantik und Visualisierung". Seitens der Wirtschaft gebe es den Wunsch, Ergänzungsausbildungen anzubieten. Die FH habe bereits mit entsprechenden Lehrveranstaltungen reagiert, so Mense.
Erstmals maßgeschneidertes Studium in Linz
Einen bedeutenden Schritt weiter ist man in Linz: An der Johannes Kepler University (JKU) startet ab kommendem Wintersemester (2014/15) das völlig neue Studium Wirtschaftsinformatik mit Studienschwerpunkt Business Intelligence & Data Science. Der Studienplan wurde erst vor wenigen Tagen einstimmig von der Studienkommission beschlossen, erklärt Univ.-Prof. Michael Schrefl, Leiter des Instituts für Wirtschaftsinformatik - Data & Knowledge Engineering und freut sich über das "seines Wissens nach einzigartige Angebot in Österreich".
Entstanden sei es vor allem auf Grund von Wünschen aus der Industrie. Denn mit industriellen Partnern gab es in den vergangenen Jahren bereits anwendungsorientierte Forschungsprojekte in diesem Bereich. Die Verankerung im Wirtschaftsinformatikstudium sei "vor allem deswegen sinnvoll, da es ja letztlich darum geht, geschäftsrelevante Erkenntnisse aus großen Datenmengen zu gewinnen und diese als Grundlage für strategische und operative Unternehmensentscheidungen heranzuziehen, bzw. um Produktions- und Geschäftsprozesse zu steuern und zu verbessern. Unsere Absolventen sollen eine entsprechende interdisziplinäre Kompetenz aus Wirtschaft, Informatik und Statistik mitbringen", erklärt der Fachmann.
So stehen semantische Technologien, Data Warehousing und Data Mining, Möglichkeiten und Verfahren der Informationsextraktion aus Text-, Multimedia- und Web-Daten, Informationsvisualisierung und visuelle Analyse sowie Statistik im Curriculum.
Ein ähnliches Masterstudium gibt es Schrefl zufolge bereits an einer Partneruniversität der JKU, der University of South Australia (UnisA).
Uni Wien: Scientific Computing
"Alles Wesentliche" für den Data Scientist vermittelt auch das breit angelegte Scientific Computing-Studium an der Universität Wien. Von mathematischen und statistischen Grundlagen, Algorithmen, Kenntnissen über das Suchen von Daten bis zum High Performance Computing, also entsprechend leistungsfähigen Computersystemen reicht der Lehrplan, erläutert Univ.-Prof. Siegfried Benkner, Leiter der Forschungsgruppe Scientific Computing. Auch Visualisierung steht am Lehrplan.
Der Schwerpunkt des Studiums liege zwar auf Computersimulationen, aber auch da bestünde ein starker Zusammenhang mit Data Science: viele Computersimulationen, wie zum Beispiel in der Wettervorhersage oder in den Biowissenschaften, benötigen große Datenmengen, ehe überhaupt etwas berechnet oder dargestellt werden kann.
Als eine unbedingt notwendige Kernkompetenz erachtet er die Fähigkeit, sich mit anderen Wissensgebieten auseinanderzusetzen. "Gerade in diesem irrsinnig schnelllebigen Gebiet gibt es ständig Neues, die Studierenden müssen lernen, sich rasch neue Dinge anzueignen". Das derzeit große Interesse an Big Data und Data Science spiegelt sich auch in der Lehre wider: Demnächst werde es eine Professur für Data Mining an der Fakultät für Informatik geben, sie sei "in Besetzung und bereits relativ weit fortgeschritten", so der Professor. Darüber hinaus gebe es auch Bestrebungen, in Richtung Data Science ein interdisziplinäres Studium einzurichten.
Teamwork gefragt
Dass eine Person allein das vielfältige Anforderungsprofil eines Data Scientist erfülle, werde in der Praxis selten vorkommen, meint auch Benkner. Um Data Science betreiben zu können, reichen Informatikkenntnisse nicht aus: "Der Umgang mit Datenbanken, Datenintegration, aber auch mit Hardware, Datenmanagement, der Verwaltung großer Datenmengen ist das eine. Das zweite ist, die Daten richtig interpretieren zu können und zu wissen, wonach man überhaupt sucht. Dafür muss man ein Problem - beispielsweise aus der Medizin - auch verstehen."
Darüber hinaus seien oft Kenntnisse in Statistik, statistischer Analyse bzw. Mathematikwissen erforderlich. Aus diesem Grund werde meist interdisziplinär gearbeitet. "Wenn man Informatiker ist, sollte man zusätzlich ein bisschen Ahnung von anderen Wissenschaften haben", rät Benkner. Auch Mense betont die Notwendigkeit, sich entsprechendes zusätzliches Fachwissen anzueignen.
Noch ganz am Anfang
Der riesige Pool an Daten in vielen Wissenschaftsbereichen, etwa in der Medizin oder in der Biologie, berge enormes Potenzial, "wenn er denn sinnvoll verwendet werden kann", so Benkner. Gerade in der Biomedizin würden derzeit viele, viele Daten angehäuft, die aufgrund unterschiedlicher Darstellung jedoch nicht zu integrieren seien. "Da stehen wir noch ganz am Anfang", gibt er zu bedenken. Neben der Schwierigkeit, diese Daten zu verknüpfen, existieren auch komplexe rechtlichen Probleme. Jedes Land hat - zum Beispiel in punkto personenbezogene Daten - eigene Bestimmungen und Gesetze, nicht einmal innerhalb der EU gebe es einheitliche Richtlinien. Benkner, der in einem europäischen Datenintegrationsprojekt im medizinischen Bereich involviert ist, erlebt dies hautnah: "Man könnte technisch wesentlich mehr machen, als man darf."
Service: Das macht ein Data Scientist: Brendan Tierney - Oralytics Blog, 2012, http://www.oralytics.com/2012/06/data-science-is-multidisciplinary.html
Von Sylvia Maier-Kubala / APA-Science