"Big Data - vom Mythos zur Methode?"
Big Data ist im Trend. Verlockend ist die schöne neue Welt der schier allumfassenden Analyse noch verborgener Datenschätze für neue, exklusive Erkenntnisgewinne. Nach Moore's Law verdoppelt sich das globale Datenvolumen rund alle zwei Jahre. Insofern scheint wachsender Bedarf nach neuen Analysemethoden plausibel. In welchem Ausmaß, in welchen Kontexten und wofür ist dagegen relativ offen.
Zynisch betrachtet ließe sich fast ein evolutionärer Rückschritt verorten, war doch jahrzehntelang von der Informations- bis Wissensgesellschaft die Rede. Ist es nun doch nur eine Datengesellschaft mit enormem Analysebedarf - nicht im psychologischen, sondern im technischen Sinne? Was vor einigen Jahren u.a. mit Cloud Computing begonnen wurde, scheint mit Big Data irgendwie paradigmatisch fortgeführt, wobei die "Wolke" an Volumen gewinnt. Inwieweit daraus eine Blase wird, ist noch ungewiss und lässt sich wie die Zukunft nicht ohne weiteres berechnen.
Was ist eigentlich so groß an Big Data? So vielversprechend der Begriff konnotiert ist, so vieldeutig bis unscharf seine Verwendung. Berechenbarkeit ist jedenfalls ein wichtiger Aspekt von Big Data - es geht um Datenanalysen im großen Stil (mehre Petabytes – 1 PB sind ca. 1 Million Gigabyte). Die Nadel im Heuhaufen ist dabei längst passé – was ist schon eine Nadel, wenn der ganze Haufen ein Vermögen in sich birgt? Derart wird das enorme Potenzial von Big Data jüngst gefeiert. Im Unternehmensbereich schon länger bekannt z.B. als Business Intelligence, scheint Big Data nun massentauglich zu werden. Wie viele Buzzwords basiert es auf geschicktem IT-Marketing und ist nicht zuletzt auch ein Geschäftsmodell.
Die Gartner Group definiert Big Data mit "high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making". Big Data steht so für ein neues Paradigma das mit seinen drei Hauptmerkmalen (Volume, Variety, Velocity - Größe, Vielfalt, Geschwindigkeit) schnelle, effektive neue Formen der Informationsverarbeitung fordert, um Entscheidungsfindung zu verbessern. In Unternehmen zielt das u.a. auf die IT-gesteuerte Optimierung von Geschäftsprozessen ab (z.B. in Warenwirtschaft, Logistik, Marketing, etc.). Heute scheinen die potenziellen Anwendungsfelder in Wissenschaft, Wirtschaft und Verwaltung nahezu unbegrenzt. Tatsächlich klingt auch abseits Social Media basierter Markt- und Trendprognosen einiges reizvoll: Z.B. Frühwarnsysteme für Klima- und Umweltschutz, intelligente Verkehrssysteme, bedarfsgerechte Energieversorgung, Aufdecken illegaler Finanztransaktionen, Krankheitsprognosen, präzisere medizinische Diagnoseverfahren durch Erfassen komplexer Zusammenhänge unterschiedlicher Symptome, etc. Big Data hat also zweifelsohne Potenzial.
Allerdings lassen sich auch mit größtmöglicher Datenmenge "nur" Wahrscheinlichkeiten berechnen. Mit anderen Worten: Die Zukunft bleibt unberechenbar. Dieser Umstand scheint im Daten-Enthusiasmus beizeiten unterzugehen. Zu reizvoll ist die Vision von Echtzeitanalysen großer Datenbestände bis hin zu exakten Zukunftsprognosen. Komplexität nimmt mit Big Data aber eher zu als ab. Zwar kann es eine Abstraktionsebene einführen, jedoch zulasten der Überprüfbarkeit komplexer Zusammenhänge und etwaiger Fehler. Fehlentscheidungen aufgrund falscher Analysen oder Interpretationen sind so kaum revidierbar.
Big Data scheint eine Art Mythos von kausalen Korrelationen anzuhaften, der Unterschiede zwischen Korrelation und Kausalität vernachlässigt. Aufgezeigte Zusammenhänge beruhen meist auf Wahrscheinlichkeiten, sind längst nicht kausal und müssen keineswegs der Realität entsprechen. Werden diese unreflektiert als kausale Fakten angenommen, können Realitäten verzerrt werden. Das kann fatale Folgen haben. Korrelationen wie jene zwischen Bier- und Windelkauf bei Männern wie angeblich von der US-Kette Walmart errechnet, muten absurd, aber harmlos an. Die jüngsten Massenüberwachsskandale rund um PRISM dagegen weniger und wie kürzlich bekannt wurde, werden die von der NSA gesammelten Metadaten u.a. für den Drohneneinsatz herangezogen. Drastische Fälle wie Tötungen von Zivilisten durch Drohnenangriffe aufgrund fehlerhafter bzw. falsch interpretierter Daten machen klar, dass Big Data nicht nur innovative Analyseformen, sondern auch massive Gefahren in sich birgt.
Weniger drastisch, trotzdem problematisch ist das stark an Hollywood-Filme wie "Minority Report" erinnernde sog. "Predictive Policing": Kriminalität soll statistisch vorausberechnet und präventiv bekämpft werden. Derartige Systeme sind in den USA bereits im Einsatz (z.B. IBM's Blue C.R.U.S.H. - criminal reduction using statistical history). Wird der Faktor Mensch zum Berechnungsgegenstand, bringt das erhebliche ethische Folgen, u.a. für den Schutz der Privatsphäre, bis zum drohenden Autonomieverlust im großen Stil. Mit wachsender Datenmenge wird informationelle Selbstbestimmung weiter strapaziert, denn große Datenmengen begünstigen Techniken zur De-Anonymisierung, und die Grenzen zwischen personen- und nicht personen-bezogenen Daten verschwimmen. Werden mit Big Data Entscheidungen quasi- oder voll-automatisiert, begünstigt das zudem neue Technik-Abhängigkeiten, die tief in die Autonomie des Einzelnen und letztlich der Gesellschaft eingreifen.
Die Frage drängt sich auf, wie weit Big Data gehen soll. Der Grat zwischen sinnvollem Technikeinsatz und automatisierter Technikgläubigkeit ist naturgemäß schmal. Die Gefahren sind nicht unbedingt neu, werden jedoch durch zunehmenden Technikeinsatz deutlich verschärft. Im schlimmsten Fall bleiben Fehler unbemerkt und Realität wird mit und zugunsten automatisierter Wahrscheinlichkeitsberechnung "normalisiert". Um das und noch größere Datenfriedhöfe zu vermeiden, scheint angemessen, Ernst Friedrich Schumachers "small is beautiful" mit Blick fürs Wesentliche in Erinnerung zu rufen.