Big Data – Anspruch und Ideologie

Klaus Wiegerling zu Voraussetzungen, Chancen, Grenzen und Gefahren der expandierenden Möglichkeit, riesige Datenmengen zu sammeln und zu analysieren.

Chris Anderson, der ehemalige Chefredakteur des Technologiemagazins Wired, schrieb 2008 am Ende seines Aufsatzes  Das Ende der Theorie – Die Datenschwemme macht wissenschaftliche Methoden obsolet: „Korrelationen machen Kausalitäten überflüssig, und die Wissenschaft kann auch ohne kohärente Modelle, ohne große vereinheitlichenden Theorien Fortschritte machen. Anders ausgedrückt: Sie braucht keine mechanistischen Erklärungen mehr“. Ohne Andersons ‚Kurzschlüsse‘ im Detail zu kommentieren, sei zugestanden, dass tatsächlich unter dem Schlagwort Big Data bestehende Tendenzen in der Wissenschaft verschärft werden und ein ahistorisches und nicht an Ursachenerkenntnis orientiertes Denken gefördert wird.

Korrelationen machen Kausalitäten überflüssig.

Mit der Technisierung der Wissenschaft findet eine Ideologisierung statt, die sich darin artikuliert, dass wissenschaftliche Wahrheitsansprüche durch Kategorien wie Nützlichkeit oder Effizienz ersetzt und die Aufgabe der Kritik dem Feuilleton überlassen werden. Kritik wird nur zugelassen im Sinne einer Optimierung von Forschungslinien. Trotz der faktischen Annäherung weisen technisches und wissenschaftliches Handeln unterschiedliche Orientierungen auf. Während Wissenschaft Wahrheitsansprüche erhebt und Wahrheitsorientierung als Regulativ für das wissenschaftliche Handeln dient, funktioniert Technik auch dann, wenn mit überholten bzw. nur eigeschränkt geltenden Theorien gearbeitet wird. Sie ist auf Effizienz und Effektivität gerichtet und untersteht ökonomischen und sozialen Rahmenbedingungen. Auch wenn die Abstände zwischen Wissenschaft und Technik geringer zu werden und, wie im Falle der synthetischen Biologie, ganz zu verschwinden scheinen, so bleibt eine Grenze, die in der genannten Wahrheitsorientierung liegt.

Schlagworte wie Big Data, mit denen neueste informatische Entwicklungen benannt werden, scheinen immer schneller zu wechseln, was nicht zuletzt darin seine Ursache hat, dass technische Entwicklungen oft schneller als die Begriffsbildung von statten gehen. Technikfolgenabschätzung (TA) hat es häufig mit einem vagen Gegenstandsbereich zu tun, da technische Entwicklungen zwar in den Potentialen der bestehenden Technik angelegt sind, sich aber in ihren Zielen aufgrund veränderter gesellschaftlicher, ökonomischer, aber auch technischer  Bedingungen verschieben.

TA kann nur in der Weise einer Hermeneutik des Zukünftigen betrieben werden. Es muss auf eine mögliche Zukunft vorgegriffen und damit eine Selbstverständigung betrieben werden, um steuernd Technik gestalten zu können. Aber auch, wenn wir bei der Fokussierung technischer Entwicklungen eine Begriffsnot konstatieren, können wir nicht auf ein Mindestmaß an begrifflicher Präzision verzichten, da wir sonst den Anspruch, Wissenschaft zu betreiben, aufgeben würden.

Unterbietung der von der Wissensgesellschaft überwunden geglaubten Informationsgesellschaft durch die Datengesellschaft

Ein Schlüsselproblem des aktuellen Big-Data-Diskurses ist die Unterbietung der von der Wissensgesellschaft überwunden geglaubten Informationsgesellschaft durch die Datengesellschaft. Während die Wissensgesellschaft als eine der Hierarchisierung und Anwendungsorientierung beschrieben wurde und die Informationsgesellschaft als eine des Sammelns von Informationen, geht die Datengesellschaft davon aus, dass es sich bei Daten um einen Rohstoff handelt, aus dem ‚Welten‘ beliebig zusammengebaut werden könne.

Der wesentliche Fortschritt von Big-Data-Technologien liegt darin, quasi in Echtzeit große Datenflüsse analysieren zu können. Es werden Korrelationen erkannt und deren Analysat unmittelbar zu Steuerungsprozessen genutzt. Aber was heißt nun Big Data? Wir müssen trotz erwähnter Begriffsnot zumindest eine Bestimmung ex negativo herstellen, also sagen können, was definitiv nichts mit Big Data zu schaffen hat. Tatsächlich ist der gegenwärtige Begriffsgebrauch selbst in der Wissenschaft so vage, dass er als Verständigungsgrundlage kaum zu gebrauchen ist. ‚Big Data‘ wird entweder als Integrationsbegriff oder als Reflexionsbegriff gebraucht.

Was heißt nun Big Data?

Als Integrationsbegriff, insofern er es ermöglicht, Probleme fortgeschrittener informatischer Konfigurationen höherstufig unter dem Aspekt der Analyse großer Datenmengen, die nicht mehr mit herkömmlichen Verarbeitungsstrategien zu bewältigen sind, zu diskutieren. Dabei soll der metaphorische Gebrauch des Begriffs dessen integrative Leistung erhöhen. Als Reflexionsbegriff  gebrauchen wir den Begriff, wenn wir ein Verhältnis zu bestimmen versuchen, das wir als Subjekt zu einem Objektbereich einnehmen. Dabei sind wir nicht objektreferierend, sondern fassen eine Relation ins Auge.

Einige Besonderheiten des aktuellen Big-Data-Diskurses lassen sich nur external, also nicht informatisch begründen. Es sind entsprechend auch die Rahmungen des Diskurses in den Blick zu nehmen und zu fragen, wer, wann, wo und zu welchem Zweck große Datenmengen analysiert und das Analysat zur Steuerung von Prozessen nutzt. Es müssen neben technischen Aspekten auch ökonomische und soziale Rahmungen fokussiert und kritisch analysiert werden. Eine sinnvolle Rede von Big Data impliziert das Übersteigen der Arbeit mit relationalen Datenbanken. Weiterhin erfordert sie die Präferenz von Korrelationen gegenüber Kausalverhältnissen sowie gegenüber diachronischen historischen Verhältnissen.

Die viel zitierten ‚V‘-Charakteristika: volume, value, velocity, variety, validity, und veracity kommen über einen zweifelhaften Schlagwortcharakter nicht hinaus und sind bei näherer Betrachtung zum Teil irreführend. Zwar treffen sie auf Big-Data-Anwendungen zu, aber ebenso auf andere informatische Anwendungen. Oft werden damit aber Ansprüche formuliert, die suggerieren, dass bei herkömmlichen informatischen Anwendungen ‚velocity‘, ‚validity‘ etc. eine geringere Rolle spielten.

Big-Data-Anwendungen sind Aufstufungen auf bestehende Anwendungen, ohne die sie weder denkbar noch verstehbar sind. Varietät und Validität treffen natürlich auch auf Daten zu, die in relationalen Datenbanken verarbeitet werden. Wahrhaftigkeit (veracity) ist überhaupt kein Begriff, der zur Beschreibung einer technischen Konfiguration taugt, sondern ein Anthropomorphismus. Eine Charakterisierung allerdings gibt tatsächlich einen Hinweis auf die Besonderheit von Big-Data-Technologien, nämlich ‚velocity‘. Zwar ist die Steigerung der Prozessgeschwindigkeit und Speicherkapazität ein allgemeines Charakteristikum der Entwicklung informatischer Systeme, im Falle von Big Data geht es aber darum, dass sich die Datenverarbeitung an die Erfassung der zufließenden Datenmassen annähert.

Big-Data-Anwendungen sind Aufstufungen auf bestehende Anwendungen.

Von zentraler Bedeutung für Big-Data-Technologien sind Echtzeitanalysen großer fließender Datenmengen sowie die Steuerung informatischer Prozesse in Echtzeit. Entscheidend sind also nicht allein die großen ‚Datenberge‘, die mittels ‚Data-Mining‘ bewältigt werden sollen, sondern v.a. die Mustererkennung im Datenstrom, wobei sogenannte Hash-Algorithmen (Reduktionsverfahren, mit deren Hilfe man große Datenmengen quasi auf einen Fingerabdruck bringt), Verfahren des maschinellen Lernens und ‚autonome‘ Algorithmen (bei denen es um Autoadaptionen der eigenen Programmstruktur geht) eine wichtige Rolle spielen. Maschinelles Lernen ist nach Sebastian Harrach ein Werkzeug zur Welterzeugung, das nicht ein Problem löst, sondern uns bestimmte Weltrelationen erst sehen lässt.

Was Ähnlichkeit auszeichnet, sind nicht nur logische Kriterien, sondern auch kulturelle Zuschreibungen, die nicht die Stabilität logischer Relationen haben.

Als ein Problem erweist sich bei der Mustererkennung, was eigentlich Ähnlichkeit bedeutet. Zunächst geht es um typologisch zu fassende Redundanzen. Ähnlichkeit lässt sich nur fassen, wenn der Erfassungsrahmen explizit ist. Der Komponist Helmut Lachenmann stellte in einem Vortrag über seine Kompositionsweise Variationen des Kinderliedes ‚Hänschen klein‘ vor, die eine gewisse Ähnlichkeit mit der ursprünglichen Melodie und ihrem Rhythmus hatten, bis er schließlich seine eigene Variation vorspielte, die für ein musikalisch ungeschultes Ohr keine Ähnlichkeit mehr erkennen ließ. Besteht Ähnlichkeit zwischen zwei Musikstücken wegen eines gemeinsamen Taktes, oder weil eine Notenfolge, eine Tonart oder Pausenwerte übereinstimmen? Wann und wie lange können wir von Ähnlichkeit sprechen?

Was Ähnlichkeit auszeichnet, sind nicht nur logische Kriterien, sondern auch kulturelle Zuschreibungen, die nicht die Stabilität logischer Relationen haben. Es gibt Kulturen, in denen Ähnlichkeiten zwischen Naturabläufen und Sozialbeziehungen gesehen werden, die wir nicht sehen. Ähnlichkeit ist eine vage und perspektivische Zuschreibung, die von einem System erkannt werden muss, wenn es angemessen agieren soll. Typisch sind Verhältnisse nur innerhalb einer Rahmung. Ähnlichkeiten als perspektivische Zuschreibungen sind kulturrelativ und müssen für das System explizit gemacht werden. Ein ‚autonomer‘ Algorithmus ist insofern Teil einer kulturellen Fügung. Bei Big-Data-Anwendungen geht es ja nicht um einen formalwissenschaftlichen  Gebrauch, sondern darum, Natur- und Lebenszusammenhänge erfassen und steuern zu können.

Hoffnungen in den Wissenschaften

Es ist nun keineswegs nur die Ökonomie, sondern auch die Wissenschaft, die mit Big-Data-Technologien große Hoffnungen verbindet. Mayer-Schönberger und Cuckier sehen drei Neuerungen im Gebrauch von Big-Data-Algorithmen:

1) Präzisere Ergebnisse durch die Analyse großer Datenmassen, wobei die Datenqualität keine Rolle mehr spielt.
Dies ist insofern richtig als bei großen Datenmassen unpräzise Daten quasi ‚herausgerechnet‘ werden können. Es sei hier aber an einen riesigen Datensatz erinnert, der 2011 am CERN erhoben und analysiert wurde und tatsächlich zum Versuch führte, die Relativitätstheorie zu widerlegen. Es stellte sich aber peinlicherweise heraus, dass er aufgrund eines defekten Glasfaserkabels zustande gekommen ist. Bedingung für die Vernachlässigung der Datenqualität ist, dass die Qualität des Großteils der Daten hoch ist. Weiterhin spielt bei der Vernachlässigung der Datenqualität die Anwendungssphäre eine Rolle. Es mag sein, dass demnächst Wahlprognosen aufgrund der Analyse von Einträgen in sozialen Netzwerken eine ähnliche Genauigkeit erlangen wie die aus herkömmlichen Umfragemethoden gewonnenen. Es ist aber Skepsis angebracht, wenn es um medizinische Anwendungen geht. Zwar kann eine größere Zahl von Vitaldatenmessungen zu besseren Ergebnissen führen, Bedingung dafür ist aber, dass die Datenerfassung im Großen und Ganzen präzise ist.

2) Datenkorrelation geht vor Ursachenforschung.
Damit ist auch blankem Unsinn Tür und Tor geöffnet. Man konnte über längere Zeit eine Parallele des Rückgangs der Geburtenrate und der Population der Klapperstörche feststellen. Ganz ohne Ursachenforschung scheint es also weder innerhalb noch außerhalb der Wissenschaft zu gehen.

3) Die Datafizierung im Sinne der Skalier- und Kalkulierbarkeit aller Lebens- und Naturartikulationen.
Es ist sowohl innerhalb als auch außerhalb der Wissenschaft daran zu zweifeln, ob es die Möglichkeit einer totalen Datafizierung überhaupt gibt. Die Idee birgt das alte Problem der Verwechslung von Modell und Wirklichkeit. Jedes erfasste Datum ist eine Artikulation, der Desartikulationen korrespondieren. Jede Messung erfolgt aufgrund einer Bewertung. Etwas wird als relevant bestimmt, was gemessen wird, anderes dagegen als irrelevant, was nicht gemessen wird.

Ist alles in „Daten“ zu fassen?

Vertiefen wir das Problem der Datafizierung an einem Begriffsproblem. Der aktuelle Big Data-Diskurs krankt an einem laxen Gebrauch der Begriffe Datum, Information und Wissen. Es verwundert, dass die Diskussion über diese Trias weitgehend ausgeblendet bleibt. In der Informationswissenschaft hat sich ein Begriffsgebrauch durchgesetzt, der Daten nulldimensional als ‚unbewertete‘ Gegebenheiten versteht und Informationen eindimensional als erkannte und bewertete Gegebenheiten. Wissen dagegen ist mehrdimensional und resultiert aus einer Zuordnung und Hierarchisierung von Informationen. Was Wissen auszeichnet ist die Anwendungsorientierung und Datenselektion. Bestimmte Informationen werden als höherwertig, andere als minderwertig oder bedeutungslos angesehen.

Der positivistisch dominierte Big Data-Diskurs suggeriert, dass wir es mit einem Rohstoff zu tun hätten, der sich einer Bewertung entzöge. Daten sind aber keine Gegebenheiten im Sinne der antiken ‚physis‘, die sich uns unabweisbar aufdrängt, sondern Ergebnisse von Erfassungs-  und Sammelprozessen, von Artikulationen und Desartikulationen. Die Vorstellung einer Semantikfreiheit von Daten ist irreführend und betrifft nur die Haltung des Subjektes zum Datum. Erst wenn man nach einem Datum sucht, erlangt es den Status einer Information. Daten sind aber keine Rohstoffe, die beliebig verwendet werden können, und stehen in Bewandtniszusammenhängen, aus denen sie ihre Bedeutung erlangen.

Daten kommen nicht von selbst zustande.

Nun können Vitaldaten sowohl in medizinischer wie in ökonomischer, sowohl in allgemeiner als auch in individueller Absicht genutzt werden. Es kann um die organisatorische Gestaltung des Gesundheitswesens gehen oder um hygienische Präventionsmaßnahmen. Wenn Daten im Unterschied zu bereits bewerteten Informationen oder zu handlungsrelevantem Wissen in unterschiedliche Kontexte gesetzt werden, so bedeutet dies nicht, dass sie denselben ontologischen Status wie die antike physis hätten. Daten kommen nicht von selbst zustande, drängen sich uns nicht auf und wir können uns ihnen entziehen. Sie sind von Menschen gemacht, also Ergebnis eines technisch-praktischen Zugriffs auf die Welt. Sie markieren ein Verhältnis von Subjekt und intendiertem Objekt und kommen aufgrund ausdrücklicher Relevanzzuschreibungen zustande. Bei jeder Messung ist der Wert der Messung durch die Intention festgelegt, die mit ihr verfolgt wird.

Informatische Probleme bei der Bewältigung großer Datenmengen rühren nicht zuletzt daher, dass Daten etwas Präformiertes sind. Man kann sie nicht beliebig bearbeiten, so wie man aus einem Holzstamm Sitzmöbel und Spielzeug machen kann. Daten sind uns also nie ‚rein‘ gegeben. Ein Datum steht nicht für sich allein, sondern verweist auf Mitdaten und die gemeinsame Rahmung.

Positivistische Ideologie

Wie in vielen gegenwärtig populären Forschungslinien artikuliert sich auch bei Big Data eine positivistische Ideologie. Die Überwindung des historisch-teleologischen Denkens erhält durch Big-Data-Technologien einen neuen Schub. Wissenschaft hält sich nicht mehr bei der Erkenntnis von Gründen auf, sondern geht direkt die Lösung von Problemen an. Das heißt etwa, dass mein physiologischer Zustand bei einer Erkrankung wieder ins Gleichgewicht gebracht, nicht aber, dass nach Krankheitsursachen gesucht wird. Natürlich ist dies im medizinischen Alltag verbreitet, zumal Ursachenforschung aufwendig und nicht immer erfolgreich ist. Wenn in der Wissenschaft aber Ursachenforschung der technischen Lösung von Problemen untergeordnet wird, ist Wissenschaft nicht mehr das, was wir bisher darunter verstanden.

Es steht außer Frage, dass es viele hilfreiche Anwendungen von Big-Data-Technologien gibt. Es gibt aber Felder, in denen deren Anwendung problematisch sein kann. So birgt eine intrinsische Bewertung medizinischer Vitaldaten Gefahren. Gesundheit ist nicht unabhängig von wandelbaren Lebensformen und gesellschaftlichen Leistungserwartungen zu bestimmen. So müssen Korrelationen auf ihre Plausibilität hin überprüft und bewertet werden. Daten können Bewertungen verbessern, nicht aber ersetzen.

Auch ein vermeintlich autonom agierendes System trifft nicht selbst Entscheidungen, sondern rechnet. Es kennt Zu-, Unter- und Überordnung  sowie Gleichgültigkeit. Es trifft aber keine Entscheidung, da es keine Folgenverantwortlichkeit kennt, keine eigenen Intentionen verfolgt und sich im starken kantischen Sinne auch keine Gesetze gibt. Wirkung auf individuelles und gesellschaftliches Handeln und Verhalten zeitigen selbständig vorgenommene Datenkorrelationen, wenn das Individuelle, über das es ja keine Wissenschaft gibt, und das Ereignishafte aus dem Auge verloren werden. Es kann sogar eine Entethisierung stattfinden, wenn vorgegaukelt wird, dass Ereignisse mit Hilfe von Big-Data-Technologien berechenbar, Wirklichkeit die Summe ihrer Daten und Fehlprognosen allein auf einen Mangel an Daten zurückzuführen seien. Es wird uns aber nur eingeschränkt gelingen, die Zukunft berechnend zu meistern, da wir sie nur bewertend ergreifen können, indem wir Auffassungspräferenzen setzen und Desartikulationen vornehmen.

Wo nur gerechnet wird, wird weder entschieden noch verantwortet.

Es ist kein Problem der Zukunft kalkulierend zu begegnen. Das tun Wissenschaft und Technik immer schon. Problematisch ist, wenn Entscheidungen Systemen überantwortet werden, die keine Folgenverantwortlichkeit übernehmen und keine Zwecke setzen. Letztere werden ausgehandelt, begründet und kritisiert. Und genau hier liegt die Sphäre des Ethisch-Normativen. Technische Normierungen sind etwas anderes als moralische. Wo nur gerechnet wird, wird weder entschieden noch verantwortet.

(Photo: Tomizak; Pixelio.de)

Print Friendly, PDF & Email