Im Zeitalter von Big Data sammeln Unternehmen große Mengen an Informationen schneller als je zuvor. Da sich Unternehmen jedoch immer stärker auf datengestützte Erkenntnisse verlassen, stellt sich eine kritische Frage: Können wir den Ergebnissen vertrauen, wenn unsere Daten nicht wirklich repräsentativ sind? Im Folgenden untersuchen wir, ob die klassischen statistischen Annahmen, auf die sich fast jeder (wissentlich oder unwissentlich) verlässt, im Kontext moderner Datenquellen wie Web- oder Social Media-Daten noch gültig sind, und welche Auswirkungen dies für Entscheidungsträger hat.
In der klassischen Statistik ist das Konzept der „Repräsentativität“ grundlegend. Es bezieht sich darauf, wie gut eine Datenstichprobe die breitere Population widerspiegelt, die sie repräsentieren soll. Wenn ein Unternehmen beispielsweise die Verbraucherpräferenzen in Deutschland verstehen möchte, wird eine Zufallsstichprobe der deutschen Bevölkerung gezogen. Diese befragte Gruppe sollte die demografische Zusammensetzung des Landes widerspiegeln. Die Stichprobendaten werden analysiert und die Ergebnisse werden auf die Bevölkerung hochgerechnet. Dies wird gemeinhin als Inferenz bezeichnet (Deville & Särndal, 1992).
Abbildung 1: Grundlegende Einstellungen der Inferenzstatistik für Parameterschätzungen
Bei Big Data werden Stichproben jedoch oft passiv und ohne klare Struktur erhoben – man denke nur an Social Media-Posts oder Website-Zugangsdaten. Dieser Mangel an Klarheit darüber, wen die Daten tatsächlich repräsentieren, führt zu Unsicherheiten und potenziellen Verzerrungen. Es gibt keine allgemeingültige Vereinbarung darüber, was genau Daten „repräsentativ“ macht, was die Definition und Durchsetzung dieses Konzepts schwierig macht.
Herausforderungen bei der Datenerhebung und -analyse
Herkömmliche Umfragen sind aufgrund ihres kontrollierten Designs nach wie vor der Goldstandard, aber sie sind kostspielig und zeitintensiv. Im Gegensatz dazu bietet Big Data Geschwindigkeit, Volumen und Erschwinglichkeit – allerdings zu einem gewissen Preis:
Unbekannte Bevölkerungsgrenzen: Wir wissen oft nicht, wer in großen Datensätzen enthalten ist.
Selektionsverzerrungen: Bestimmte Gruppen werden mit größerer Wahrscheinlichkeit erfasst als andere. So dominieren beispielsweise jüngere Nutzer soziale Medienplattformen.
Doppelte Einträge und fehlender Kontext: Einzelne Personen können überrepräsentiert sein oder wichtige demografische Informationen fehlen.
Fallstudien zeigen diese Herausforderungen deutlich. Abbildung 2 zeigt die prozentualen Anteile der demografischen Kohorten, die ausgewählte soziale Medien in den USA im Jahr 2023 nutzen.
Abbildung 2: Nutzung sozialer Medien nach Alter in den USA, 2023 (Statista, 2024)
Es wird deutlich, dass TikTok überproportional von jüngeren Menschen genutzt wird, während sich auf LinkedIn hauptsächlich Erwachsene im arbeitsfähigen Alter wiederfinden. Obwohl diese Plattformen Daten über Millionen von Menschen zu einem Bruchteil der Kosten einer klassischen Umfrage bieten, spiegelt die befragte Gruppe nicht die Demografie des Landes wider. Die Auswirkungen dieser Probleme hängen von den spezifischen Zielen der Analyse ab. Wenn eine Organisation Bevölkerungsmerkmale analysieren will, können nicht-repräsentative Daten zu erheblichen Fehlern führen. Die Auswirkungen sind sogar noch ausgeprägter, wenn versucht wird, Merkmale zu analysieren, die von demografischen oder verhaltensbezogenen Untergruppen abhängen, wie etwa Präferenzen und Verbraucherentscheidungen (Rivers, 2007).
Statistische Lösungen
Es gibt zwar kein Patentrezept, aber mehrere Korrekturmethoden können dazu beitragen, Verzerrungen bei großen Datenmengen zu verringern:
Propensity Scoring: Diese Technik schätzt die Wahrscheinlichkeit, dass eine Person im Datensatz enthalten ist und passt die Unter- oder Überrepräsentation entsprechend an (Valliant & Dever, 2011).
Kalibrierung und Gewichtung: Bekannte Gesamtzahlen der Bevölkerung (z. B. Altersverteilung) werden zur Neugewichtung der Daten verwendet, um sie repräsentativer zu machen (Münnich et al., 2012).
Matching: Daten aus kontrollierten Erhebungen werden verwendet, um die „Lücken“ von Big-Data-Stichproben zu füllen (Kim & Fuller, 2004).
Imputation: Fehlende Daten werden anhand von Mustern aus anderen Quellen statistisch vorhergesagt (Kim et al. 2021).
Modellgestützte Ansätze: Hochentwickelte Algorithmen versuchen, Selektionsverzerrungen zu berücksichtigen, indem sie deren Auswirkungen direkt modellieren (Münnich et al., 2019).
Jede Methode erfordert eine sorgfältige Anwendung und eine Expertenmeinung. Ohne klare Metadaten – die „Daten über die Daten“ – können diese Korrekturen schwierig oder sogar unmöglich sein. Ein Beispiel für eine solche Korrektur ist in Abbildung 3 dargestellt.
Abbildung 3: Schätzung eines Populationsparameters unter Berücksichtigung von Big Data
Die vertikale gelbe Linie hebt hervor, wo der wahre numerische Wert eines interessierenden Populationsparameters liegt. Die rosafarbene vertikale Linie zeigt den geschätzten Wert, der sich aus einer nicht korrigierten Big-Data-Stichprobe ergibt, wobei die nicht gestrichelte rosa Linie die entsprechende Wahrscheinlichkeitsdichte des Schätzers darstellt. Sie ist deutlich nach links verschoben und unterschätzt daher systematisch den Populationsparameter. Die blaue vertikale Linie markiert den geschätzten Wert bei einem Propensity-Scoring-Ansatz, wobei die nicht gestrichelte blaue Linie wiederum die Wahrscheinlichkeitsdichte des Schätzers darstellt. Wir sehen, dass die angepasste Schätzung zwar nicht perfekt ist, aber viel näher am wahren Wert liegt, was auf eine erfolgreiche Korrektur der Verzerrung hindeutet.
Fazit
Für Unternehmen und öffentliche Einrichtungen ist die wichtigste Erkenntnis differenziert: Big Data kann wertvoll sein, aber nur, wenn ihre Grenzen verstanden und berücksichtigt werden. Blindes Vertrauen in große Datensätze ohne Rücksicht auf die Repräsentativität kann zu falschen Schlussfolgerungen, verschwendeten Ressourcen oder voreingenommenen Strategien führen. Unternehmen sollten sowohl Fachexperten als auch Datenmethodiker einbeziehen, um die Ergebnisse verantwortungsvoll zu interpretieren. In vielen Fällen liefert die Kombination traditioneller Erhebungsmethoden mit Big Data-Quellen die zuverlässigsten Ergebnisse.
Ist Repräsentativität im Zeitalter von Big Data also noch wichtig? Die Antwort könnte ein vorsichtiges „Ja – aber es kommt darauf an“ sein. Big Data hat zwar die Analytik revolutioniert und bietet einen beispiellosen Zugang zu Erkenntnissen in Echtzeit, doch die grundlegenden Prinzipien einer soliden statistischen Schlussfolgerung gelten nach wie vor. Unternehmen müssen sich darüber im Klaren sein, dass die Datenmenge keine Garantie für die Datenqualität ist. Die Repräsentativität bleibt eine wichtige – wenn auch komplexe – Grundlage für eine zuverlässige Analyse.
Deville, J.-C., Särndal, C.-E. (1992). Calibration estimators in survey sampling. Journal of the American Statistical Society, Vol. 87, No. 418, S. 376-382.
Kim, J. K., Fuller, W. A. (2004). Inference procedures for hot deck imputation. Biometrika, Vol. 91, S. 559-578.
Kim, J.K., Park, S. Chen, Y., et al. (2021). Combining non-propability and probability survey samples through mass imputation. Journal of the Royal Statistical Society – Series A: Statistics in Society, Vol. 184, No. 3, S. 941-963.
Münnich, R., Gabler, S., Ganninger, M. (2012). Stichprobenoptimierung und Schätzung im Zensus 2011. Statistik und Wissenschaft, Vol. 21.
Münnich, R., Burgard, J. P., Krause, J. (2019). Adjusting selection bias in German health insurance records for regional prevalence estimation. Population Health Metrics, Vol. 17, No. 1.
Rivers, D. (2007). Sampling for web surveys. Proceedings of the Survey Research Methods Section of the American Statistical Association, S. 1-26.
Valliant, R., Dever, J.A. (2011). Estimating propensity adjustments for volunteers in web surveys. Sociological Methods & Research, Vol. 40, No. 1, S. 105-137.