Korrelation, Kausalität, Koinzidenz – unterschiedliche Zusammenhänge.

Angelehnt an xkcd.com

Viel zu oft werden die Begriffe Korrelation und Kausalität vorschnell synonym verwendet. Aus meiner Sicht gibt es dafür zwei Hauptgründe: Nicht-Wissen und Nicht-Wollen.

Nicht-Wissen lässt sich mit dem Lesen dieses Beitrags oder etwas Recherche beheben.

Nicht-Wollen hingegen ist schwieriger zu korrigieren. Denn der Grund dahinter ist das ur-menschliche Verlangen, die Dinge in einen Zusammenhang bringen zu wollen. Wir alle wünschen uns Klarheit, Nachvollziehbarkeit, letztlich: Ordnung in dieser chaotischen Welt.

Kategorien wie „Zufall“ (das wäre die Koinzidenz) sind unbefriedigend, weil unkalkulierbar. Also weg damit! Doch so einfach ist es leider nicht. Ein Klärungsversuch.

Korrelation bedeutet, dass sich zwei (oder mehr) Dinge (Daten) ähnlich verhalten. Das kann sowohl positiv wie negativ ausgeprägt sein.

  • Beispiel positive Korrelation: Wenn viele Regenschirme verkauft werden, werden auch viele Regenschuhe verkauft.
  • Beispiel negative Korrelation: Wenn viele Regenschirme verkauft werden, wird wenig Sonnencreme verkauft.

Kausalität bedeutet, dass es zwischen zwei (oder mehr) Dingen (Daten) einen Ursache-Wirkungs-Zusammenhang gibt. Auch das kann sowohl positiv wie negativ ausgeprägt sein.

  • Beispiel positive Kausalität: Wenn es stark regnet, werden viele Regenschirme verkauft.
  • Beispiel negative Kausalität: Wenn es stark regnet, wird wenig Sonnencreme verkauft.

Beim Korrelations-Beispiel gibt es keine Kausalität: Dass viele Regenschirme verkauft werden, ist nicht der Grund, weshalb viele Regenschuhe verkauft werden. Und auch nicht umgekehrt. Der Grund ist der starke Regen.

Scheinkorrelation – Korrelation ohne Kausalität

Es gibt einige unterhaltsame Beispiele, die aufzeigen, dass Korrelation nicht automatisch zu Kausalität führt:

„Je weniger Haare auf dem Kopf, desto höher das Einkommen“

Bei erwerbstätigen Männern gibt es eine negative Korrelation zwischen dem Einkommen und der Zahl der Haare auf dem Kopf. Man ist versucht zu sagen „je weniger Haare, desto höher das Einkommen“. Falsch. Denn weder sind die Haare für das Einkommen noch ist das Einkommen für die Haare verantwortlich – diese negative Korrelation kommt dadurch zustande, dass beide Variablen von einer dritten Variablen, dem Lebensalter, abhängen: mit wachsendem Alter nimmt das Einkommen zu, und die Haare fallen aus.

„Der Storch bringt die Kinder“ 

In manchen Regionen korreliert etwa die Anzahl der Störche mit der Geburtenrate. Logischerweise ist das eine aber nicht Ursache des anderen, statt dessen gibt es eine dritte Variable, die sich auf Störche und Geburtenrate auswirkt: die Ländlichkeit der Region. Je ländlicher die Region, desto mehr Störche und desto mehr Geburten.

Weitere Beispiele gefällig? Eine umfangreiche und erheiternde Sammlung gibt’s auf der Website Spurious Correlations.

Man könnte auch sagen: Korrelation und Kausalität verhalten sich zueinander wie Zwillingsschwestern, die von vielen verwechselt werden, die nicht beide gleich gut kennen.

Denkt man weiter über diese Zusammenhänge nach, kommt man unweigerlich zu folgendem Schluss:

Das vorschnelle Annehmen von Kausalität führt zu Aberglauben.

Zu akzeptieren, dass es nicht überall Zusammenhänge gibt, wo man gerne Zusammenhänge sehen würde, ist unbefriedigend. Und anstrengend. Und macht das Leben unberechenbar. Deshalb sieht man immer wieder, wie Koinzidenz (Zufall) und Korrelation zu Kausalität aufgebauscht werden. Und schon sind wir beim Aberglauben angelangt, denn:

Aberglaube ist nichts anderes als das vorschnelle Annehmen kausaler Zusammenhänge. (Zitat von Biologe Dr. Erich Eder)

Der Zusammenhang mit Big Data

Was diese philosophischen Ausführungen mit unserem Alltag zu tun haben: Nun, bei Big Data spielt das Wissen und Anwenden dieser Unterschiede eine entscheidende Rolle, denn:

Algorithmen sind Programme, die nach Korrelation suchen können. Ob jedoch auch eine sinnvolle Kausalität vorliegt, dieser Entscheid obliegt noch immer den Menschen.

Solange es „bloss“ um Marketing geht, ist das noch nicht problematisch, im Gegenteil: Es könnte ja sein, dass die Angebote dadurch besser werden.

Aber: Es gibt auch andere Themenfelder, wie beispielsweise die Überwachung der Bürger und den Umgang mit der Privatsphäre. Es geht um die Frage, wieviel uns Sicherheit wert ist. Resp. wie hoch der Preis ist, den zu zahlen wir bereit sind, um diese (vermeintliche) Sicherheit zu erreichen.

Algorithmen entscheiden in der Tendenz aufgrund von Korrelationen und nicht aufgrund von inneren Zusammenhängen (Kausalitäten), und das wird dann schnell zum Problem. Denn wenn diese Konzepte nicht sauber angewendet werden, reicht es bereits, einen etwas ungewöhnlichen Lebensstil zu pflegen, und man fällt aus dem Raster und somit auf.

Bei der Auswertung von Daten und der Suche nach Mustern sollte entsprechend vorsichtig vorgegangen werden. Dystopische Geschichten (Big Brother, Überwachungsstaat) gibt es zur Genüge.

Mit der zunehmenden Komplexität und Vielfalt von Lebensentwürfen wird sich dieses Dilemma weiter zuspitzen. Umso wichtiger ist es, dass die Menschen in unserer Gesellschaft um diese wichtigen Unterschiede wissen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.