Seit einigen Tagen geistert ein Projekt, bzw. eine „Infografik“ der „Humboldt State University“ durchs Internet. Ein sehr anschauliches Projekt für Datenjournalismus und die Frage, was man durch etwas Aufbereitung mit „herumliegender“ Daten alles tun kann.

Aber die „Hate Map“ zeigt imho auch in bisher nie da gewesener Form, was passieren kann, wenn man Daten falsch interpretiert oder vollkommen ungefiltert in die Welt wirft (siehe hierzu meinen Nachtrag am Ende dieses Posts).

„Hate Map“ zeigt Rassismus und Homophobie in den USA

(Achtung: In den folgenden Zeilen kann viel Ironie und Sarkasmus versteckt sein.)

Die „Hate Map“ macht nichts anderes, als Tweets anhand von Stichworten zu filtern und deren Geoinformationen dann auch einer Karte zu zeigen. Die „Hate Map“ zeigt so das geografische Aufkommen rassistischer, homophober oder diffamierender Tweets.

Wer die Karte aufruft, sieht auf einen Blick, wo es in den USA am schlimmsten ist:
Während es im Westen der USA ziemlich gesittet daher geht, muss der Osten des Landes ein schlimmes Moloch sein.

Hate Map
Die „Hate Map“ zeigt: Im Osten der USA muss es ganz schön schlimm sein.

Die Grafik hinkt aber gleich an einer entscheidenden Stelle.

Wie wird Twitter in den USA eigentlich genutzt?

Denn sie lässt die Frage vollkommen außer Acht, wie in den USA Twitter überhaupt genutzt wird: Abgesehen von einigen einzelnen Städten an der Westküste wird Twitter vor allem im Osten der USA genutzt. Auch zu der geografischen Verteilung aller Tweets gab es schon einige spannende Infografiken, insbesondere Tweetping empfehle ich da sehr.

Zieht man nun in Betracht, dass der Großteil aller Tweets in den USA aus dem Osten des Landes kommt, wie ist dann zu werten, dass auch aus dem Osten deutlich mehr Tweets mit diffamierenden Inhalten kommen? Ich glaube der Zusammenhang dürfte klar sein.

Zur besseren Verdeutlichung habe ich die Grafik der „Hate Map“ mal mit einem Projekt von Eric Fischer (CC BY 2.0) verglichen, der die Geolocation von Tweets und Flickr-Fotos verglichen hat. Bei der unteren Grafik darf man daher nur die weißen Punkte beachten, dass zeigt aber sehr deutlich, worauf ich hinaus will. Wenn jemand eine bessere Grafik hat, immer her damit! 😉

Vergleich Geolocation Twitter
Der Vergleich zeigt sehr deutlich: Im Osten der USA wird insgesamt mehr getwittert

Wenn im Osten insgesamt mehr getwittert wird, dann muss man das bei der Interpretation von diffamierenden Inhalten berücksichtigen. Oder man muss auf diesen Umstand hinweisen.

Denn aktuell sagt die „Hate Map“ eigentlich nichts zum Thema aus. Sie zeigt nur eines sehr deutlich: Datenjournalismus hat nicht nur etwas mit Daten zutun, sondern vor allem auch mit deren Auswertung und richtigen Interpretation!

Mit Dank an Ulrike Langer, durch die ich auf das Thema und die Tragweite der Interpretation überhaupt erst gekommen bin.

Nachtrag: Ich habe leider erst jetzt eine genaue Erklärung zur Analyse der Daten gefunden.
Darin wird erklärt, dass

  1. die Daten manuell aggregiert wurden; Tweets, die etwa nur das Wort „homo“ enthielten, aber keine Hassrede waren, wurden von den am Projekt teilnehmenden Studenten aus dem Datensatz entfernt.
  2. die Daten „normalisiert“ wurden und zu allen Tweets einer Region in Verhältnis gesetzt wurden.

Insbesondere Punkt 2 macht meine Argumentation damit hinfällig.

Es bleibt aber ein „ungutes Gefühl“, eine so „krasse“ Verteilung will einfach nicht mit meinem gesunden Menschenverstand zusammenpassen. Und es bleibt die Frage – die auch schon das „Data-Team“ des Guardian formulierte – ob diese Verteilung dann auch repräsentativ für die Gesamtbevölkerung der USA ist. Das dürfte verneint werden.

Für mich bleibt wenigstens in diesem Moment die Erkenntnis, dass bei der Interpretation von Daten viel falsch gehen kann und solche Auswertung mitunter zu zu schnellen Rückschlüssen führen; In welche Richtung auch immer. Ich denke weiter drüber nach…

Jetzt kommentieren

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.