Missing Link zwischen Open Data und Journalism
Ich hatte in früheren Blogposts bereits das Problem erwähnt, dass Open Data zwar in unterschiedlicher Weise sehr anschaulich graphisch dargestellt werden können, die Verbindung aber zum Journalismus bisher nur sehr unzureichend hergestellt werden konnte (hier und hier). Das Grundproblem ist die unbeantwortete Frage, wie aus den Daten eine entsprechende Storyline werden kann. Entweder müssten Journalisten (oder auch Blogger) ohne spezifische Fragestellung die Datenplattform nutzen und beim Stöbern zufällig auf interessante Kontexte stoßen. Oder aber die Verfasser eines Artikels würden mit einer speziellen Fragestellung die Plattform nutzen, um mit den Daten dann die Storyline zu bestätigen. Dies würde aber voraussetzen, dass die Tool und die Indikatoren der Plattform passgenau zur Fragestellung vorab passen müssten - das ist aber nicht sehr wahrscheinlich. Zudem ginge es in diesem Fall nicht um Objektivität sondern um die Bestätigung der eigenen Position.
Dieses Problem konnten wir heute auch in Gesprächen mit Clement vom Sharism Lab nicht lösen. Auch die Website Datamarket bietet interessante Tools zum Einbetten von Daten in Artikel oder Blogposts, kann aber die Frage noch nicht beantworten, wie eine user-orientierte Nutzbarkeit einer Datenplattform aussehen könnte. Wie sieht die Logik der Umsetzung von Daten in Stories aus?
Anwendungsbeispiel: Nachweis von Diskriminierung?
Dieses Problem verdeutlicht auch sehr schön der aktuelle Artikel auf der Website der National Women´s Law Center, der momentan nicht nur auf anderen Blogs wiedergegeben wird (New York Post: "Men have scored 97 percent of new jobs since mid-2009") sondern auch entsprechend fleißig getwittert wird.
Unter der Überschrift "2011 and the Recovery: Women’s Unemployment in Pictures" wird anhand der Beschäftigtenzahlen der Jahre 2009-2011 "nachgewiesen", dass die Erholung auf dem US-Arbeitsmarkt nach der Finanzkrise zu 97% den Männern zugute kam - Skandal! Die Geschichte klingt griffig und verkauft sich dem entsprechend gut in Teilen der sozialen Medien.
Was steckt aber hinter den Zahlen?
Werden nicht nur die 3 Jahre nach sondern auch die 3 Jahre vor der Krise berücksichtigt, ergibt sich nach den Zahlen des Bureau of Labor Statistics folgendes Bild (Abs. Zahl der Erwerbstätigen ohne Landwirtschaft auf dem US-Arbeitsmarkt, Daten gerundet und in Mio.):
Im Ergebnis hat die Zahl der männlichen Erwerbstätigen durch die Krise um 3,7 Mio. und die der weiblichen Erwerbstätigen nur um 0,5 Mio. Personen verringert. Dadurch hat sich der Anteil der Frauen an allen Erwerbstägigen von 48,1% auf 49,7% erhöht. Frauen sind demnach die relativen Gewinner der Krise. Man kann diese Betrachtung natürlich durchaus mit Blick auf den gewählten Zeitraum, den Industriesektor und den Umfang der geleisteten Arbeitsstunden weiter ausdifferenzieren. Dies macht aber aber eben sehr schön die Problematik von Data Journalism deutlich: Daten können selektiv genutzt werden, um griffige Überschriften zu erzeugen - ein etwas erweiterter Blick auf die Daten kann jedoch genau das gegenteilige Bild und die gegenteilige Überschrift ergeben.
Methodenkompetenz!
Es gab zwar schon vor den Zeiten des Internets das Bonmot "Glaube keiner Statistik, die du nicht selbst gefälscht hast", die Bedeutung von Daten hat jedoch seit der allgemeinen Verfügbarkeit durch das Netz sehr expansiv zugenommen. Daher ist sehr viel mehr Sorgfalt und Methodenkenntnis als ehemals notwendig - ansonsten kehrt sich der Vorteil der größeren Datenverfügbarkeit in sein negatives Gegenteil der willkürlichen oder auch unbeabsichtigten Instrumentalisierung um.

Pattern recognition - that is what hasn't been taught in large over the last decades. We the rise of the internet the data flow is growing exponentially, and often we are just overwhelmed by the data.
AntwortenLöschenJason Silva, filmmaker and technology geek, has recently made a short movie on the topic: http://www.treehugger.com/urban-design/prepare-be-infected-awe.html
What can it teach us as an improving open society for the future? What is yet to be done? What possible constraints are in the way to the ultimate vision that we all can share?
Hi Ralf, thanks for your hint. Great video! I have written a short update: http://globaler-wandel.blogspot.com/2012/01/update-can-patterns-be-solution-for.html
AntwortenLöschenDanke für den Beitrag und vor allem die Dekonstruktion der erst so glaubwürdig aussehenden Zahlen und dem realeren Bild, wenn die Zeitreihe größer gefasst wird. Das ist die - wahrscheinlich immer wiederkehrende - Kehrseite der Argumentation mit Zahlen.
AntwortenLöschenUnd das Problem ist alt: In der "Wie lügt man mit Statistik"-Literatur werden exakt solche und ähnliche Fälle reihenweise zitiert. Verkürzung oder Verlängerung des Darstellungszeitraums machen aus einem zahmen Anstieg eine steile Kurve oder umgekehrt. Korrekte Grafiken bemühen sich darum, solche Verfälschungen zu minimieren.
Beliebt und häufig verwendet ist auch der Wechsel zwischen Median und Durchschnitt, je nachdem was gerade besser passt.
Ich glaube: Wenn die Agenda das Absenders zu stark ausgeprägt ist, kümmert das keinen mehr - und es kommt eben zu solchen Ergebnissen. Daten-Journalismus und Open Data sollten sich Schritt für Schritt Qualitätskriterien verordnen, damit Qualität und Verlässlichkeit von Zahlen und Visualisierungen steigen.
Hallo Mirko,
AntwortenLöschenDanke dir für das Feedback. Das Problem ist natürlich in der Tat nicht neu. Der oben beschriebene Fall war allerdings von einer Dreistigkeit, dass man sich schon wundern muss.
Ich habe gerade eure Seite http://www.visioncloud.eu/ besucht. Das sieht ja sehr interessant aus. Mein Kollege entwickelt gerade eine Visualisierungsplattform (Beta: http://www.stocks-flows.org/), die das Ziel hat, finanzpolitische Verflechtungen visuell darzustellen. VG, ow