nr-Datenlabor – Reproduzierbarkeit im #DDJ – Warum und wie?



nr-Datenlabor – Reproduzierbarkeit im #DDJ – Warum und wie?

1 2


nrdl-rddj

Presentation am #datenlabor15 über Transparenz und Reproduzierbarkeit im #ddj

On Github grssnbchr / nrdl-rddj

nr-Datenlabor

Reproduzierbarkeit im #DDJ

Warum und wie?

Timo Grossenbacher, SRF Data

@grssnbchr

@srfdata

Präsentation vefügbar unter grssnbchr.github.io/nrdl-rddj

Über mich

Ursprünglich: Studium Geographie & Informatik / Tages-Anzeiger

Seit November 2014 beim Team von SRF Data als Programmierer und Datenjournalist

SRF Data

SRF Data

Mehr Rechercheteam, weniger Dienstleister

Ideen pitchen, Daten bekommen / sammeln, scrapen / einklagen

Daten bereinigen, visualisieren, analysieren, Story finden

Publikation auf srf.ch -> Übersicht, Interaktivität

Publikation in Radio und/oder TV -> Anekdoten, Details

Portfolio

Warum Reproduzierbarkeit?

Ohne Reproduzierbarkeit keine echte, vollständige Transparenz. Richtige Reproduzierbarkeit bedingt, dass von den absoluten Rohdaten bis zum (analytischen) Endergebnis alle Schritte nachvollziehbar und ausführbar sind. Eigentlich ist dies nur zu erreichen, wenn man die Schritte "aufzeichnet", und dafür eignet sich am besten Code: Sprich, die Datenanalyse selber besteht aus einem Skript, dass einen Input nimmt und einen Output generiert. Das bringt zwei Vorteile mit sich: Man kann das Skript wiederverwenden, z.B. bei neuen Daten. Und das ganze ist automatisiert, sprich, wir können Kaffee trinken gehen, während der Computer rechnet. Die Automatisierung kann wiederum dabei helfen, Fehler zu vermeiden, die man beim manuellen Bearbeiten, z.B. aus Unkonzentriertheit, machen könnte.

1. Transparenz

2. Automatisierung

2b. Wiederverwendbarkeit

2c. Reduzierte Fehleranfälligkeit

Warum Transparenz?

Datenjournalistische Arbeit kann nur selten ausführlich erklärt werden - schon gar nicht in einem (Zeitungs-)Artikel. Während man bei klassischen Recherchen schnell mal erklären kann, dass man z.B. eine wichtige Info in einer Gerichtsakte gefunden hat, ist es beim DDJ schwieriger. Datenjournalisten wissen, dass die Resultate ihrer Arbeit nicht per se objektiver ist als die von anderen Journalisten. Sie sollten sich aber auch bewusst sein, dass beliebig komplexe Auswertungen Gefahr laufen, ihre Objektivität ganz zu verlieren. Nämlich dann, wenn unüberlegt und ungerechtfertigt Entscheidungen getroffen werden, die das Resultat einer Analyse stark verändern könn(t)en. Wenn man diese Schritte nicht transparent macht, dann besteht in der Tat die Gefahr der Pseudoobjektivität. Mit der Offenlegung unserer Methoden machen wir uns zwar angreifbar, aber wir können uns auch besser rechtfertigen. Im Idealfall weisen uns Leser konstruktiv auf Fehler hin, die wir beim nächsten Mal vermeiden können.

Das Problem: Datenjournalistische Arbeit kann nur selten ausführlich erklärt werden

Jeder zusätzliche Prozessierungsschritt bedingt neue Entscheidungen – Gefahr der "Pseudo-Objektivität" steigt

Interessierte sollten die Chance erhalten, uns zu hinterfragen und uns zu korrigieren

vgl. Vortrag von Fernando Perez gestern

Stufen der Transparenz

Transparenz kann man verschiedentlich auslegen, ich habe einmal versucht, eine Abstufung zu machen. Jede Stufe bedingt mehr oder weniger die vorhergehenden Stufen.

Quellenangaben (leider nicht selbstverständlich...)

Beschreibung und Rechtfertigung der Methoden, z.B. mit einem Werkstattbericht

Offenlegung der Rohdaten und prozessierten Daten (z.B. wie bei fivethirtyeight.com)

Offenlegung der Methoden, volle Reproduzierbarkeit (z.B. wie bei der NPR Military Gear Story)

Exkurs: Wissenschaft

Meine persönliche Erfahrung ist: Wissenschaft ist heute alles andere als reproduzierbar

  • Studie in Nature, 2012: 47 von 53 Studien in der Krebsforschung sind nicht reproduzierbar

  • Portale wie PLOS one versuchen, Wissenschaft reproduzierbarer zu machen

Exkurs: Wissenschaft

Dieses Buch kann ich sehr empfehlen

Statistics Done Wrong

In der Praxis

Im folgenden nun ein paar Beispiele, wie wir bei SRF Data konkret versuchen, das zu leben, was ich hier predige.

Bezüglich Transparenz: srfdata.github.io

Bezüglich Automatisierung: Eidgenössische Wahlen 2015

Tools of Trade

Im selben Zug möchte ich zwei Tools bzw. Ideen präsentieren, wie man mit Technologie Transparenz und Reproduzierbarkeit schaffen kann.

R / RMarkdown

Git / GitHub

Tools of Trade

Transparenz & Open Data

Rüstungsexporte

Publizierter Artikel: Hier

Methodik und Rohdaten: Hier

Rüstungsexporte

  • Auswertung der Daten in R:

    • Reinladen
    • Vorprozessieren (messy -> tidy)
    • Erste Auswertungen inkl. Plots
  • Publikation als Markdown-HTML

  • Publikation auf GitHub Pages:

Eidgenössische Wahlen 2015

Bildquelle: Jonas Bayona

 

 

Demo

Fazit

R ermöglicht uns:

  • alle Prozessierungsschritte an einem Ort zu bündeln

    • einlesen
    • vorprozessieren
    • auswerten
    • visualisieren
    • vorbereiten
    • etc.
  • Reproduzierbarkeit & Publikation der Methoden mit Markdown

Automate EVERYTHING!

Bildquelle: giphy.com

...and make it reproducible.

Blut geleckt?

rddj.info - damit bringt Ihr Euch R bei

Coursera "Developing Data Products"

grssnbchr/rddj-reproducibility-workflow

The next big thing: Project Jupyter

Auch spannend: Brian Keegan calls out 538 for openness in #ddj

Danke

Fragen?

@grssnbchr

@srfdata

Diese Präsentation ist verfügbar (und reproduzierbar) unter github.com/grssnbchr/nrdl-rddj

Gebaut mit slidify und revealjs