Stadig mer digital informasjon i samfunnet skaper behov for stadig nye og bedre verktøy for å analysere, visualisere og presentere informasjon. For pressen, som må kunne orientere seg mot all verdens ulike data og datakilder, er dette et kappløp av nybrottsarbeid — en nyorientering som stadig tar nye svinger. I dette innlegget tar jeg for meg en samling av verktøy for datajournalister som ikke selv programmerer.
Datadrivenjournalism.net skriver jevnlig om dette. Nylig skreiv de om datawrapper, laget av abzv.
Datawrapper
Datawrapper er et lite program som hjelper deg å lage grafer. Så langt er det relativt enkle grafer som stolpediagram, kakediagram og linjediagram som er tilgjengelige. Dette er ting som også lett kan lages i for eksempel Excel, men datawrapper gjør dette til en klipp-og-lim prosess, der resultatet er laget i html5 som er nyttig for nettutgaver, leseplater og mobile enheter. Typisk har slike grafer litt ekstra funksjonalitet, som et statisk bilde fra Excel ikke har. Essensen av datawrapper er å knytte dine data sammen med javascriptbibliotek som highcharts, flotr2 og d3, uten at du trenger å vite mer enn at du har data og vil ha graf. Som et open source-prosjekt er det mulig å utvide datawrapper med flere visualiseringsbibliotek og visualiseringstyper etter hvert. Koden er skrevet i PHP og er lett å følge for de som vil.
Programmerende journalist Dan Nguyen har skrevet en introduksjon til programmering i nyhetsredaksjoner med tittelen Code, Don’t Tell: Programming as an Essential Journalism Skill. I et avsnitt om “practical roadmap for non-programmers” anbefaler han å opprette konto hos Twitter, Dropbox og Google. Sistnevntes tjeneste Google docs har jeg sett er særlig populært også i norske redaksjoner, da muligheten for å dele data, samarbeide og å publisere data fra Google spreadsheet (for eksempel som json) kan korte ned antall skritt i en felles arbeidsflyt. NB: sensitive data bør ikke legges ut på internett. Da kan heller en lokal installasjon av Panda kanskje være en idé?
Panda — pandaproject.net
Panda er et prosjekt med støtte fra Knight Foundation som søker å lage “A Newsroom Data Appliance” — en felles lagringsplass for data i en nyhetsredaksjon. Panda er i hurtig utvikling, så selv om ikke alt man kunne ønske seg finnes ennå, så er det gode muligheter for mye kommer etter hvert. Utviklerne, Christopher Groskopf og Brian Boyer (begge tilknyttet Chicago Tribune) diskuterer til stadighet utviklingen på github og Twitter. Panda ble nylig presentert på en NICAR-konferanse, og mottagelsen beskrives som svært god. Panda er ment å kjøres lokalt for hver redaksjon, eller i “skyen”. Det er lagring og søk som så langt er hovedfokuset til dette prosjektet, hvilke skritt som tas videre og hvordan dette blir brukt blir spennende å se. For en demo, se demo.pandaproject.net. Med APIer og utvidelser i stadig utvikling må det for eksempel være lov å drømme om tett integrasjon med Google refine.
Google refine
Jeg har tidligere blogget om refine, men på tross av at jeg ikke bruker programmet jevnlig selv, blir jeg stadig overrasket hver gang jeg tar det fram. Google refine er ikke bare et glimrende verktøy for å vaske og restrukturere data, det er også er imponerende kraftig verktøy for å gjøre analyser og å grave i data. Google refine er ikke det mest intuitive verktøyet i verden, og i blant er det nyttig å kunne (eller kunne google) litt regexp eller å kunne tilegne seg kunnskap om ting som GREL (Google Refine Expression Language). Heldigvis likner dette mye på Python, så om du skulle lære deg noe om dette, så lærer du samtidig små biter om programmering. Hvis jeg var ansatt som datajournalist i en nyhetsorganisasjon, med press om å levere analyser og datasett jevnlig, så ville jeg ha satt pengene mine på Google refine (dvs, du trenger ikke sette noen penger noe sted, Google refine er gratis).
GIS, geografiske informasjonssystemer
Et annet spennende område der det skjer nye ting er GIS, geografiske informasjonssystemer. QGIS er et rimelig sted å starte for de av oss som ikke har en bakgrunn fra relevante fagområder, da QGIS er gratis og finnes til alle plattformer. En fin introduksjon finner du på multimedia.journalism.berkeley.edu.
Et annet spennende prosjekt er TileMill, et verktøy for å lage egne kart. Med både en hostet løsning (noen andre driver serveren for deg, mapbox), og muligheten til å lage tiles (de små rektangulære bildene som utgjør et kart i for eksempel Google maps, du har helt sikkert sett dem når du laster kart på en treg linje eller på mobile plattformer) som du kan publisere selv, så har du her et imponerende verktøy for å fortelle historier på kartet. For inspirasjon til hva du kan lage er Chicago Tribunes blogg et fint sted å lete, både for tekniske ting (som her) og vakre (og kanskje noe kontroversielle her i Norge?) ting (som geografisk fordeling av barn under 5 år kodet etter etnisitet) se denne for mer info om hvordan dette kan gjøres.
Mer, mer
Nye verktøy evalueres jevnlig på reviews.reporterslab.org der Sarah Cohen (som snakket på Nordiske mediedager i fjor) er direktør. Et verktøy som er utviklet hos reporterslab er timeflow, for gravende journalister som vil holde orden på kronologien i en story. Et tidslinjeverktøy. Du finner en tutorial på github.
På konferansen nevnt over NICAR12 ble et hopetall verktøy, prosjekter og arbeidsmåter presentert, mye av dette ligger også på nett slik at du kan se gjennom presentasjoner og få tips om verktøy og prosjekter.
En fin lenkesamling finner du også her hos Computerworld (via datadrivenjournalism). Et eksempel er MITs exhibit, som har mange visualiseringsformer godt tilpasset formidling som journalistikk. Exhibit krever at du eller en rundt deg kan litt html/javascript.
Bøker
Det er ingen tvil om at jeg kaster ut en hel masse informasjon her, og lite, om i det hele tatt noe, står på pensum på journalisthøyskolene. Det betyr ikke at journalisthøyskolene er utdatert, vert imot, men at det er mye å lære som ligger utenfor opptråkkede stier. For deg som vil jobbe med datajournalistikk, i alle fall. Det finnes i det hele tatt lite fagstoff på dette området, men slik vil det ikke være lenge.
Fra mennesker med førstehånds innsikt på dette område kommer en crowdsourcet bok, the Data Journalism Handbook. Dette prosjektet er godt i gang, mye er ferdig og du kan se innholdsfortegnelse og boken på ide-stadiet på Google docs. Se videoen for en introduksjon til prosjektet.
Facts are Sacred — the Power of Data ebook fra The Guardian er alt ute. Den kan kjøpes på diverse digitale plattformer, og gir innsikt i hvordan Guardian forholder seg til dette feltet. Boken inneholder mye info og eksempler fra Guardian, men er ikke en “slik gjør du det”-bok. Det er en “dette har vi gjort og lært”-bok.
I fysiske bokhyller finnes det også ting som er verdt å se på. Jeg mener at Philip Meyers “Precision Journalism” er minst like relevant i dag som da den først kom på 70-tallet. Mye av Meyers tankegods på metodesiden kan skrives om til kode — verktøy — og metode er essensen av algoritmer. På visualiseringsfronten er og blir Edward Tufte kongen, og bokens hans “The visual display of quantitative information” inneholder et avsnitt som forklarer at boken startet etter å ha undervist journalistikkstudenter i statistisk metode. Dette er en bok enhver journalist burde ha i prydutgave, den er like vakker som den er nyttig, klar og full av instruksjon.
For å holde deg oppdatert på denne fronten vil jeg anbefale RSS-feeden fra Edward Boraskys scoop.it og datadrivenjournalism.net.
Det mest spennende med dette området synes jeg er at det er så mye prøving og feiling på gang. Vi vet ikke helt hvordan dette skal gjøres, og fra redaksjon til redaksjon og prosjekt til prosjekt prøves ulike metoder og verktøy, med varierende resultat. Etter hvert kan vi håpe at det danner seg mønstre i alt kaoset, slik at metoder og verktøy får en naturlig plass i en fornuftig og effektiv arbeidsflyt. At jeg ikke har snakket om Excel som kongen av datajournalistikk er ikke fordi dette ikke er sant (en pågående studie på området kan tyde på at Excel er norske redaksjoners absolutt viktigste verktøy for databehandling), men fordi Excel allerede finnes i de fleste redaksjoner, det holdes kurs i dette og kompetansen på området finnes over alt. Excel er et flott verktøy, som kanskje bare bør brukes mer?
Hvilke verktøy bruker du til behandling, graving og presentasjon av data? Bruk kommentarfeltet, så lager vi en liste sammen!
Et tips som har kommet inn er enda et kart-verktøy; kartograph. Det ser ganske kult ut. Har du noen erfaringer med det, eller tips om flere verktøy?
http://kartograph.org