Verktøy for datajournalistikk

Det kommer stadig nye og gode verktøy for datajournalister - uten at du må være programmerer. En oversikt.

Stadig mer dig­i­tal infor­masjon i sam­fun­net skaper behov for stadig nye og bedre verk­tøy for å analy­sere, visu­alis­ere og pre­sen­tere infor­masjon. For pressen, som må kunne ori­en­tere seg mot all ver­dens ulike data og datak­ilder, er dette et kap­pløp av nybrottsar­beid — en nyori­en­ter­ing som stadig tar nye svinger. I dette inn­legget tar jeg for meg en sam­ling av verk­tøy for data­jour­nal­is­ter som ikke selv programmerer.

Datadrivenjournalism.net skriv­er jevn­lig om dette. Nylig skreiv de om datawrap­per, laget av abzv.

Datawrapper

Datawrap­per er et lite pro­gram som hjelper deg å lage grafer. Så langt er det rel­a­tivt enkle grafer som stol­pe­di­agram, kake­di­a­gram og lin­je­di­a­gram som er tilgjen­gelige. Dette er ting som også lett kan lages i for eksem­pel Excel, men datawrap­per gjør dette til en klipp-og-lim pros­ess, der resul­tatet er laget i html5 som er nyt­tig for net­tut­gaver, lese­plater og mobile enheter. Typisk har slike grafer litt ekstra funksjon­alitet, som et sta­tisk bilde fra Excel ikke har. Essensen av datawrap­per er å knytte dine data sam­men med javascript­bib­liotek som high­charts, flotr2 og d3, uten at du trenger å vite mer enn at du har data og vil ha graf. Som et open source-pros­jekt er det mulig å utvide datawrap­per med flere visu­alis­er­ings­bib­liotek og visu­alis­er­ingstyper etter hvert. Koden er skrevet i PHP og er lett å følge for de som vil.

Pro­gram­merende jour­nal­ist Dan Nguyen har skrevet en intro­duk­sjon til pro­gram­mer­ing i nyhet­sredak­sjon­er med tit­te­len Code, Don’t Tell: Pro­gram­ming as an Essen­tial Jour­nal­ism Skill. I et avs­nitt om “prac­ti­cal roadmap for non-pro­gram­mers” anbe­faler han å opprette kon­to hos Twit­ter, Drop­box og Google. Sist­nevntes tjen­este Google docs har jeg sett er særlig pop­ulært også i norske redak­sjon­er, da muligheten for å dele data, samar­bei­de og å pub­lis­ere data fra Google spread­sheet (for eksem­pel som json) kan korte ned antall skritt i en felles arbei­ds­flyt. NB: sen­si­tive data bør ikke legges ut på inter­nett. Da kan heller en lokal instal­lasjon av Pan­da kan­skje være en idé?

Panda — pandaproject.net

Pan­da er et pros­jekt med støtte fra Knight Foun­da­tion som søk­er å lage “A News­room Data Appli­ance” — en felles lagringsplass for data i en nyhet­sredak­sjon. Pan­da er i hur­tig utvikling, så selv om ikke alt man kunne ønske seg finnes ennå, så er det gode muligheter for mye kom­mer etter hvert. Utviklerne, Christo­pher Groskopf og Bri­an Boy­er (begge tilknyt­tet Chica­go Tri­bune) diskuter­er til stadighet utviklin­gen på github og Twit­ter. Pan­da ble nylig pre­sen­tert på en NICAR-kon­fer­anse, og mot­tagelsen beskrives som svært god. Pan­da er ment å kjøres lokalt for hver redak­sjon, eller i “skyen”. Det er lagring og søk som så langt er hov­ed­fokuset til dette pros­jek­tet, hvilke skritt som tas videre og hvor­dan dette blir brukt blir spen­nende å se. For en demo, se demo.pandaproject.net. Med API­er og utvidelser i stadig utvikling må det for eksem­pel være lov å drømme om tett inte­grasjon med Google refine.

Google refine

Jeg har tidligere blogget om refine, men på tross av at jeg ikke bruk­er pro­gram­met jevn­lig selv, blir jeg stadig over­ras­ket hver gang jeg tar det fram. Google refine er ikke bare et glim­rende verk­tøy for å vaske og restruk­turere data, det er også er imponerende kraftig verk­tøy for å gjøre analyser og å grave i data. Google refine er ikke det mest intu­itive verk­tøyet i ver­den, og i blant er det nyt­tig å kunne (eller kunne google) litt reg­exp eller å kunne tileg­ne seg kunnskap om ting som GREL (Google Refine Expres­sion Lan­guage). Heldigvis likn­er dette mye på Python, så om du skulle lære deg noe om dette, så lær­er du sam­tidig små biter om pro­gram­mer­ing. Hvis jeg var ansatt som data­jour­nal­ist i en nyhet­sor­gan­isas­jon, med press om å levere analyser og datasett jevn­lig, så ville jeg ha satt pen­gene mine på Google refine (dvs, du trenger ikke sette noen penger noe sted, Google refine er gratis).

GIS, geografiske informasjonssystemer

Et annet spen­nende område der det skjer nye ting er GIS, geografiske infor­masjon­ssys­te­mer. QGIS er et rimelig sted å starte for de av oss som ikke har en bak­grunn fra rel­e­vante fagom­råder, da QGIS er gratis og finnes til alle plat­tformer. En fin intro­duk­sjon finner du på multimedia.journalism.berkeley.edu.

Et annet spen­nende pros­jekt er TileMill, et verk­tøy for å lage egne kart. Med både en hostet løs­ning (noen andre dri­ver serveren for deg, map­box), og muligheten til å lage tiles (de små rek­tan­gulære bildene som utgjør et kart i for eksem­pel Google maps, du har helt sikkert sett dem når du laster kart på en treg lin­je eller på mobile plat­tformer) som du kan pub­lis­ere selv, så har du her et imponerende verk­tøy for å fortelle his­to­ri­er på kartet. For inspi­rasjon til hva du kan lage er Chica­go Tri­bunes blogg et fint sted å lete, både for tekniske ting (som her) og vakre (og kan­skje noe kon­tro­ver­sielle her i Norge?) ting (som geografisk fordel­ing av barn under 5 år kodet etter etnisitet) se denne for mer info om hvor­dan dette kan gjøres.

Mer, mer

Nye verk­tøy eval­ueres jevn­lig på reviews.reporterslab.org der Sarah Cohen (som snakket på Nordiske mediedager i fjor) er direk­tør. Et verk­tøy som er utviklet hos reporter­slab er time­flow, for gravende jour­nal­is­ter som vil holde orden på kro­nolo­gien i en sto­ry. Et tid­slin­jev­erk­tøy. Du finner en tuto­r­i­al på github.

På kon­fer­ansen nevnt over NICAR12 ble et hopetall verk­tøy, pros­jek­ter og arbei­dsmåter pre­sen­tert, mye av dette lig­ger også på nett slik at du kan se gjen­nom pre­sen­tasjon­er og få tips om verk­tøy og prosjekter.

En fin lenke­sam­ling finner du også her hos Com­put­er­world (via datadriven­jour­nal­ism). Et eksem­pel er MITs exhib­it, som har mange visu­alis­er­ings­former godt tilpas­set formidling som jour­nal­is­tikk. Exhib­it krev­er at du eller en rundt deg kan litt html/javascript.

Bøker

Det er ingen tvil om at jeg kaster ut en hel masse infor­masjon her, og lite, om i det hele tatt noe, står på pen­sum på jour­nal­isthøysko­lene. Det betyr ikke at jour­nal­isthøysko­lene er utdatert, vert imot, men at det er mye å lære som lig­ger uten­for opp­tråkkede sti­er. For deg som vil jobbe med data­jour­nal­is­tikk, i alle fall. Det finnes i det hele tatt lite fagstoff på dette området, men slik vil det ikke være lenge.

Fra men­nesker med første­hånds innsikt på dette område kom­mer en crowd­sourcet bok, the Data Jour­nal­ism Hand­book. Dette pros­jek­tet er godt i gang, mye er fer­dig og du kan se innholds­forteg­nelse og boken på ide-stadi­et på Google docs. Se videoen for en intro­duk­sjon til prosjektet.

Facts are Sacred — the Pow­er of Data ebook fra The Guardian er alt ute. Den kan kjøpes på diverse dig­i­tale plat­tformer, og gir innsikt i hvor­dan Guardian forhold­er seg til dette fel­tet. Boken innehold­er mye info og eksem­pler fra Guardian, men er ikke en “slik gjør du det”-bok. Det er en “dette har vi gjort og lært”-bok.

I fysiske bokhyller finnes det også ting som er verdt å se på. Jeg men­er at Philip Mey­ers “Pre­ci­sion Jour­nal­ism” er minst like rel­e­vant i dag som da den først kom på 70-tal­let. Mye av Mey­ers tankegods på metodes­i­den kan skrives om til kode — verk­tøy — og metode er essensen av algo­rit­mer. På visu­alis­er­ings­fron­ten er og blir Edward Tufte kon­gen, og bokens hans “The visu­al dis­play of quan­ti­ta­tive infor­ma­tion” innehold­er et avs­nitt som fork­lar­er at boken startet etter å ha under­vist jour­nal­is­tikkstu­den­ter i sta­tis­tisk metode. Dette er en bok enhver jour­nal­ist burde ha i pry­dut­gave, den er like vakker som den er nyt­tig, klar og full av instruksjon.

For å holde deg opp­datert på denne fron­ten vil jeg anbe­fale RSS-fee­den fra Edward Boraskys scoop.it og datadrivenjournalism.net.

Det mest spen­nende med dette området synes jeg er at det er så mye prøv­ing og feil­ing på gang. Vi vet ikke helt hvor­dan dette skal gjøres, og fra redak­sjon til redak­sjon og pros­jekt til pros­jekt prøves ulike metoder og verk­tøy, med vari­erende resul­tat. Etter hvert kan vi håpe at det dan­ner seg møn­stre i alt kaoset, slik at metoder og verk­tøy får en naturlig plass i en for­nuftig og effek­tiv arbei­ds­flyt. At jeg ikke har snakket om Excel som kon­gen av data­jour­nal­is­tikk er ikke for­di dette ikke er sant (en pågående studie på området kan tyde på at Excel er norske redak­sjon­ers abso­lutt vik­tig­ste verk­tøy for data­behan­dling), men for­di Excel allerede finnes i de fleste redak­sjon­er, det holdes kurs i dette og kom­petansen på området finnes over alt. Excel er et flott verk­tøy, som kan­skje bare bør brukes mer?

Hvilke verk­tøy bruk­er du til behan­dling, grav­ing og pre­sen­tasjon av data? Bruk kom­men­tar­fel­tet, så lager vi en liste sammen!

TEMA

J

ournali
stikk

136 ARTIKLER FRA VOX PUBLICA

FLERE KILDER - FAKTA - KONTEKST

2 KOMMENTARER

  1. Et tips som har kom­met inn er enda et kart-verk­tøy; kar­to­graph. Det ser ganske kult ut. Har du noen erfaringer med det, eller tips om flere verktøy?

    http://kartograph.org

  2. Trolig har mange det enkle utgangspunk­tet du nevn­er — “har data, vil ha graf”. Det er fak­tisk ikke helt lett å finne tjen­ester som hjelper en med dette. For den bør ha en del kvaliteter: Det må gå lett og hur­tig. Resul­tatet må se pent ut, og må kunne tilpass­es web­sider (f.eks. bør jus­ter­ing av bred­de og farg­er være mulig). 

    I det siste har jeg testet Datawrap­per og iCharts. Noen erfaringer:

    Datawrap­per (testek­sem­pel): Rimelig lett å bruke, men ingen muligheter til å påvirke farg­er. Lett å pub­lis­ere til web. Pluss for at dataene pub­lis­eres til ned­last­ing sam­men med figuren.

    iCharts (testek­sem­pel): Rimelig lett å bruke. Farg­er kan lett endres. Mange fig­ur­typer. Datasett du laster opp kan raskt justeres/oppdateres. Lett å pub­lis­ere til web. Minus for at data ikke pub­lis­eres sam­men med fig­uren. iCharts er klart mer gjen­no­mar­bei­det og “fer­dig” enn Datawrapper.

    Når jeg sier “rimelig lett å bruke”, men­er jeg at man finner ut av det fort hvis man har job­bet litt med datak­ilder før — men man må gjerne innom FAQ-siden en tur.

til toppen