Verktøy for datajournalistikk

Det kommer stadig nye og gode verktøy for datajournalister - uten at du må være programmerer. En oversikt.

Sta­dig mer digi­tal infor­ma­sjon i sam­fun­net ska­per behov for sta­dig nye og bedre verk­tøy for å ana­ly­se­re, visu­ali­se­re og pre­sen­te­re infor­ma­sjon. For pres­sen, som må kun­ne ori­en­te­re seg mot all ver­dens uli­ke data og data­kil­der, er det­te et kapp­løp av nybrotts­ar­beid — en nyori­en­te­ring som sta­dig tar nye svin­ger. I det­te inn­leg­get tar jeg for meg en sam­ling av verk­tøy for data­jour­na­lis­ter som ikke selv pro­gram­me­rer.

Datadrivenjournalism.net skri­ver jevn­lig om det­te. Nylig skreiv de om data­wrap­per, laget av abzv.

Datawrapper

Data­wrap­per er et lite pro­gram som hjel­per deg å lage gra­fer. Så langt er det rela­tivt enk­le gra­fer som stolpe­dia­gram, kake­dia­gram og linje­dia­gram som er til­gjen­ge­li­ge. Det­te er ting som også lett kan lages i for eksem­pel Excel, men data­wrap­per gjør det­te til en klipp-og-lim pro­sess, der resul­ta­tet er laget i htm­l5 som er nyt­tig for nett­ut­ga­ver, lese­pla­ter og mobi­le enhe­ter. Typisk har sli­ke gra­fer litt eks­tra funk­sjo­na­li­tet, som et sta­ti­sk bil­de fra Excel ikke har. Essen­sen av data­wrap­per er å knyt­te dine data sam­men med java­script­bi­blio­tek som highcharts, flo­tr2 og d3, uten at du tren­ger å vite mer enn at du har data og vil ha graf. Som et open source-pro­sjekt er det mulig å utvi­de data­wrap­per med fle­re visu­ali­se­rings­bi­blio­tek og visu­ali­se­rings­ty­per etter hvert. Koden er skre­vet i PHP og er lett å føl­ge for de som vil.

Pro­gram­me­ren­de jour­na­list Dan Nguy­en har skre­vet en intro­duk­sjon til pro­gram­me­ring i nyhets­re­dak­sjo­ner med tit­te­len Code, Don’t Tell: Pro­gram­ming as an Essen­ti­al Jour­na­lism Skill. I et avsnitt om «prac­ti­cal road­map for non-pro­gram­mers» anbe­fa­ler han å opp­ret­te kon­to hos Twit­ter, Drop­box og Goog­le. Sist­nevn­tes tje­nes­te Goog­le docs har jeg sett er sær­lig popu­lært også i nors­ke redak­sjo­ner, da mulig­he­ten for å dele data, sam­ar­bei­de og å pub­li­se­re data fra Goog­le spre­ads­he­et (for eksem­pel som json) kan kor­te ned antall skritt i en fel­les arbeids­flyt. NB: sen­si­ti­ve data bør ikke leg­ges ut på inter­nett. Da kan hel­ler en lokal instal­la­sjon av Pan­da kan­skje være en idé?

Panda – pandaproject.net

Pan­da er et pro­sjekt med støt­te fra Knight Foun­da­tion som søker å lage «A News­room Data Appli­an­ce» — en fel­les lag­rings­plass for data i en nyhets­re­dak­sjon. Pan­da er i hur­tig utvik­ling, så selv om ikke alt man kun­ne øns­ke seg fin­nes ennå, så er det gode mulig­he­ter for mye kom­mer etter hvert. Utvik­ler­ne, Chris­to­pher Gro­sko­pf og Bri­an Boy­er (beg­ge til­knyt­tet Chi­ca­go Tri­bu­ne) dis­ku­te­rer til sta­dig­het utvik­lin­gen på git­hub og Twit­ter. Pan­da ble nylig pre­sen­tert på en NICAR–kon­fe­ran­se, og mot­ta­gel­sen beskri­ves som svært god. Pan­da er ment å kjø­res lokalt for hver redak­sjon, eller i «sky­en». Det er lag­ring og søk som så langt er hoved­fo­ku­set til det­te pro­sjek­tet, hvil­ke skritt som tas videre og hvor­dan det­te blir brukt blir spen­nen­de å se. For en demo, se demo.pandaproject.net. Med APIer og utvi­del­ser i sta­dig utvik­ling må det for eksem­pel være lov å drøm­me om tett inte­gra­sjon med Goog­le refi­ne.

Google refine

Jeg har tid­li­ge­re blog­get om refi­ne, men på tross av at jeg ikke bru­ker pro­gram­met jevn­lig selv, blir jeg sta­dig over­ras­ket hver gang jeg tar det fram. Goog­le refi­ne er ikke bare et glim­ren­de verk­tøy for å vas­ke og restruk­tu­re­re data, det er også er impo­ne­ren­de kraf­tig verk­tøy for å gjø­re ana­ly­ser og å gra­ve i data. Goog­le refi­ne er ikke det mest intui­ti­ve verk­tøy­et i ver­den, og i blant er det nyt­tig å kun­ne (eller kun­ne goog­le) litt regexp eller å kun­ne til­eg­ne seg kunn­skap om ting som GREL (Goog­le Refi­ne Expres­sion Lan­gua­ge). Hel­dig­vis lik­ner det­te mye på Pyt­hon, så om du skul­le lære deg noe om det­te, så lærer du sam­ti­dig små biter om pro­gram­me­ring. Hvis jeg var ansatt som data­jour­na­list i en nyhets­or­ga­ni­sa­sjon, med press om å leve­re ana­ly­ser og data­sett jevn­lig, så vil­le jeg ha satt pen­ge­ne mine på Goog­le refi­ne (dvs, du tren­ger ikke set­te noen pen­ger noe sted, Goog­le refi­ne er gra­tis).

GIS, geografiske informasjonssystemer

Et annet spen­nen­de områ­de der det skjer nye ting er GIS, geo­gra­fis­ke infor­ma­sjons­sys­te­mer. QGIS er et rime­lig sted å star­te for de av oss som ikke har en bak­grunn fra rele­van­te fag­om­rå­der, da QGIS er gra­tis og fin­nes til alle platt­for­mer. En fin intro­duk­sjon fin­ner du på multimedia.journalism.berkeley.edu.

Et annet spen­nen­de pro­sjekt er Til­e­Mill, et verk­tøy for å lage egne kart. Med både en hos­tet løs­ning (noen andre dri­ver ser­ve­ren for deg, map­box), og mulig­he­ten til å lage til­es (de små rek­tan­gu­læ­re bil­de­ne som utgjør et kart i for eksem­pel Goog­le maps, du har helt sik­kert sett dem når du las­ter kart på en treg lin­je eller på mobi­le platt­for­mer) som du kan pub­li­se­re selv, så har du her et impo­ne­ren­de verk­tøy for å for­tel­le his­to­ri­er på kar­tet. For inspi­ra­sjon til hva du kan lage er Chi­ca­go Tri­bunes blogg et fint sted å lete, både for tek­nis­ke ting (som her) og vak­re (og kan­skje noe kon­tro­ver­si­el­le her i Nor­ge?) ting (som geo­gra­fisk for­de­ling av barn under 5 år kodet etter etni­si­tet) se den­ne for mer info om hvor­dan det­te kan gjø­res.

Mer, mer

Nye verk­tøy eva­lu­eres jevn­lig på reviews.reporterslab.org der Sarah Cohen (som snak­ket på Nor­dis­ke medie­da­ger i fjor) er direk­tør. Et verk­tøy som er utvik­let hos repor­ter­slab er time­flow, for grav­en­de jour­na­lis­ter som vil hol­de orden på kro­no­lo­gi­en i en story. Et tids­linje­verk­tøy. Du fin­ner en tuto­rial på git­hub.

På kon­fe­ran­sen nevnt over NICAR12 ble et hope­tall verk­tøy, pro­sjek­ter og arbeids­må­ter pre­sen­tert, mye av det­te lig­ger også på nett slik at du kan se gjen­nom pre­sen­ta­sjo­ner og få tips om verk­tøy og pro­sjek­ter.

En fin lenke­sam­ling fin­ner du også her hos Com­pu­ter­world (via data­dri­ven­jour­na­lism). Et eksem­pel er MITs exhi­bit, som har man­ge visu­ali­se­rings­for­mer godt til­pas­set for­mid­ling som jour­na­lis­tikk. Exhi­bit kre­ver at du eller en rundt deg kan litt html/javascript.

Bøker

Det er ingen tvil om at jeg kas­ter ut en hel mas­se infor­ma­sjon her, og lite, om i det hele tatt noe, står på pen­sum på jour­na­list­høy­sko­le­ne. Det betyr ikke at jour­na­list­høy­sko­le­ne er utda­tert, vert imot, men at det er mye å lære som lig­ger uten­for opp­tråk­ke­de sti­er. For deg som vil job­be med data­jour­na­lis­tikk, i alle fall. Det fin­nes i det hele tatt lite fag­stoff på det­te områ­det, men slik vil det ikke være len­ge.

Fra men­nesker med første­hånds inn­sikt på det­te områ­de kom­mer en crowds­ourcet bok, the Data Jour­na­lism Hand­book. Det­te pro­sjek­tet er godt i gang, mye er fer­dig og du kan se inn­holds­for­teg­nel­se og boken på ide-sta­di­et på Goog­le docs. Se video­en for en intro­duk­sjon til pro­sjek­tet.

Facts are Sacred – the Power of Data ebook fra The Guar­di­an er alt ute. Den kan kjøpes på diver­se digi­ta­le platt­for­mer, og gir inn­sikt i hvor­dan Guar­di­an for­hol­der seg til det­te fel­tet. Boken inne­hol­der mye info og eksemp­ler fra Guar­di­an, men er ikke en «slik gjør du det»-bok. Det er en «det­te har vi gjort og lært»-bok.

I fysis­ke bok­hyl­ler fin­nes det også ting som er verdt å se på. Jeg mener at Phi­lip Mey­ers «Preci­sion Jour­na­lism» er minst like rele­vant i dag som da den først kom på 70-tal­let. Mye av Mey­ers tanke­gods på metode­si­den kan skri­ves om til kode – verk­tøy – og meto­de er essen­sen av algo­rit­mer. På visu­ali­se­rings­fron­ten er og blir Edward Tuf­te kon­gen, og bokens hans «The visu­al dis­play of quanti­ta­ti­ve infor­ma­tion» inne­hol­der et avsnitt som for­kla­rer at boken star­tet etter å ha under­vist jour­na­lis­tikk­stu­den­ter i sta­tis­tisk meto­de. Det­te er en bok enhver jour­na­list bur­de ha i pryd­ut­ga­ve, den er like vak­ker som den er nyt­tig, klar og full av instruk­sjon.

For å hol­de deg opp­da­tert på den­ne fron­ten vil jeg anbe­fa­le RSS-feeden fra Edward Boraskys scoop.it og datadrivenjournalism.net.

Det mest spen­nen­de med det­te områ­det synes jeg er at det er så mye prø­ving og feil­ing på gang. Vi vet ikke helt hvor­dan det­te skal gjø­res, og fra redak­sjon til redak­sjon og pro­sjekt til pro­sjekt prøves uli­ke meto­der og verk­tøy, med varie­ren­de resul­tat. Etter hvert kan vi håpe at det dan­ner seg mønst­re i alt kao­set, slik at meto­der og verk­tøy får en natur­lig plass i en for­nuf­tig og effek­tiv arbeids­flyt. At jeg ikke har snak­ket om Excel som kon­gen av data­jour­na­lis­tikk er ikke for­di det­te ikke er sant (en pågå­en­de stu­die på områ­det kan tyde på at Excel er nors­ke redak­sjo­ners abso­lutt vik­tigs­te verk­tøy for data­be­hand­ling), men for­di Excel alle­re­de fin­nes i de fles­te redak­sjo­ner, det hol­des kurs i det­te og kom­pe­tan­sen på områ­det fin­nes over alt. Excel er et flott verk­tøy, som kan­skje bare bør bru­kes mer?

Hvil­ke verk­tøy bru­ker du til behand­ling, gra­ving og pre­sen­ta­sjon av data? Bruk kom­men­tar­fel­tet, så lager vi en lis­te sam­men!

TEMA

J

ournali
stikk

108 ARTIKLER FRA VOX PUBLICA

FLERE KILDER - FAKTA - KONTEKST

2 KOMMENTARER

KOMMENTÉR
  1. Et tips som har kom­met inn er enda et kart-verk­tøy; kar­to­graph. Det ser gans­ke kult ut. Har du noen erfa­rin­ger med det, eller tips om fle­re verk­tøy?

    http://kartograph.org

  2. Tro­lig har man­ge det enk­le utgangs­punk­tet du nev­ner – «har data, vil ha graf». Det er fak­tisk ikke helt lett å fin­ne tje­nes­ter som hjel­per en med det­te. For den bør ha en del kva­li­te­ter: Det må gå lett og hur­tig. Resul­ta­tet må se pent ut, og må kun­ne til­pas­ses web­si­der (f.eks. bør jus­te­ring av bred­de og far­ger være mulig). 

    I det sis­te har jeg tes­tet Data­wrap­per og iCharts. Noen erfa­rin­ger:

    Data­wrap­per (test­ek­sem­pel): Rime­lig lett å bru­ke, men ingen mulig­he­ter til å påvir­ke far­ger. Lett å pub­li­se­re til web. Pluss for at data­ene pub­li­se­res til ned­las­ting sam­men med figu­ren.

    iCharts (test­ek­sem­pel): Rime­lig lett å bru­ke. Far­ger kan lett end­res. Man­ge figur­ty­per. Data­sett du las­ter opp kan raskt justeres/oppdateres. Lett å pub­li­se­re til web. Minus for at data ikke pub­li­se­res sam­men med figu­ren. iCharts er klart mer gjen­nom­ar­bei­det og «fer­dig» enn Data­wrap­per.

    Når jeg sier «rime­lig lett å bru­ke», mener jeg at man fin­ner ut av det fort hvis man har job­bet litt med data­kil­der før – men man må gjer­ne inn­om FAQ-siden en tur.

Skriv en kommentar

Bidra til god debatt - skriv under fullt navn. Se våre kommentarregler.

Abonner på kommentarer
til toppen