' 
 
 
 
 

Verktøy for datajournalistikk

Det kommer stadig nye og gode verktøy for datajournalister - uten at du må være programmerer. En oversikt.

Sta­dig mer digi­tal infor­ma­sjon i sam­fun­net ska­per behov for sta­dig nye og bedre verk­tøy for å ana­ly­sere, visu­ali­sere og pre­sen­tere infor­ma­sjon. For pres­sen, som må kunne ori­en­tere seg mot all ver­dens ulike data og data­kil­der, er dette et kapp­løp av nybrotts­ar­beid — en nyori­en­te­ring som sta­dig tar nye svin­ger. I dette inn­leg­get tar jeg for meg en sam­ling av verk­tøy for data­jour­na­lis­ter som ikke selv programmerer.

Datadrivenjournalism.net skri­ver jevn­lig om dette. Nylig skreiv de om data­wrap­per, laget av abzv.

Data­wrap­per

Data­wrap­per er et lite pro­gram som hjel­per deg å lage gra­fer. Så langt er det rela­tivt enkle gra­fer som stolpe­dia­gram, kake­dia­gram og linje­dia­gram som er til­gjen­ge­lige. Dette er ting som også lett kan lages i for eksem­pel Excel, men data­wrap­per gjør dette til en klipp-og-lim pro­sess, der resul­ta­tet er laget i html5 som er nyt­tig for nett­ut­ga­ver, lese­pla­ter og mobile enhe­ter. Typisk har slike gra­fer litt eks­tra funk­sjo­na­li­tet, som et sta­tisk bilde fra Excel ikke har. Essen­sen av data­wrap­per er å knytte dine data sam­men med java­script­bi­blio­tek som highcharts, flotr2 og d3, uten at du tren­ger å vite mer enn at du har data og vil ha graf. Som et open source-prosjekt er det mulig å utvide data­wrap­per med flere visu­ali­se­rings­bi­blio­tek og visu­ali­se­rings­ty­per etter hvert. Koden er skre­vet i PHP og er lett å følge for de som vil.

Pro­gram­me­rende jour­na­list Dan Nguyen har skre­vet en intro­duk­sjon til pro­gram­me­ring i nyhets­re­dak­sjo­ner med tit­te­len Code, Don’t Tell: Pro­gram­ming as an Essen­tial Jour­na­lism Skill. I et avsnitt om «prac­ti­cal road­map for non-programmers» anbe­fa­ler han å opp­rette konto hos Twit­ter, Drop­box og Google. Sist­nevn­tes tje­neste Google docs har jeg sett er sær­lig popu­lært også i norske redak­sjo­ner, da mulig­he­ten for å dele data, sam­ar­beide og å pub­li­sere data fra Google spre­ads­heet (for eksem­pel som json) kan korte ned antall skritt i en fel­les arbeids­flyt. NB: sen­si­tive data bør ikke leg­ges ut på inter­nett. Da kan hel­ler en lokal instal­la­sjon av Panda kan­skje være en idé?

Panda — pandaproject.net

Panda er et pro­sjekt med støtte fra Knight Foun­da­tion som søker å lage «A News­room Data Appli­ance» — en fel­les lag­rings­plass for data i en nyhets­re­dak­sjon. Panda er i hur­tig utvik­ling, så selv om ikke alt man kunne ønske seg fin­nes ennå, så er det gode mulig­he­ter for mye kom­mer etter hvert. Utvik­lerne, Chris­top­her Gro­skopf og Brian Boyer (begge til­knyt­tet Chi­cago Tri­bune) dis­ku­te­rer til sta­dig­het utvik­lin­gen på git­hub og Twit­ter. Panda ble nylig pre­sen­tert på en NICAR-kon­fe­ranse, og mot­ta­gel­sen beskri­ves som svært god. Panda er ment å kjø­res lokalt for hver redak­sjon, eller i «skyen». Det er lag­ring og søk som så langt er hoved­fo­ku­set til dette pro­sjek­tet, hvilke skritt som tas videre og hvor­dan dette blir brukt blir spen­nende å se. For en demo, se demo.pandaproject.net. Med APIer og utvi­del­ser i sta­dig utvik­ling må det for eksem­pel være lov å drømme om tett inte­gra­sjon med Google refine.

Google refine

Jeg har tid­li­gere blog­get om refine, men på tross av at jeg ikke bru­ker pro­gram­met jevn­lig selv, blir jeg sta­dig over­ras­ket hver gang jeg tar det fram. Google refine er ikke bare et glim­rende verk­tøy for å vaske og restruk­tu­rere data, det er også er impo­ne­rende kraf­tig verk­tøy for å gjøre ana­ly­ser og å grave i data. Google refine er ikke det mest intui­tive verk­tøyet i ver­den, og i blant er det nyt­tig å kunne (eller kunne google) litt regexp eller å kunne til­egne seg kunn­skap om ting som GREL (Google Refine Expres­sion Lan­guage). Hel­dig­vis lik­ner dette mye på Pyt­hon, så om du skulle lære deg noe om dette, så lærer du sam­ti­dig små biter om pro­gram­me­ring. Hvis jeg var ansatt som data­jour­na­list i en nyhets­or­ga­ni­sa­sjon, med press om å levere ana­ly­ser og data­sett jevn­lig, så ville jeg ha satt pen­gene mine på Google refine (dvs, du tren­ger ikke sette noen pen­ger noe sted, Google refine er gratis).

GIS, geo­gra­fiske informasjonssystemer

Et annet spen­nende område der det skjer nye ting er GIS, geo­gra­fiske infor­ma­sjons­sys­te­mer. QGIS er et rime­lig sted å starte for de av oss som ikke har en bak­grunn fra rele­vante fag­om­rå­der, da QGIS er gra­tis og fin­nes til alle platt­for­mer. En fin intro­duk­sjon fin­ner du på multimedia.journalism.berkeley.edu.

Et annet spen­nende pro­sjekt er Til­e­Mill, et verk­tøy for å lage egne kart. Med både en hos­tet løs­ning (noen andre dri­ver ser­ve­ren for deg, map­box), og mulig­he­ten til å lage tiles (de små rek­tan­gu­lære bil­dene som utgjør et kart i for eksem­pel Google maps, du har helt sik­kert sett dem når du las­ter kart på en treg linje eller på mobile platt­for­mer) som du kan pub­li­sere selv, så har du her et impo­ne­rende verk­tøy for å for­telle his­to­rier på kar­tet. For inspi­ra­sjon til hva du kan lage er Chi­cago Tri­bu­nes blogg et fint sted å lete, både for tek­niske ting (som her) og vakre (og kan­skje noe kon­tro­ver­si­elle her i Norge?) ting (som geo­gra­fisk for­de­ling av barn under 5 år kodet etter etni­si­tet) se denne for mer info om hvor­dan dette kan gjøres.

Mer, mer

Nye verk­tøy eva­lu­eres jevn­lig på reviews.reporterslab.org der Sarah Cohen (som snak­ket på Nor­diske medie­da­ger i fjor) er direk­tør. Et verk­tøy som er utvik­let hos repor­ter­slab er time­flow, for grav­ende jour­na­lis­ter som vil holde orden på kro­no­lo­gien i en story. Et tids­linje­verk­tøy. Du fin­ner en tuto­rial på git­hub.

På kon­fe­ran­sen nevnt over NICAR12 ble et hope­tall verk­tøy, pro­sjek­ter og arbeids­må­ter pre­sen­tert, mye av dette lig­ger også på nett slik at du kan se gjen­nom pre­sen­ta­sjo­ner og få tips om verk­tøy og prosjekter.

En fin lenke­sam­ling fin­ner du også her hos Com­pu­ter­world (via data­dri­ven­jour­na­lism). Et eksem­pel er MITs exhi­bit, som har mange visu­ali­se­rings­for­mer godt til­pas­set for­mid­ling som jour­na­lis­tikk. Exhi­bit kre­ver at du eller en rundt deg kan litt html/javascript.

Bøker

Det er ingen tvil om at jeg kas­ter ut en hel masse infor­ma­sjon her, og lite, om i det hele tatt noe, står på pen­sum på jour­na­list­høy­sko­lene. Det betyr ikke at jour­na­list­høy­sko­lene er utda­tert, vert imot, men at det er mye å lære som lig­ger uten­for opp­tråk­kede stier. For deg som vil jobbe med data­jour­na­lis­tikk, i alle fall. Det fin­nes i det hele tatt lite fag­stoff på dette områ­det, men slik vil det ikke være lenge.

Fra men­nes­ker med første­hånds inn­sikt på dette område kom­mer en crowds­ourcet bok, the Data Jour­na­lism Hand­book. Dette pro­sjek­tet er godt i gang, mye er fer­dig og du kan se inn­holds­for­teg­nelse og boken på ide-stadiet på Google docs. Se videoen for en intro­duk­sjon til pro­sjek­tet.

Facts are Sacred — the Power of Data ebook fra The Guar­dian er alt ute. Den kan kjø­pes på diverse digi­tale platt­for­mer, og gir inn­sikt i hvor­dan Guar­dian for­hol­der seg til dette fel­tet. Boken inn­e­hol­der mye info og eksemp­ler fra Guar­dian, men er ikke en «slik gjør du det»-bok. Det er en «dette har vi gjort og lært»-bok.

I fysiske bok­hyl­ler fin­nes det også ting som er verdt å se på. Jeg mener at Phi­lip Mey­ers «Preci­sion Jour­na­lism» er minst like rele­vant i dag som da den først kom på 70-tallet. Mye av Mey­ers tanke­gods på metode­si­den kan skri­ves om til kode — verk­tøy — og metode er essen­sen av algo­rit­mer. På visu­ali­se­rings­fron­ten er og blir Edward Tufte kon­gen, og bokens hans «The visual dis­play of quanti­ta­tive infor­ma­tion» inn­e­hol­der et avsnitt som for­kla­rer at boken star­tet etter å ha under­vist jour­na­lis­tikk­stu­den­ter i sta­tis­tisk metode. Dette er en bok enhver jour­na­list burde ha i pryd­ut­gave, den er like vak­ker som den er nyt­tig, klar og full av instruksjon.

For å holde deg opp­da­tert på denne fron­ten vil jeg anbe­fale RSS-feeden fra Edward Boraskys scoop.it og datadrivenjournalism.net.

Det mest spen­nende med dette områ­det synes jeg er at det er så mye prø­ving og feil­ing på gang. Vi vet ikke helt hvor­dan dette skal gjø­res, og fra redak­sjon til redak­sjon og pro­sjekt til pro­sjekt prø­ves ulike meto­der og verk­tøy, med varie­rende resul­tat. Etter hvert kan vi håpe at det dan­ner seg mønstre i alt kao­set, slik at meto­der og verk­tøy får en natur­lig plass i en for­nuf­tig og effek­tiv arbeids­flyt. At jeg ikke har snak­ket om Excel som kon­gen av data­jour­na­lis­tikk er ikke fordi dette ikke er sant (en pågå­ende stu­die på områ­det kan tyde på at Excel er norske redak­sjo­ners abso­lutt vik­tigste verk­tøy for data­be­hand­ling), men fordi Excel alle­rede fin­nes i de fleste redak­sjo­ner, det hol­des kurs i dette og kom­pe­tan­sen på områ­det fin­nes over alt. Excel er et flott verk­tøy, som kan­skje bare bør bru­kes mer?

Hvilke verk­tøy bru­ker du til behand­ling, gra­ving og pre­sen­ta­sjon av data? Bruk kom­men­tar­fel­tet, så lager vi en liste sammen!

2 KOMMENTARER

KOMMENTÉR
  1. Et tips som har kom­met inn er enda et kart-verktøy; kar­to­graph. Det ser ganske kult ut. Har du noen erfa­rin­ger med det, eller tips om flere verktøy?

    http://kartograph.org

  2. Tro­lig har mange det enkle utgangs­punk­tet du nev­ner — «har data, vil ha graf». Det er fak­tisk ikke helt lett å finne tje­nes­ter som hjel­per en med dette. For den bør ha en del kva­li­te­ter: Det må gå lett og hur­tig. Resul­ta­tet må se pent ut, og må kunne til­pas­ses web­si­der (f.eks. bør jus­te­ring av bredde og far­ger være mulig).

    I det siste har jeg tes­tet Data­wrap­per og iCharts. Noen erfaringer:

    Data­wrap­per (test­ek­sem­pel): Rime­lig lett å bruke, men ingen mulig­he­ter til å påvirke far­ger. Lett å pub­li­sere til web. Pluss for at data­ene pub­li­se­res til ned­las­ting sam­men med figuren.

    iCharts (test­ek­sem­pel): Rime­lig lett å bruke. Far­ger kan lett end­res. Mange figur­ty­per. Data­sett du las­ter opp kan raskt justeres/oppdateres. Lett å pub­li­sere til web. Minus for at data ikke pub­li­se­res sam­men med figu­ren. iCharts er klart mer gjen­nom­ar­bei­det og «fer­dig» enn Datawrapper.

    Når jeg sier «rime­lig lett å bruke», mener jeg at man fin­ner ut av det fort hvis man har job­bet litt med data­kil­der før — men man må gjerne innom FAQ-siden en tur.

Skriv en kommentar

Bidra til god debatt - skriv under fullt navn. Se våre kommentarregler.

Abonner på kommentarer
til toppen