' 
 
 
 
 

Kan mine data gjenbrukes?

Hva er viktig å tenke på når data skal frigis for gjenbruk? Vi har laget et utkast til bruksanvisning.

Pro­sjek­tet Fakta først arbei­der med å kart­legge offent­lige data­kil­der som bl.a. kan bru­kes til jour­na­lis­tiske for­mål. Første inn­legg i blog­gen fikk over­skrif­ten Data er fakta vi kan bruke. Lesere har opp­ford­ret oss til å ta et skritt til­bake og for­klare hvor­dan det rent tek­nisk går til når en virk­som­het fri­gir data for videre­bruk av andre. Hva kre­ves av til­rette­leg­ging, hvilke for­ma­ter er å fore­trekke — det er noen av spørs­må­lene vi for­sø­ker å svare på her.

I infor­ma­sjons­vi­ten­ska­pen beskri­ves data som «bærer av infor­ma­sjon», «en sam­ling sym­bo­ler som når de set­tes sam­men etter bestemte reg­ler, kan gi informasjon«[1]. Før vi har lagt på disse reg­lene omta­les ofte data­set­tene som «rådata». Det er så reg­lene vi bru­ker til å behandle råda­ta­ene som avgjør hvil­ken infor­ma­sjon vi kan få ut av dem. Å dele data åpner for alter­na­tive måter å behandle data­ene på, alter­na­tive regel­sett til å over­sette rådata til infor­ma­sjon. Hvis dette gjø­res på meto­disk hold­bare måter blir data­ene omgjort til infor­ma­sjon vi kan bruke. I beste fall hjel­per dette oss til å basere vår for­stå­else av ver­den på fakta.

Hva skal til for at data skal kunne gjenbrukes?

Enkelt sagt bør data­ene være platt­for­m­uav­hen­gige, maskin­les­bare og ha en tyde­lig struk­tur. Det betyr at de kan bru­kes på en hvil­ken som helst data­ma­skin, og må være mulig å hånd­tere med pro­gram­kode uten at et men­nes­ke­lig øye og tolk­ning må til for å for­stå inn­hol­det. Struk­tur og meta­data (data om data) hjel­per oss å gjøre dette mulig.

Gapminders Trendalyzer forsøker å hjelpe oss å danne et faktabasert verdensbilde, basert på offentilig data (statistikk)

Pro­fes­sor i inter­na­sjo­nal helse, Hans Rosling, har gjort seg til ver­dens­kjent for­kjem­per for å frigi offent­lige sta­ti­stik­ker ver­den over. Her illust­rert ved et skjerm­bilde fra hans pro­sjekt Gap­min­ders pro­gram­vare Tren­da­ly­zer som her viser ver­dens land for­delt etter leve­al­der og inntekt.

Hvilke data?

Inten­sjo­nen bak fri­slipp av offent­lige data er ikke bare målet om gjen­nom­sik­tig­het, men også inno­va­sjon. Hvilke pro­duk­ter og tje­nes­ter som byg­ges på grunn­lag av data som deles aner vi lite om før data­ene er til­gjen­ge­lig. Når data som tid­li­gere har vært skjult bak kom­mune­grå veg­ger åpnes, åpnes også et poten­sial for friske øyne til å se nye måter å skrive kode som omdan­ner rådata til informasjon.

Litt enkelt: hvis fri­slipp ikke inn­e­bæ­rer bety­de­lig ulempe for andre (per­son­vern, kon­kur­ranse­hen­syn, med mer) og er betalt av skatte­be­ta­lerne, så bør data­ene frislippes.

Hva slags for­mat skal jeg dele i?

Vik­tigst av alt, for­ma­ter like­sin­nede kan bruke. Er du usik­ker, del det du tror andre kan bruke. Men dette er ikke all­tid et enkelt spørs­mål å besvare, det kom­mer i stor grad an på hva slags data du har.

Det er vans­ke­lig å kate­go­ri­sere data­kil­der, offent­lige så vel som andre. Hvor ofte data­set­tene end­res og hvor store de er kan gi en indi­ka­sjon på hvor­dan de bør deles.

Enkelte data­sett er små og opp­da­te­res sjel­dent, slik som navn på fyl­ker og kom­mu­ner, post­num­mer, fly­plas­ser, politi-, helse og sosial­dis­trikt, osv. Slike data­sett kan gjerne være til­gjen­ge­lig som flate filer. Med «flate filer» menes data­fi­ler som er strip­pet for pro­gram­spe­si­fikke koder og nota­sjo­ner, slik at data­ene kan leses av ulik pro­gram­vare. Erik Bol­stad deler for­bil­led­lig post­num­mer­re­gis­te­ret etter en opp­ryd­nings­dug­nad i som­mer.

Data som sjel­dent eller aldri blir opp­da­tert bør deles åpent på nett, slik at søke­mo­to­rer kan hjelpe folk å finne ut at disse data­ene eksis­te­rer. Dette tren­ger ikke være mer kom­pli­sert enn å legge filene med beskri­velse til­gjen­ge­lig på nett.

Dette er på ingen måte noen «best prac­tice» for deling av data, men det er en metode med lav ters­kel for å komme i gang. Flate filer kre­ver at de som skal gjen­bruke data­ene må reor­ga­ni­sere data­enes logiske struk­tur, en poten­si­elt tid­kre­vende og vans­ke­lig opp­gave, som kan resul­tere i urik­tige tolk­nin­ger av dataene.

Data som ofte opp­da­te­res kan også leg­ges på nett som filer, men dette ska­per fort mye manu­elt arbeid for alle par­ter. Med store data­sett likeså.

Gi oss et API!

Et API er et pro­gram­me­rings­grense­snitt som mulig­gjør kom­mu­ni­ka­sjon mel­lom pro­gram­vare. I mange til­fel­ler vil det som er mest aktu­elt være et web-API, altså et grense­snitt en pro­gram­me­rer kan nå over http (pro­to­kol­len weben er byg­get på).

Litt enkelt igjen: når du peker nett­le­se­ren din til www.uib.no, så sva­rer web­ser­ve­ren som denne web­si­den er lag­ret på med å ser­vere deg html som nett­le­se­ren viser som en web­side. Den kunne (og kan) like­le­des svare med andre for­ma­ter, som XML, JSON, RSS, kom­mase­pa­rerte ver­dier, SVG, et bilde, osv. «Sva­ret», altså de data­ene som sen­des til­bake etter at et kall er utført, kan behand­les videre i den pro­gram­va­ren som utførte kal­let. Ved å defi­nere et sett med reg­ler for hvilke res­sur­ser som kan nås med ulike meto­der og para­metre, kan data raskt, pre­sist og enkelt utveksles.

Når data deles på denne måten kal­les tje­nes­ten for en web ser­vice, som er et av tema­ene vi leg­ger i ideen om den seman­tiske veven [2].

Yr.no har fått mye for­tjent kudos for sitt fri­slipp av vær­data, og ved å lese doku­men­ta­sjo­nen deres får vi et inn­trykk av hvor­dan dette kan gjø­res. NRK grub­ler på hvor­dan de kan gjøre noe lik­nende, det samme gjør SSB.no under pro­sjekt­nav­net Nye ssb.no (se eget blogg­inn­legg om SSBs nett­pla­ner).

Doku­men­ta­sjon er et nøk­kel­ord her. For at en slik tje­neste skal være vir­ke­lig nyt­tig bør doku­men­ta­sjo­nen være bru­ker­venn­lig. Google kan trek­kes fram som et godt eksem­pel. Deres tje­nes­ter som har et offent­lig API er som regel doku­men­tert i detalj og med gode eksemp­ler med kode. Google Maps API er et eksem­pel for kart. Se også Flickr for bil­der, Last.fm for nettsamfunn/musikkdata, osv. Nye tje­nes­ter som duk­ker opp og blir popu­lære på nett har ofte et doku­men­tert API som gjør at data lett kan gjenbrukes.

RSS er din venn. Uan­sett hva slags infor­ma­sjons­ka­nal du deler på nett er det noen som er inter­es­sert i å vite når du pub­li­se­rer noe nytt. Hvis du sit­ter på data som ure­gel­mes­sig pro­du­se­res og er ufor­ut­sig­bare av natur (kalen­der­data den ene dagen, infor­ma­sjons­skriv, kart eller bil­der den neste) så er det bedre at vi får vite at noe nytt er på gang fram­for å måtte tråle weben kontinuerlig.

Men vik­tigst: Vi må vite hva vi ser etter

Vi tren­ger også en norsk utgave av data.gov, en sam­let over­sikt over rådata på ett sted. Dans­kene har det alle­rede i digitaliser.dk, og en bri­tisk ver­sjon er rett rundt hjør­net. Kart­leg­gings­pro­sjek­tet vi infor­me­rer om på denne blog­gen har begynt på en slik over­sikt. Det er i det hele tatt god grunn til å tro at det bare er et spørs­mål om tid før et norsk data.gov kom­mer. Forsk­nings­pro­sjek­tet Semico­lon har slike pla­ner, som det frem­går her. Det er også pri­vate ini­tia­ti­ver; nylig har Sondre Bjel­lås star­tet wikien datakilder.no.

Som Nick Diakopou­los påpe­ker bør en slik sen­tral sam­ling av data­kil­der inn­e­holde auto­ma­tisk spo­ring (f.eks. ved tra­ck­backs) av pro­sjek­ter som byg­ger på data her­fra. Slik kan vi bygge på hver­and­res erfa­rin­ger og kode, og unngå dobbeltarbeid.

Det største pro­ble­met for kart­leg­ging av offent­lige data sett fra en pro­su­ments per­spek­tiv, er at vi ikke vet hva vi ser etter. Først når vi vet hvilke rådata som fin­nes, kan vi begynne å gruble over hvor­dan disse data­ene kan omfor­mes til sam­funns­nyt­tig informasjon.

Refe­ran­ser

  1. Trond R. Braad­land, Inn­fø­ring i infor­ma­sjons­be­hand­ling (Fag­bok­forl., 2002), books.google.com.
  2. Tho­mas B. Pas­sin, Explorer’s Guide to the Seman­tic Web (Man­ning Pub­li­ca­tions, 2004).

4 KOMMENTARER

KOMMENTÉR
  1. […] pla­ka­tene lager jeg i Pho­tos­hop, men tek­nik­kene jeg bru­ker i utfor­min­gen varie­rer. Pla­ka­ten om gjen­bruk av data som jeg lagde i for­rige uke hadde for eksem­pel utangs­punkt i et gra­tis pro­gram for å kode-tegne […]

  2. Selv om alle web api’er er et pluss så er det ofte store pro­ble­mer og utford­rin­ger knyt­tet til SOAP. Det er en for­del å bruke et API som er basert på REST prin­sip­pene http://en.wikipedia.org/wiki/Representational_State_Transfer for størst mulig åpenhet.

  3. […] om de kan gjøre data til­gjen­ge­lig i det for­ma­tet eller på den måten du øns­ker. Vis gjerne til den lille bruks­an­vis­nin­gen Vox Pub­lica har laget, og pla­ka­ten som illust­re­rer de ulike fasene i fri­gi­velse av […]

Skriv en kommentar

Bidra til god debatt - skriv under fullt navn. Se våre kommentarregler.

Abonner på kommentarer
til toppen