Kan mine data gjenbrukes?

Hva er viktig å tenke på når data skal frigis for gjenbruk? Vi har laget et utkast til bruksanvisning.

Pro­sjek­tet Fak­ta først arbei­der med å kart­leg­ge offent­li­ge data­kil­der som bl.a. kan bru­kes til jour­na­lis­tis­ke for­mål. Førs­te inn­legg i blog­gen fikk over­skrif­ten Data er fak­ta vi kan bru­ke. Lese­re har opp­ford­ret oss til å ta et skritt til­ba­ke og for­kla­re hvor­dan det rent tek­nisk går til når en virk­som­het fri­gir data for videre­bruk av and­re. Hva kre­ves av til­rette­leg­ging, hvil­ke for­ma­ter er å fore­trek­ke — det er noen av spørs­må­le­ne vi for­sø­ker å sva­re på her.

I infor­ma­sjons­vi­ten­ska­pen beskri­ves data som «bærer av infor­ma­sjon», «en sam­ling sym­bo­ler som når de set­tes sam­men etter bestem­te reg­ler, kan gi informasjon»[1]. Før vi har lagt på dis­se reg­le­ne omta­les ofte data­set­te­ne som «rådata». Det er så reg­le­ne vi bru­ker til å behand­le råda­ta­ene som avgjør hvil­ken infor­ma­sjon vi kan få ut av dem. Å dele data åpner for alter­na­ti­ve måter å behand­le data­ene på, alter­na­ti­ve regel­sett til å over­set­te rådata til infor­ma­sjon. Hvis det­te gjø­res på meto­disk hold­ba­re måter blir data­ene omgjort til infor­ma­sjon vi kan bru­ke. I bes­te fall hjel­per det­te oss til å base­re vår for­stå­el­se av ver­den på fak­ta.

Hva skal til for at data skal kunne gjenbrukes?

Enkelt sagt bør data­ene være platt­for­m­uav­hen­gi­ge, maskin­les­ba­re og ha en tyde­lig struk­tur. Det betyr at de kan bru­kes på en hvil­ken som helst data­ma­skin, og må være mulig å hånd­te­re med pro­gram­kode uten at et men­nes­ke­lig øye og tolk­ning må til for å for­stå inn­hol­det. Struk­tur og meta­data (data om data) hjel­per oss å gjø­re det­te mulig.

Gapminders Trendalyzer forsøker å hjelpe oss å danne et faktabasert verdensbilde, basert på offentilig data (statistikk)

Pro­fes­sor i inter­na­sjo­nal helse, Hans Rosling, har gjort seg til ver­dens­kjent for­kjem­per for å fri­gi offent­li­ge sta­ti­stik­ker ver­den over. Her illust­rert ved et skjerm­bil­de fra hans pro­sjekt Gap­min­ders pro­gram­vare Tren­da­ly­zer som her viser ver­dens land for­delt etter leve­al­der og inn­tekt.

Hvilke data?

Inten­sjo­nen bak fri­slipp av offent­li­ge data er ikke bare målet om gjen­nom­sik­tig­het, men også inno­va­sjon. Hvil­ke pro­duk­ter og tje­nes­ter som byg­ges på grunn­lag av data som deles aner vi lite om før data­ene er til­gjen­ge­lig. Når data som tid­li­ge­re har vært skjult bak kom­mune­grå veg­ger åpnes, åpnes også et poten­si­al for fris­ke øyne til å se nye måter å skri­ve kode som omdan­ner rådata til infor­ma­sjon.

Litt enkelt: hvis fri­slipp ikke inne­bæ­rer bety­de­lig ulem­pe for and­re (per­son­vern, kon­kur­ranse­hen­syn, med mer) og er betalt av skatte­be­ta­ler­ne, så bør data­ene fri­slip­pes.

Hva slags format skal jeg dele i?

Vik­tigst av alt, for­ma­ter like­sin­ne­de kan bru­ke. Er du usik­ker, del det du tror and­re kan bru­ke. Men det­te er ikke all­tid et enkelt spørs­mål å besva­re, det kom­mer i stor grad an på hva slags data du har.

Det er vans­ke­lig å kate­go­ri­se­re data­kil­der, offent­li­ge så vel som and­re. Hvor ofte data­set­te­ne end­res og hvor sto­re de er kan gi en indi­ka­sjon på hvor­dan de bør deles.

Enkel­te data­sett er små og opp­da­te­res sjel­dent, slik som navn på fyl­ker og kom­mu­ner, post­num­mer, fly­plas­ser, politi‑, helse og sosial­dis­trikt, osv. Sli­ke data­sett kan gjer­ne være til­gjen­ge­lig som fla­te filer. Med «fla­te filer» menes data­fi­ler som er strip­pet for pro­gram­spe­si­fik­ke koder og nota­sjo­ner, slik at data­ene kan leses av ulik pro­gram­vare. Erik Bol­stad deler for­bil­led­lig post­num­mer­re­gis­te­ret etter en opp­ryd­nings­dug­nad i som­mer.

Data som sjel­dent eller ald­ri blir opp­da­tert bør deles åpent på nett, slik at søke­mo­to­rer kan hjel­pe folk å fin­ne ut at dis­se data­ene eksis­te­rer. Det­te tren­ger ikke være mer kom­pli­sert enn å leg­ge file­ne med beskri­vel­se til­gjen­ge­lig på nett.

Det­te er på ingen måte noen «best prac­tice» for deling av data, men det er en meto­de med lav ters­kel for å kom­me i gang. Fla­te filer kre­ver at de som skal gjen­bru­ke data­ene må reor­ga­ni­se­re data­enes logis­ke struk­tur, en poten­si­elt tid­kre­ven­de og vans­ke­lig opp­ga­ve, som kan resul­te­re i urik­ti­ge tolk­nin­ger av data­ene.

Data som ofte opp­da­te­res kan også leg­ges på nett som filer, men det­te ska­per fort mye manu­elt arbeid for alle par­ter. Med sto­re data­sett like­så.

Gi oss et API!

Et API er et pro­gram­me­rings­grense­snitt som mulig­gjør kom­mu­ni­ka­sjon mel­lom pro­gram­vare. I man­ge til­fel­ler vil det som er mest aktu­elt være et web-API, alt­så et grense­snitt en pro­gram­me­rer kan nå over http (pro­to­kol­len weben er byg­get på).

Litt enkelt igjen: når du peker nett­le­se­ren din til www.uib.no, så sva­rer web­ser­ve­ren som den­ne web­si­den er lag­ret på med å ser­ve­re deg html som nett­le­se­ren viser som en web­side. Den kun­ne (og kan) like­le­des sva­re med and­re for­ma­ter, som XML, JSON, RSS, kom­mase­pa­rer­te ver­di­er, SVG, et bil­de, osv. «Sva­ret», alt­så de data­ene som sen­des til­ba­ke etter at et kall er utført, kan behand­les vide­re i den pro­gram­va­ren som utfør­te kal­let. Ved å defi­ne­re et sett med reg­ler for hvil­ke res­sur­ser som kan nås med uli­ke meto­der og para­met­re, kan data raskt, pre­sist og enkelt utveks­les.

Når data deles på den­ne måten kal­les tje­nes­ten for en web ser­vice, som er et av tema­ene vi leg­ger i ide­en om den seman­tis­ke veven [2].

Yr.no har fått mye for­tjent kudos for sitt fri­slipp av vær­data, og ved å lese doku­men­ta­sjo­nen deres får vi et inn­trykk av hvor­dan det­te kan gjø­res. NRK grub­ler på hvor­dan de kan gjø­re noe lik­nen­de, det sam­me gjør SSB.no under pro­sjekt­nav­net Nye ssb.no (se eget blogg­inn­legg om SSBs nett­pla­ner).

Doku­men­ta­sjon er et nøk­kel­ord her. For at en slik tje­nes­te skal være vir­ke­lig nyt­tig bør doku­men­ta­sjo­nen være bru­ker­venn­lig. Goog­le kan trek­kes fram som et godt eksem­pel. Deres tje­nes­ter som har et offent­lig API er som regel doku­men­tert i detalj og med gode eksemp­ler med kode. Goog­le Maps API er et eksem­pel for kart. Se også Flickr for bil­der, Last.fm for nettsamfunn/musikkdata, osv. Nye tje­nes­ter som duk­ker opp og blir popu­læ­re på nett har ofte et doku­men­tert API som gjør at data lett kan gjen­bru­kes.

RSS er din venn. Uan­sett hva slags infor­ma­sjons­ka­nal du deler på nett er det noen som er inter­es­sert i å vite når du pub­li­se­rer noe nytt. Hvis du sit­ter på data som ure­gel­mes­sig pro­du­se­res og er ufor­ut­sig­ba­re av natur (kalen­der­data den ene dagen, infor­ma­sjons­skriv, kart eller bil­der den nes­te) så er det bed­re at vi får vite at noe nytt er på gang fram­for å måt­te trå­le weben kon­ti­nu­er­lig.

Men viktigst: Vi må vite hva vi ser etter

Vi tren­ger også en norsk utga­ve av data.gov, en sam­let over­sikt over rådata på ett sted. Dans­ke­ne har det alle­re­de i digitaliser.dk, og en bri­tisk ver­sjon er rett rundt hjør­net. Kart­leg­gings­pro­sjek­tet vi infor­me­rer om på den­ne blog­gen har begynt på en slik over­sikt. Det er i det hele tatt god grunn til å tro at det bare er et spørs­mål om tid før et norsk data.gov kom­mer. Forsk­nings­pro­sjek­tet Semico­lon har sli­ke pla­ner, som det frem­går her. Det er også pri­va­te ini­tia­ti­ver; nylig har Sond­re Bjel­l­ås star­tet wiki­en datakilder.no.

Som Nick Diakopou­los påpe­ker bør en slik sen­tral sam­ling av data­kil­der inne­hol­de auto­ma­tisk spo­ring (f.eks. ved tra­ck­backs) av pro­sjek­ter som byg­ger på data her­fra. Slik kan vi byg­ge på hver­and­res erfa­rin­ger og kode, og unn­gå dob­belt­ar­beid.

Det størs­te pro­ble­met for kart­leg­ging av offent­li­ge data sett fra en pro­su­ments per­spek­tiv, er at vi ikke vet hva vi ser etter. Først når vi vet hvil­ke rådata som fin­nes, kan vi begyn­ne å grub­le over hvor­dan dis­se data­ene kan omfor­mes til sam­funns­nyt­tig infor­ma­sjon.

Referanser

  1. Trond R. Braad­land, Inn­fø­ring i infor­ma­sjons­be­hand­ling (Fag­bok­forl., 2002), books.google.com.
  2. Tho­mas B. Pas­sin, Explo­rer’s Guide to the Seman­tic Web (Man­ning Pub­li­ca­tions, 2004).

TEMA

O

ffentli
ge data

116 ARTIKLER FRA VOX PUBLICA

FLERE KILDER - FAKTA - KONTEKST

4 KOMMENTARER

  1. […] Kan mine data gjen­bru­kes? — […]

  2. […] pla­ka­te­ne lager jeg i Pho­tos­hop, men tek­nik­ke­ne jeg bru­ker i utfor­min­gen varie­rer. Pla­ka­ten om gjen­bruk av data som jeg lag­de i for­ri­ge uke had­de for eksem­pel utangs­punkt i et gra­tis pro­gram for å kode-teg­ne […]

  3. Selv om alle web api’er er et pluss så er det ofte sto­re pro­ble­mer og utford­rin­ger knyt­tet til SOAP. Det er en for­del å bru­ke et API som er basert på REST prin­sip­pe­ne http://en.wikipedia.org/wiki/Representational_State_Transfer for størst mulig åpen­het.

  4. […] om de kan gjø­re data til­gjen­ge­lig i det for­ma­tet eller på den måten du øns­ker. Vis gjer­ne til den lil­le bruks­an­vis­nin­gen Vox Pub­li­ca har laget, og pla­ka­ten som illust­re­rer de uli­ke fase­ne i fri­gi­vel­se av […]

til toppen