Kan mine data gjenbrukes?

Hva er viktig å tenke på når data skal frigis for gjenbruk? Vi har laget et utkast til bruksanvisning.

Pros­jek­tet Fak­ta først arbei­der med å kart­legge offentlige datak­ilder som bl.a. kan brukes til jour­nal­is­tiske for­mål. Første inn­legg i bloggen fikk over­skriften Data er fak­ta vi kan bruke. Lesere har opp­for­dret oss til å ta et skritt tilbake og fork­lare hvor­dan det rent teknisk går til når en virk­somhet fri­gir data for videre­bruk av andre. Hva kreves av tilret­te­leg­ging, hvilke for­mater er å fore­trekke — det er noen av spørsmå­lene vi forsøk­er å svare på her.

I infor­masjonsviten­skapen beskrives data som “bær­er av infor­masjon”, “en sam­ling sym­bol­er som når de settes sam­men etter bestemte regler, kan gi informasjon”[1]. Før vi har lagt på disse reg­lene omtales ofte dataset­tene som “råda­ta”. Det er så reg­lene vi bruk­er til å behan­dle rådataene som avgjør hvilken infor­masjon vi kan få ut av dem. Å dele data åpn­er for alter­na­tive måter å behan­dle dataene på, alter­na­tive regelsett til å over­sette råda­ta til infor­masjon. Hvis dette gjøres på metodisk hold­bare måter blir dataene omgjort til infor­masjon vi kan bruke. I beste fall hjelper dette oss til å basere vår forståelse av ver­den på fakta.

Hva skal til for at data skal kunne gjenbrukes?

Enkelt sagt bør dataene være plat­tfor­muavhengige, maskin­les­bare og ha en tydelig struk­tur. Det betyr at de kan brukes på en hvilken som helst data­maskin, og må være mulig å håndtere med pro­gramkode uten at et men­neske­lig øye og tolkn­ing må til for å forstå innhold­et. Struk­tur og meta­da­ta (data om data) hjelper oss å gjøre dette mulig.

Gapminders Trendalyzer forsøker å hjelpe oss å danne et faktabasert verdensbilde, basert på offentilig data (statistikk)

Pro­fes­sor i inter­nasjon­al helse, Hans Rosling, har gjort seg til ver­den­skjent fork­jem­per for å fri­gi offentlige sta­tis­tikker ver­den over. Her illus­tr­ert ved et skjerm­bilde fra hans pros­jekt Gap­min­ders pro­gram­vare Tren­d­a­lyz­er som her vis­er ver­dens land fordelt etter lev­ealder og inntekt.

Hvilke data?

Inten­sjo­nen bak fris­lipp av offentlige data er ikke bare målet om gjen­nom­sik­tighet, men også inno­vasjon. Hvilke pro­duk­ter og tjen­ester som bygges på grunnlag av data som deles aner vi lite om før dataene er tilgjen­gelig. Når data som tidligere har vært skjult bak kom­mune­grå veg­ger åpnes, åpnes også et poten­sial for friske øyne til å se nye måter å skrive kode som omdan­ner råda­ta til informasjon.

Litt enkelt: hvis fris­lipp ikke innebær­er bety­delig ulempe for andre (per­son­vern, konkur­ranse­hen­syn, med mer) og er betalt av skat­te­be­talerne, så bør dataene frislippes. 

Hva slags format skal jeg dele i?

Vik­tigst av alt, for­mater likesinnede kan bruke. Er du usikker, del det du tror andre kan bruke. Men dette er ikke alltid et enkelt spørsmål å besvare, det kom­mer i stor grad an på hva slags data du har. 

Det er vanske­lig å kat­e­goris­ere datak­ilder, offentlige så vel som andre. Hvor ofte dataset­tene endres og hvor store de er kan gi en indikasjon på hvor­dan de bør deles.

Enkelte datasett er små og opp­dateres sjeldent, slik som navn på fylk­er og kom­muner, post­num­mer, fly­plass­er, politi‑, helse og sosiald­is­trikt, osv. Slike datasett kan gjerne være tilgjen­gelig som flate fil­er. Med “flate fil­er” menes datafil­er som er strip­pet for pro­gram­spe­si­fikke koder og notasjon­er, slik at dataene kan leses av ulik pro­gram­vare. Erik Bol­stad del­er for­billedlig post­num­mer­reg­is­teret etter en oppryd­nings­dug­nad i som­mer.

Data som sjeldent eller aldri blir opp­datert bør deles åpent på nett, slik at søke­mo­tor­er kan hjelpe folk å finne ut at disse dataene eksis­ter­er. Dette trenger ikke være mer kom­plis­ert enn å legge filene med beskriv­else tilgjen­gelig på nett. 

Dette er på ingen måte noen «best prac­tice» for del­ing av data, men det er en metode med lav terskel for å komme i gang. Flate fil­er krev­er at de som skal gjen­bruke dataene må reor­gan­is­ere dataenes logiske struk­tur, en poten­sielt tid­krevende og vanske­lig opp­gave, som kan resul­tere i urik­tige tolkninger av dataene.

Data som ofte opp­dateres kan også legges på nett som fil­er, men dette skaper fort mye manuelt arbeid for alle parter. Med store datasett likeså.

Gi oss et API!

Et API er et pro­gram­mer­ings­grens­es­nitt som mulig­gjør kom­mu­nikasjon mel­lom pro­gram­vare. I mange til­feller vil det som er mest aktuelt være et web-API, alt­så et grens­es­nitt en pro­gram­mer­er kan nå over http (pro­tokollen weben er bygget på).

Litt enkelt igjen: når du peker net­tle­seren din til www.uib.no, så svar­er web­serveren som denne web­si­den er lagret på med å ser­vere deg html som net­tle­seren vis­er som en web­side. Den kunne (og kan) likeledes svare med andre for­mater, som XML, JSON, RSS, kom­mase­p­a­r­erte verdier, SVG, et bilde, osv. “Svaret”, alt­så de dataene som sendes tilbake etter at et kall er utført, kan behan­dles videre i den pro­gram­varen som utførte kallet. Ved å definere et sett med regler for hvilke ressurs­er som kan nås med ulike metoder og para­me­tre, kan data raskt, pre­sist og enkelt utveksles.

Når data deles på denne måten kalles tjen­esten for en web ser­vice, som er et av temaene vi leg­ger i ideen om den seman­tiske veven [2].

Yr.no har fått mye fort­jent kudos for sitt fris­lipp av vær­da­ta, og ved å lese doku­men­tasjo­nen deres får vi et inntrykk av hvor­dan dette kan gjøres. NRK grubler på hvor­dan de kan gjøre noe lik­nende, det samme gjør SSB.no under pros­jek­t­navnet Nye ssb.no (se eget blog­ginn­legg om SSBs nett­plan­er).

Doku­men­tasjon er et nøkkelord her. For at en slik tjen­este skal være virke­lig nyt­tig bør doku­men­tasjo­nen være bruk­er­vennlig. Google kan trekkes fram som et godt eksem­pel. Deres tjen­ester som har et offentlig API er som regel doku­mentert i detalj og med gode eksem­pler med kode. Google Maps API er et eksem­pel for kart. Se også Flickr for bilder, Last.fm for nettsamfunn/musikkdata, osv. Nye tjen­ester som dukker opp og blir pop­ulære på nett har ofte et doku­mentert API som gjør at data lett kan gjenbrukes.

RSS er din venn. Uansett hva slags infor­masjon­skanal du del­er på nett er det noen som er inter­essert i å vite når du pub­lis­er­er noe nytt. Hvis du sit­ter på data som ure­gelmes­sig pro­duseres og er uforut­sig­bare av natur (kalen­der­da­ta den ene dagen, infor­masjon­sskriv, kart eller bilder den neste) så er det bedre at vi får vite at noe nytt er på gang fram­for å måtte tråle weben kontinuerlig. 

Men viktigst: Vi må vite hva vi ser etter

Vi trenger også en norsk utgave av data.gov, en sam­let over­sikt over råda­ta på ett sted. Danskene har det allerede i digitaliser.dk, og en britisk ver­sjon er rett rundt hjør­net. Kart­leg­ging­spros­jek­tet vi informer­er om på denne bloggen har beg­y­nt på en slik over­sikt. Det er i det hele tatt god grunn til å tro at det bare er et spørsmål om tid før et norsk data.gov kom­mer. Forskn­ing­spros­jek­tet Semi­colon har slike plan­er, som det fremgår her. Det er også pri­vate ini­tia­tiv­er; nylig har Son­dre Bjel­lås startet wikien datakilder.no.

Som Nick Diakopou­los påpeker bør en slik sen­tral sam­ling av datak­ilder inneholde automa­tisk sporing (f.eks. ved track­backs) av pros­jek­ter som byg­ger på data her­fra. Slik kan vi bygge på hveran­dres erfaringer og kode, og unngå dobbeltarbeid.

Det største prob­lemet for kart­leg­ging av offentlige data sett fra en pro­su­ments per­spek­tiv, er at vi ikke vet hva vi ser etter. Først når vi vet hvilke råda­ta som finnes, kan vi beg­ynne å gru­ble over hvor­dan disse dataene kan omformes til sam­funnsnyt­tig informasjon.

Referanser

  1. Trond R. Braad­land, Inn­føring i infor­masjons­be­han­dling (Fag­bok­forl., 2002), books.google.com.
  2. Thomas B. Passin, Explor­er’s Guide to the Seman­tic Web (Man­ning Pub­li­ca­tions, 2004).

TEMA

O

ffentli
ge data

116 ARTIKLER FRA VOX PUBLICA

FLERE KILDER - FAKTA - KONTEKST

4 KOMMENTARER

  1. […] Kan mine data gjenbrukes? — […]

  2. […] plakatene lager jeg i Pho­to­shop, men teknikkene jeg bruk­er i utformin­gen vari­er­er. Plakat­en om gjen­bruk av data som jeg lagde i for­rige uke hadde for eksem­pel utangspunkt i et gratis pro­gram for å kode-tegne […]

  3. Selv om alle web api’er er et pluss så er det ofte store prob­le­mer og utfor­dringer knyt­tet til SOAP. Det er en fordel å bruke et API som er basert på REST prin­sip­pene http://en.wikipedia.org/wiki/Representational_State_Transfer for størst mulig åpenhet.

  4. […] om de kan gjøre data tilgjen­gelig i det for­matet eller på den måten du ønsker. Vis gjerne til den lille bruk­san­vis­nin­gen Vox Pub­li­ca har laget, og plakat­en som illus­tr­erer de ulike fasene i fri­givelse av […]

til toppen