Teknologirådet presenterte i dag sin rapport om frigivelse og viderebruk av offentlige data (pdf). Fornyingsminister Rigmor Aasrud benyttet anledningen til å kunngjøre navnet på regjeringens kommende datakildeportal — data.norge.no –, og ba samtidig om innspill til hva portalen bør inneholde og hvordan den bør utformes.
Slike innspill inneholdt også rapporten fra ekspertgruppen. Den anbefaler at data.norge.no skal inneholde blant annet denne informasjonen:
- Beskrivelse av dataene
- Hvilket format dataene finnes på
- Beskrivelse av eventuelt programmeringsgrensesnitt (API) som kan brukes for å få tilgang til dataene
- Tidsangivelse for et datasett, evt. om det dreier seg om sanntidsdata
- Hvilken kvalitet dataene har
Forslaget om kvalitetsmerking imøtegår en vanlig innvending mot å publisere datakilder — at man mener kvaliteten på dataene ikke er god nok. I rapporten skisseres en skala for kvalitet som spenner fra høyeste kvalitet (“Kvalitetssikret og oppdatert — kan brukes for eksempel i automatiserte beslutningsprosesser”) til laveste (“Dataene er ikke oppdatert og kan være beheftet med betydelige feil”.) Hele skalaen på rapportens side 16.
Den kommende datakildeportalen må som et minimum inneholde offentlige virksomheters rådata, skriver ekspertgruppen (rådata er forstått som data på det formatet det brukes hos det aktuelle organet). Videre skriver de:
Det et også ønskelig at dataene gjøres tilgjengelige på formater som forenkler gjenbruk. For data hvor dette er relevant bør det finnes et godt dokumentert API. Det må tilbys et API for alle typer sanntidsdata.
Rapporten slår fast det viktige prinsippet om arbeidsdeling mellom offentlige virksomheter og offentligheten: “Som hovedregel bør alle datasett som ikke utgjør en trussel mot rikets sikkerhet eller individers personvern offentliggjøres, ettersom det på forhånd kan være vanskelig å vurdere gjenbruksverdien av et datasett. Data ingen trodde det var interesse for kan få nytt liv i kombinasjon med andre typer data.”
Ekspertgruppen kommer med et svært interessant innspill om forskningsdata. Også internasjonalt blir spørsmålet om frigivelse av underlagsdataene for forskning diskutert, ikke minst i forbindelse med konfliktene rundt klimaforskeres data. Her skriver ekspertgruppen:
Til tross for at stadig flere publikasjoner fra forskningsprosjekter gjøres allment tilgjengelige, er underlagsdataene for forskningen i liten grad tilgjengelige. Det kan være rimelig å stille spørsmål ved denne praksisen. Data fra offentlig finansierte forskningsprosjekter – i den grad de ikke inneholder personsensitiv informasjon – bør også gjøres tilgjengelig for allmennheten.
Disse har deltatt i ekspertgruppen bak rapporten:
Espen Andersen – Institutt for strategi og logistikk, Handelshøyskolen BI
Håkon Wium Lie – Opera Software
Jannicke Birkevold – Skatteetaten, Innovasjons- og utviklingsavdelingen
Silvija Seres – Teknologirådet og Microsoft Fast
Tom Slungaard – Norsk Eiendomsinformasjon
Teknologirådets formål er å gi uavhengige råd til Stortinget og øvrige myndigheter i viktige teknologispørsmål og dessuten bidra til den offentlige debatten rundt teknologi.
Datakvalitet er helt klart viktig, men potensielt resurskrevende å dokumentere og fikse opp, i den grad der blir for mye fokus på kvalitet før settene deles. Det kan raskt bli et hinder for frigivelse av data. Å merke settet med en-eller-annen kvalitetgradering er uansett en god idé, kanskje det kan senke presset om “perfekte” datasett hvis det blir aksept for å lansere sett med lav kvalitet?
“If you are not embarrassed by the first version of your product, you’ve launched too late.”
Dette er etter sigende Reid Hoffman, gründeren bak linkedIn, sine ord. Det er den holdningen jeg håper kan springe fram her. Kvaliteten kan alltids heves på sikt, men etter at prosedyrene og vanen at data deles er etablert.
En annen måte å gi kvalitet på data kontekst er å legge til rette for at prosjekter som benytter dataene kan lenke tilbake til datasettet, og slik kan vi rangere settene etter popularitet. Dette gir et hint om settet er godt nok til gjenbruk, uansett hvordan det ville slå ut i en formell rangert kvalitets-verdi.
Yr har jo bare et (vell..) datasett, men hoster også ulike apps som er laget på deres data: http://tillegg.yr.no/
Jeg sier ikke at data.norge.no, eller andre datamagasin, trenger å hoste filer, men oppfordre til å lenke prosjekter som bruker datasettene opp mot settene. Noe så enkelt som en kommentarboks (husk trackbacks) ville hjelpe mye. Det er selvsagt ingenting i veien for å gå lengre med mer forvelle tilbakemeldinger.
Å legge til rette for å dele erfaringer med settene vil være svært smart i den grad det er ønske om å få med seg flere enn kun utviklerfirmaer med store tekniske avdelinger.
Å vite hva et datasett har blitt brukt til før kan være et fint hint om potensialet for nye løsninger.