I 2004 ble ordningen med nasjonale prøver i lesing, skriving, matematikk og engelsk innført i grunnskolen. Ordningen var omstridt og møtte en del motstand i begynnelsen, og skaper fortsatt debatt. Men motstand finnes også i systemet selv. I dette innlegget vil jeg se nærmere på datajournalistiske prosjekter som er gjort med resultatene fra nasjonale prøver.
To personer med over gjennomsnitts innsikt i hvordan det er å jobbe med dataene fra nasjonale prøver er Even Westvang hos Bengler/Origo og Anders Eriksen hos TV 2. Begge to har publisert spennende produkter, og ikke minst delt innsikt i hvor utfordringene ligger i slike prosjekter. Rapporter fra da Westvang og Eriksen besøkte UiB i 2009 finnes her, mens enda mer spesifikk info om hvordan Westvangs nye prosjekt skoleporten.bengler.no ble til finnes på Origo-bloggen.
TV 2 publiserte i 2008 resultatene fra nasjonale prøver på tv2.no. Her kan du filtrere deg gjennom fylker og kommuner, og få resultater per skole. Det finnes også topplister over skoler i de ulike prøveformene. Just dette med topplister og rangering av skoler var blant stridsspørsmålene da ordningen ble satt i gang. Før publiseringen jobbet Eriksen med data utlevert i ukurante formater (.pdf) for formålet, men på tross av ekstraarbeidet jobbet TV 2s team seg fram til et presentabelt datasett passende for webpublisering. Da det så ble oppdaget feil i datasettet gav Utdannningsdirektoratet etter og gav TV 2 oppdaterte data i Excel-format.
I år plukket Even Westvang opp tråden og laget skoleporten.bengler.no, der de samme resultatene vises på et kart. Kartet er i seg selv et fint stykke arbeid, men pølsa i rosinen er hvordan Westvang dokumenterer både fremgangsmåten sin, så vel som at han deler koden bak prosjektet.
Jeg vil gjerne trekke fram et par poeng fra Westvangs arbeidslogg:
- Datakilde: Dagbladet. Utgangspunktet for prosjektet er et Excel-ark med data delt av Dagbladet. Ikke Utdannningsdirektoratet. Selv om Utdannningsdirektoratet viser data på sine websider, deler de ikke data for gjenbruk.
- Skoleregister: web scraping. På tross av at det finnes register over norske skoler på web, lar disse seg ikke enkelt “skrapes” da adresser blir vist som grafikk (en bildefil, ikke tekst). Det går an å tolke slike bilder om til tekst igjen, men dette er tungvint og burde være unødvendig. Metoden Westvang endte opp med var å skrape googlesøk innen skoleporten.utdanningsdirektoratet.no, og så geokode adressene derfra. Er dette med vilje gjort vanskelig fordi det selges en bok med disse dataene?
Kudos til Westvang! Ikke bare for å ende opp med denne framgangsmåten, men helst for å dele resultatene med andre som skulle trenge dataene. På github-kontoen til prosjektet ligger nå 2925 skoler (csv-format) med navn, kommune, fylke, adresse, antall elever og koordinater. Kun ca 100 skoler mangler geokoding.
Vi har jo disse dataene, hvorfor jamre?
Dataene fra nasjonale prøver 2008 finnes. De deles av Dagbladet. Andre medier har dem også. Data for 2009 og 2010 er etterspurt, men meg bekjent ikke publisert i noe fornuftig format utenfor skoleporten.utdanningsdirektoratet.no, og der er de særdeles lite tilgjengelig for viderebruk. Eller?
Resultatene fra prøvene i engelsk og regning vil bli publisert henholdsvis 16. november og 14. desember.
Dette er et sitat fra udir.no 2. november i år. Det er altså kun dager til nye data publiseres, la oss håpe Utdanningsdirektoratet har lært. Fornyings‑, administrasjons- og kirkedepartementets utkast til retningslinjer er uansett anbefalt lektyre.
Hva med skoleregistret?
Per i dag sitter ped.lex.no sansynligvis på det beste registret over norske skoler, barnehager og øvrige utdanningsinstitusjoner. For viderebruk av denne typen data kan dette se ut til å være et hinder, ikke en hjelp. Det kreves et tungvint og kronglete arbeid for å maskinelt hente ut data herfra. Med det er Westvangs skrapede datasett over skoler (på github) muligens det beste settet som er tilgjengelig per i dag?
Behov for basisdata/grunndata
I jakten på datasett og kreativ bruk av disse dukker det stadig opp behov for “basisdata” eller “grunndata”. Med det mener jeg datasett som beskriver entitetene i verden, og ikke nødvendigvis prosessene disse medvirker i. Listen over resultater fra nasjonale prøver er data fra en prosess, data om norske skoler og hvor de befinner seg er i en slik sammenheng nyttig å bryte ned resultatene over. Det vil være relativt stabilt fra år til år, mens resultatene fra nasjonale prøver formodentlig vil variere mer.
Å samle opp slike datasett som beskriver entiteter, basisdata/grunndata, vil med andre ord kunne være med på å gjøre andre data mer verdifulle og nyttige. Erik Bolstad har en samling slike datasett på sin webside (erikbolstad.no). Bolstad har smaken for geografiske data, og deler data om verden (verdensdeler, land, regioner i land), Norge (fylker, kommuner, postnummer [med geokoordinater], fiskebanker, fjell over 1000 meter, jernbanestasjoner, kirker, osv) og skandinaviske kommunesenter.
At kunnskap om slike datasett blir samlet og gjort kjent er med andre ord viktig, og må inkluderes i kunnskapsbaser som data.norge.no, no.ckan.net og andre.
Summa summarum
Dataene fra nasjonale prøver har vist seg i flere prosjekter å by på hodebry for folk som vil gjenbruke dem. Likevel har datasettet både blitt sett av mange, og nå også fått flere spennende grafiske visningsløsninger. Debatten om vi skal ha innsyn og rangering av hvor bra eller dårlig norske skoler leverer har stilnet. Er vi enige nå?
Videre framstår Utdanningsdirektoratet som en motspiller, ikke en medspiller. Slik vil vi ikke ha det. Hvis forholdene skal ligge til rette for effektiv gjenbruk av offentlig sektors data, må vi spille på lag. Jeg er ganske sikker på at både norske borgere, norsk presse og Utdanningsdirektoratet (og andre offentlige instanser) vil tjene på å anse hverandre som medspillere. Hva kan vi gjøre for å bygge opp en positiv delingskultur rundt “data vi allerede har betalt for”? Har du innspill er debatten gående både på data.norge.no, her i Fakta først og sporadisk på Origo.
Det vi i alle fall har lært er at på tross av (den ikke lenger så nye) offentlighetsloven, og et økt fokus på gjennomsiktighet og delingskultur; så er det ennå ikke en smal sak å gjenbruke dette datasettet. Likeledes kan prosjekter som Eriksens og Westvangs se ut til å bane vei, og bidra til at prosessen kan gå lettere prosjekt for prosjekt.
PS: Siste oppdatering i Westvangs prosjekt er et avslag om innsyn i tallene for 2009 og 2010. Begrunnelsen er den etter hvert ikke ukjente §9 i offentlighetsloven, som åpner for at data kan nektes utlevert hvis dataeier mener tilretteleggingsjobben er for arbeidskrevende.
[…] This post was mentioned on Twitter by Olav A. Øvrebø, Harald Groven, eiriks, Adriel Hampton, Offentlige data and others. Offentlige data said: Nasjonale prøver — datajournalistikk i praksis: Journalister gjør betydelig innsats for å presentere sentrale sk… http://bit.ly/dc1gBQ […]