En av nyhetssakene som har fått mest oppmerksomhet i dag, er Aftenpostens oppslag om “kraftig vekst i studielån”. Artikkelen fokuserer blant annet på en økning i gjennomsnittsstudentens gjeld til Statens lånekasse ved avsluttet utdanning.
Som mange andre nyheter, bygger denne på data hentet fra en offentlig virksomhet, i dette tilfelle Lånekassen (for ordens skyld, artikkelen har også andre kilder!). Framover vil vi i den nye Vox Publica-serien “Aktuelt datasett” se nærmere på slike datakildebaserte nyheter. Hvordan løser mediene sakene, og hva kunne eventuelt vært gjort annerledes? Hva med datakildene, har dataeieren gjort dem tilgjengelig for viderebruk på riktig måte? Hensikten er blant annet å skape mer interesse for utviklingen av datadrevet journalistikk. Inspirasjon er særlig hentet fra The Guardians Datablog.
Et sentralt datasett i Aftenpostens artikkel er “Gjennomsnittsgjeld ved avsluttet utdanning”. Aftenposten har trukket ut tall fra fire år (1989, 1999, 2004, 2009) og publisert i et søylediagram. Det bør imidlertid være interessant for mange å se på hele datasettet, som er publisert i html-format på Lånekassens nettsted (se også øvrig lånekassestatistikk).
Dette datasettet går bare tilbake til 1994 (Aftenposten har fått litt spesialservice og fått ut tallet for 1989). Det er kolonnen “Høyere utdanning” med beløp omregnet til 2009-kroneverdi som brukes. Det er tydelig at økningen det vinkles på har funnet sted de siste fire årene. I perioden 1994–2005 økte faktisk ikke gjennomsnittsgjelden ved avsluttet utdanning i det hele tatt. Fra 2005 til 2009 har økningen vært på drøyt 9 prosent — så blir det et tolkningsspørsmål om det er riktig å kalle dette “eksplosivt”.
Html-tabellene Lånekassen tilbyr her er ikke et godt format for den som vil jobbe videre med tallene. Offentlig sektors datakilder bør absolutt publiseres i et nedlastbart og redigerbart format, som et minimum i et regneark (se vår “bruksanvisning”). Vi har hentet ut denne tabellen og publisert den som et Google-regneark:
Offentlige virksomheter bør være klar over at offentlighetsloven gir journalister og andre mulighet til å kreve data utlevert i “alle eksisterende formater”. Et skred av innsynsbegjæringer kan forebygges ved å publisere data i riktige formater.
- Hva kan du gjøre med disse dataene? Har du ideer til visualisering eller sammenstilling med andre datakilder?
Vi har også gjort informasjon om datasettet tilgjengelig via datakildeportalen no.ckan.net. Alle kan også bidra til denne oversikten ved å legge ut informasjon om datakilder der.