For tiden tester ssb.no sin kommende versjon av sitt data-API og denne gangen ser alt mye bedre ut enn før: 5000 tabeller, json-stat og du kan være med å teste.
I 2009 skreiv vi i voxpublica om ssb.no’s nye websider og tanker om API, det hadde (muligens uoffisielt) kodenavn “nyessbno”. Da tiden endelig kom for et riktig API, kom data.ssb.no som hadde (og fremdeles har) et utvalg av SSBs mest populære tabeller.
Det var helt klart et skritt i riktig retning, men API-et er ganske begrenset, for eksempel for en nysgjerrige gravende journalist er dette smale utvalget formodentlig et rimelig uinteressant sted å grave.
Det som holder på å skje nå er mye viktigere: nå kommer 5000 tabeller (“alle 5000 statistikkbanktabellene”, ifølge invitasjonen til å beta-teste tjenesten). Formodentlig løpende oppdatert ettersom ny data kommer inn. Hvis dette blir praksis gjør SSB det vi håpte de skulle i forrige runde: gjøre seg relevante for digitale hoder som trenger maskinlesbare tall for viderebruk.
Dette betyr et mye bredere tilbud, et mye mer spennende tilbud og forhåpentligvis et tilbud som kan gjøre data fra ssb.no mer brukt i pressen, på kafeer, taxier og rundt middagsbordene.
Dette kan for noen kanskje se ut som en teknisk detalj (nytt API) for statistikk-nerder. Det er helt riktig, og indirekte en total misforståelse. For de som ikke leser tall med glede, leser nemlig bilder like lett som alle andre. Synet vårt er perfeksjonert gjennom evolusjon til å raskt oppfatte farer og goder så vel som trender og endring — perfekt for å tolke datavisualiseringer. Og mer data fra ssb.no i fornuftig dataformat er en servering på sølvfat for den som vil presentere tall i bilder.
Eksempler:
API-et er i beta, og ble åpnet den 22 desember 2015, så det er ikke all verdens av diversitet i eksempler å peke til ennå, men Xavier Badosa (utvikler av JSON-stat.org) har flere eksempler fra første versjon av API-et. Det er f.eks. slike ting vi kan forvente oss å se mer av:
At SSB har data åpner også for sammenlikning med data fra andre land. Her norsk og dansk inflasjon sammenlignet.
Da Norge ikke er med i EU og vi stort sett ikke er med i målet for eurostat blir dette ekstra viktig. Her er arbeidsledighetstallene til OECD.
Badosa har flere eksempler på bl.ocks.org — alle på det “gamle” API-et, men det nye ser ut til å følge over samme lest, som virker som en fornuftig modell. API-et er i beta, så det er ikke urimelig å finne ting som ikke virker, er feil, ikke er så stabilt eller oppdatert som et ferdig vil være, men at vi får innblikk i dette mens det fortsatt er under utforming, er en fordel for alle.
Her er APIet
Det er ikke lenket fra ssb.nos vanlige nettsider enda, men her er lenkene til det gamle og det nye (antakelig med midlertidig URL) API-et.
- Det gamle (her under ny URL)
- Console til det nye ‑hvor du kan søke deg fram til riktige tabeller og spørringer
- Navigerbart API
- Brukerveiledning
PS: I min iver og i tumultene av et nytt semester copy/pasta jeg eksempelkode fra pyjstat og konkluderte at jeg måtte sette meg ned med bedre tid, for dette virker ikke. Greia var at det nye API-et forventer POST-kall med parametre fra console’n. Her er python-kode som virker (takk til SSB for raskt svar):
Hvis du kjenner til flere eksempler om hvordan det nye API-et blir brukt, eller har laget noe selv, eller har noen ideer til hvordan dette kan eller bør brukes: legg igjen en kommentar under — vi trenger at disse dataene kommer til syne og til nytte.
Kjempestort framskritt i HVORDAN data fra SSB formidles, og drastisk utviding av hva som kan automatiseres av viderebruk. Men når det gjelder HVA som publiseres, ser det ut til å være nøyaktig de samme data som har vært publisert i SSBs datavarehus i et tiår, altså begrenset sett predefinerte søk satt opp av SSB.
Hvis dataene du skal bruke ikke er i SSBs eksisterende publiseringer, får du jo ikke ut noen nye data. (jeg håper selvfølgelig at jeg tar feil)
Eksempel:
Nettstedet jeg jobber i får svært mange henvendelser om lønnsstatistikk, derfor videreformidler vi dette tilknyttet annen relevant informasjon på flere hundre nettsider.
Fra både Danmarks Statistik og Statistiska Centralbyrån kan mine utenlandske kolleger laste ned lønnsstatistikk for alle yrker og næringer som har stort nok antall arbeidstakere til å publisere lønnsstatistikk for i én enkelt tabell. For å få tilsvarende norske data, måtte vi laste ned 134 forskjellige tabeller (!), sammenstille disse, spalte opp og tilordne statistikkvariabler i rett felt basert på fritekst i variabelnavn siden variabler er ikke-standardiserte.
Hvorfor et datasett som stammer fra et og samme SSB-register må spres på 134 forskjellige URLer uten mulighet for å få dem samlet, når det hadde vært lettere å gi tilgang til dataene gjennom 1 URL er noe mystisk.