I denne posten går jeg gjennom noen aspekter rundt Stortingets nyåpnede tjeneste og API data.stortinget.no. Ikke alt er like interessant for alle, så posten er delt opp i ulike deler: åpenhet, journalister og borgerjournalister, teknikk-prat, forskning, veien videre og spørsmål.
Åpenhet og gjennomsiktighet
Et gjennomsiktig offentlig byråkrati er til å stole på, og kan rettes opp der det kan bli bedre. Dette er vel hovedtanken bak hele bevegelsen om åpne offentlige data, og dermed også tanken bak data.stortinget.no. For at data skal kunne bidra til gjennomsiktighet må noen tolke, sette inn i kontekst, utfordre, kritisere og ikke minst bruke dataene til noe. Lage visualiseringer, alternative innsynsløsninger, kontrollere for feil eller misforståelser. Skrive nyhetsartikler, forskningsrapporter og bloggposter.
Kanskje kan enkelte metoder automatiseres slik at vi får dashbord med data om samfunnets tilstand slik en finansanalytiker eller flygeleder (formodentlig) sitter i “kontroll-tårn” og tar pulsen på markedet/luftfarten.
For at enhver borger skal kunne få noe nytte av dette aleine har data.stortinget.no “databyggere”, wizards (data-assistent, assistent-meny) som hjelper deg med å ta ut helt enkel statistikk fra systemet. Med denne kan vi enkelt se at stortingsrepresentanter er gjennomsnittlig ca 50 år:
…og at kjønnsfordelingen har utviklet seg mot et stadig mer likestilt samfunn.
Det skjedde noe spennende mens Borten og Bratteli var statsministere i overgangen mellom 1960- og 70-tallet, kvinneandelen begynte å øke mer enn før.
Også gangen i enkeltsaker kan sees på de vanlige nettsidene til Stortinget (se eksempel.)
Dette er gøy for oss vanlige borgere, for skoleelever og for pressen. Databyggeren gir oss helt enkel informasjon (tolket data) om utvikling og om enkeltsaker. Hva du kan gjøre med databyggeren er nødvendigvis noe begrenset – det er urimelig å forvente at Stortinget er selvkritisk på våre vegne.
Journalister og borgerjournalister
Norsk presse har allerede gjort en del av tingene som er rimelig å gjøre med denne typen data. Allerede lenge før data-APIet var klart hadde Edda Media laget buskerudbenken.dt.no for Drammens Tidende. Seinere kom tilsvarende prosjekter for andre regioner i Norge. Det er ikke urimelig at noen tar opp dette igjen, enten som publikumsløsninger (a la Buskerudbenken) eller mer interne systemer for å snappe opp temaer og saker som tas opp på Tinget. I dataene kan saker spores (via saksordfører) til folkevalgte, som igjen har et fylke som skal representeres. Hva den enkelte representant stemmer i voteringer er også med i dataene, slik at det er mulig å følge de ulike fylkenes aktivitet.
Det er også mulig å finne hvem som stemmer mot sitt eget parti (altså hvor partipisken ikke strekker til), dette er jo alltid gøy uansett om du anser slikt som usolidarisk vandalisme eller tegn på ryggrad hos den enkelte representant. En nyhetssak er det nok ofte, dette er ikke bare politisk uenighet, men intern uenighet. En god indikasjon på en spennende sak. Kanskje.
Mye, om ikke det meste, av stoffet som eksponeres i APIet dekkes allerede tett av norsk presse. Det er likevel interessante ting å snoke i her, se for eksempel på denne (som dog ble dekket) der i alle fall min oppfatning av forslagsteksten gjør at voteringsresultatet kommer overraskende:
“Stortinget ber regjeringen fremme en sak om endring av utlendingslovgivningen slik at barns rettigheter i utvisningssaker blir ivaretatt i tråd med vedtak i Den europeiske menneskerettighetsdomstolen.”
Jeg synes det er overraskende at det er så stor enighet om å ikke rette norske lover etter Den europeiske menneskerettsdomstolen. Andre er kanskje ikke overrasket, men å legge opp et system der forslagstekster settes opp mot voteringsresultat kan virke som en morsom idé. Er det noen partier som er konsekvent imot enkelte målestokker (menneskerettigheter, arbeidstakerorganisasjoner, EU, miljøvern-krav, etc)? Er det noen som er for EU den ene dagen og imot den neste?
Det er også elementer i dette APIet som kan fungere journalistisk med ganske lite arbeid. For eksempel er spørsmål (skriftlige, interpellasjoner og spørretimespørsmål) ofte ganske gøy lesing. De er ofte kritiske, lette å relatere til områdene der representantene er valgt inn fra og de er sikkert vanskelige å svare på. De er potensielt gode steder å starte en debatt (på en kafé eller i en avis). Noen eksempler:
“Når vil miljøvernministeren fatte vedtak i saken om IKEA Larvik slik at lokalsamfunnet og lokal- og regionalpolitikere får vite om det lokale demokratiet virker og har tillit, og IKEA får avklaring på om deres miljøvennlige investering kan gjennomføres?”
“Tidligere riksvei 862, nå fylkesvei 862 mellom Tromsø og Finnsnes, har fergeforbindelse mellom Brensholmen og Botnhamn på Senja. Denne fergeforbindelsen er ikke helårig, dvs. fergen går ikke om vinteren. Dagens drift av fergeforbindelsen er i hovedsak selvfinansierende og fylkesvei 862 er også en viktig nasjonal turistvei, men har også meget stor betydning for næringslivet og de fastboende i fylket. Vil statsråden bidra til at fergeforbindelsen på nasjonal turistvei, fylkesvei 862, blir helårig?”
“Aftenposten melder i dag at Norge har mottatt en sondering mht å arrangere neste NATO-toppmøte. Selv sier utenriksministeren at han oppfatter henvendelsen som en sondering. Statsministeren, utenriksministeren og forsvarsministeren har alle uttalt bekymring for budsjettkutt i medlemslandene. Sånn sett vil det være naturlig at Norge, pga sin sterke økonomiske posisjon, sier ja til å forestå et NATO toppmøte. Er utenriksministeren enig i dette og at det vil være positivt for oss?”
“Hva vil statsråden gjøre for å bidra til en varig løsning for ivaretakelsen av Gjøa?”
Alle disse spørsmålene har en avsender og en mottager, og lokale saker vil sannsynligvis enkelt kunne spores tilbake til de områdene de omhandler. Som Risør-gutt sjekket jeg selvsagt raskt, og kan konstatere at ‘Risør’ kun er nevnt 3 ganger i spørsmål på Tinget, og 0 ganger i sakers tittel, siden 1986. En lokaljournalist kunne lett følge opp med nabokommuner og fylke for å finne ut om sørlandsperlene (eller hvilket som helst sted du bryr deg om) i det hele tatt nevnes, og hva som tas opp om dette. Jeg tror det er ting her vi ikke leser i avisen, som det både kan være gøy og viktig å følge med på.
Det er mer som kan gjøres journalistisk på denne materialet. Slik jeg ser det handler det først og fremst om de gode ideene.
— Hva kan vi gjøre med dette som utnytter materialet best for journalister?
Borgerjournalistikk
Det er ingen grunn til at journalistene skal ha dette for seg selv, og at interesseorganisasjoner kommer til å ta tak i dataene føler jeg meg ganske sikker på. En organisasjon – holderdeord.no – har allerede begynt. Deres prosjekt er å “faktasjekke”/(kontrollere for) partienes løfter. Holderdeord.no tar en spesiell rolle som “kontrollør”, og kvalitative vurderinger må nok gjøres for sakene. Dette kan selvsagt føre til konflikt og uenighet, men heller at noen gjør det, enn ingen? At prosjektet også deler sin kode med oss, gjør at den som vil kan etterprøve påstandene selv – noe som er forbilledlig. Holderdeord.no er et spennende prosjekt som vi kommer tilbake til i Vox Publica senere.
At miljøvernere, idretten, kollektiv-brukerne og fiskeforeninger kan overvåke, bygge på og bruke data fra Stortinget i sitt arbeid, tror jeg betyr at dette vil skje. Bloggere, twitterbrukere, facebookere og andre borgerjournalistikk-liknende aktører har også en rolle her. Det er et potensial for en gjennomsiktighet som virkelig kan bli bra, og holde våre folkevalgte på tå hev, særlig når også de smalere interessentene lett kan se hvem de må sende en mail eller ringe til når ting ikke er som de skal (etter synsvinkel).
Angående faktasjekking anbefaler jeg også Martin Eides “Fakta og makta” som ble publisert både i BT og her på Vox Publica.
Teknisk
Dette avsnittet er kanskje mest relevant for deg som har tenkt å bruke denne datakilden, og jeg blir ikke fornærmet om enkelte hopper videre til neste avsnitt.
Hvis du har tenkt å gjøre noe teknisk med Stortingets data finner du stort sett det du trenger på data.stortinget.no/om-tjenesten og data.stortinget.no/eksport med dokumentasjon og (fri) lisens.
Det er også noen eksempelprosjekter i java og .net C# å laste ned, om du er gira på det (jeg gjorde ikke det, da verken java eller C# er noe jeg bruker ofte nok, så jeg kan ikke uttale meg om disse).
Helt enkelt består eksport-biten av data.stortinget.no i en liste med URIer som spytter ut XML. Noen URIer tar input (en sesjon eller saksnummer), andre ingenting. XMLen som sendes tilbake er lett å jobbe med (ingen store overraskelser) og virker fornuftig strukturert. Attributt-navnene gir hint om hva som kan inneholde flere ting (en sak kan ha flere emner), ved navn valg som “emne_liste” som listes ut også i tilfeller der de ikke brukes.
Kode i python for import i mySQL
For å få et overblikk skreiv jeg noen enkle importscript i python for å få dette over i mySQL. Koden for det finner du på github, du kan bruke den som du vil. Med dette finner du også et førsteutkast til databasestruktur som er basert på å ha primær- og kombinasjonsnøkler slik at ‘INSERT IGNORE’ statements kan brukes til datafangst. Jeg har ikke gjort noen “ekte” prosjekter på dette, så det er ikke utenkelig at strukturen bør endres litt eller tilpasses noe til andre formål. Hvis du finner noen direkte feil du mener jeg burde vite om, ta gjerne kontakt.
Min korte erfaring med dette er at det virker robust og fint. Det er mer data i APIet enn hva det er lett å holde styr på via nettsidene til Stortinget og rådataene gir muligheter til å gjøre ting vi ennå ikke har kommet på at vi burde.
Omfang
Noen raske tall. APIet inneholder så langt ca 13.300 saker og 22.400 spørsmål (begge siden 1986), stortingsperiodene går tilbake til 1945, mens sesjoner (fra sommer til sommer) kun tilbake til 1986. Jeg har ikke sjekket om det finnes data om saker/spørsmål fra før ’86, da APIet selv ikke lister ut disse sesjonene. Videre er det metadata på fylker, partier (18 stk siden 1945), emner (172 stk), representanter (1072 stk), voteringer (siden 2011) og relasjoner mellom disse.
Kritikk?
Selv om ting virker bra, kan det alltids bli bedre. Det er også ting vi kan diskutere her.
Det er noen feil her og der. For eksempel finnes det ingen data her: http://data.stortinget.no/eksport/skriftligesporsmal?sesjonid=2007–2008 Betyr det at ingen stilte spørsmål i 2007–2008? Garantert ikke. Det er også mangler, for eksempel har ikke skriftlige spørsmål emner – mens de andre typene spørsmål har.
Noen typer data går tilbake til 1945 (representanter), andre typer (saker) tilbake til 1986, og andre igjen (voteringer) finnes kun fra 2011. Det er litt hull her og der (en del saker har ikke noen “behandlet i sesjon” selv om de er gamle), gode nøkler mot saksdokumenter finner jeg ikke (gjør du?) og vedtakstekster er lagret som HTML (som gjør det unødvendig vanskelig å finne gode delimiters/“mellomroms-tegn” for eksport fra mySQL til f.eks. .csv eller .xls).
Dokumentasjonen, en .pdf (hvorfor .pdf, folkens?), lukter tidvis auto-generering og blir intetsigende. Se på denne:
“vedtaknummer
Element som definerer nummer for voteringsvedtaket”
Er det unikt? Er det påkrevd? Kan et vedtak ha flere nummer? Kan flere vedtak ha samme nummer? Slikt besvares ikke, og mange av elementene i XMLen har slike beskrivelser, som like godt kunne ha vært sløyfet. Ok, nå vet vi at det skal være et vedtaksnummer ved et vedtak, men ikke stort mer.
Konklusjonen på dette er at det trengs mer inngående kunnskap om Stortingets prosesser enn det som kan leses ut av dokumentasjonen for å bruke dette riktig. I gjennomsiktighetens navn kunne dette ha vært fokusert mer på, det er ikke urimelig at ulike interesseorganisasjoner med varierende kunnskap skal benytte denne datakilden. Dette kan bli bedre, både med tanke på dokumentasjon, hull i dataene, og mer historisk data. Å legge inn en form for tilstandsrapport på dataene slik at nye data kan hentes ut uten å spørre etter hele sesjoner kan kanskje være en idé. Jeg har ikke bygget min kode med tanke på periodisk uthenting, men for interesseorganisasjoner, pressen, osv vil nok det være et tema.
Forskning
Kan denne datakilden brukes til forskning? Jeg har spurt både kollegaer her på huset og utenfor hva vil kan besvare med denne typen data. Så langt har jeg ingen prosjekter i boks, men jeg tror dette er data som kan brukes til å besvare flere interessante spørsmål:
- Hvor viktig er pressen for Stortinget?
- Ligger Stortinget foran eller bak pressens dagsorden?
- Hvor sterk er partipisken i de ulike partiene?
- Har vi reelt sett mange ulike partier å velge mellom, eller to (eller tre) blokker?
- Hvor godt representerer de ulike fylkesbenkene sine fylker?
- Hvem er Tingets mest effektive politikere (og hva gjør de for å få det til)?
- Finnes det “kjøp og salg” av saker/stemmer på Tinget (a la “kampfiksing” i idretten)?
Her handler det bare om å finne riktig spørsmål. Om du mener å ha noen tanker om dette, ta gjerne kontakt. Jeg (som driver med datastøttet journalistikk) ser for meg at metoder og spørsmål fra forskningsdisiplinene i noen tilfeller kan automatiseres og omsettes til innsynsløsninger/overvåkningstjenester osv. Her må forskningen gå foran og vise vei.
At data nå kommer i form av at API gjør det mye lettere å besvare spørsmål, dette har jo blitt lagret før også, men da måtte en forsker innhente disse dataene selv fra hvor-nå-enn de ble lagret (Nasjonalbiblioteket?).
Veien videre for data.stortinget.no og åpne offentlige data
Det er slett ikke gitt at folk kommer til å hive seg over dette. Det er helt realistisk at kun et knippe mennesker i dette landet kommer til å bry seg med stortingsdata. Det betyr ikke at lite bruk betyr at prosjektet er unødvendig eller misbruk av ressurser. Hvem som tar dette i bruk, og hva som kommer ut av det, er mye viktigere. Dette er opp til oss alle. Potensialet er der. At det er vilje til å rette feil, fylle på med data (utvide med mer?) og holde systemet oppe — er det jeg ønsker å se. Og en takk skal noen ha, det er godt at dette blir gjort.
Rent teknisk er dette også bra. Nå som data.stortinget.no er på beina synes jeg det er rimelig å fortsette trenden med andre typer data som kan informere borgere til å ta gode valg. Hvem skal jeg stemme på? Hvor bør jeg bosette meg? Hva bruker staten skattepengene til? Hvilken skole i nærheten er best? Hvor forurenset er det der jeg bor? Hvilke veier er mest trafikkert og ulykkesutsatt?
Med tilgang til mer data vil flere slike spørsmål kunne besvares basert på data. Skoler rangeres i dag etter nasjonale prøver, som gir foreldre en idé (dog en litt rar idé, normalfordelingskurven er ingen god måte å rangere prestasjoner på, vi vil aldri oppnå at alle er “gode nok” på den skalaen) om skolenes evne til å utdanne.
Data fra politi og brannvesen vil kunne gi indikasjoner på hvor det er tryggest å bo og ferdes, data om dokumentavgifter som betales kan gi indikasjoner på reelt prisnivå der du vil flytte. Dette er viktig informasjon som bør være tilgjengelig for en boligkjøper (og ‑selger) som går via en megler med egne insentiver. Alle disse tre må gjerne få APIer slik Stortinget har.
Statsregnskapet (som også deles som .pdf – gjør de det for å være onde med overlegg?) er et kronisk oversett dokument som fortjener mer innsyn. Å legge dette om til et API og gi oss flere detaljer ville være veldig bra for alle. Det vil kunne brukes til for eksempel å se etter som bevilgninger og løfter brukes og holdes. Om det faktisk bygges jernbane, barnehager og studentboliger.
Domstolene utmerker seg også som gode datakilder i gjennomsiktighetens navn. Her er det mye som kan gjøres. Hva slags kriminalitet straffes i Norge? Hvor mange tas der jeg bor? Brukes de nye lovene som Stortinget innfører? Leder de til mindre kriminalitet (koblet mot politidata)? Er det noen som gjentatte ganger straffeforfølges av myndighetene, men som frikjennes gang på gang? Det er mye viktig og spennende som kan komme ut hvis også rettsvesenet blir mer gjennomsiktig. Igjen handler det først og fremst om å finne de gode ideene, de gode spørsmålene.
Og postjournaler. Postjournaler finnes i dag i et utall ulike formater og løsninger (.pdf-er i html, kranglete .aspx-systemer, rentekst og markup av alle slag). Et ensartet system for postjournaler ville spare mange for mye tid.
Å se på data.stortinget.no som et første skritt i en kjedereaksjon av åpninger av slike APIer — og virkelig åpne opp der det lar seg gjøre — vil kunne utgjøre en stor forskjell i hvordan vi forvalter makt og bidra til et samfunn som i større grad tar sine beslutninger basert på data. Hans Rosling snakker om et “faktabasert verdensbilde”, med åpne data og gode APIer i Norge kan vi få et “faktabasert Norges-bilde” — og det synes jeg at vi fortjener.
Spørsmål:
Jeg har gjentatte ganger stilt spørsmål i denne posten. Spørsmål som kan skrives om til disse:
- Hva kan dette brukes til?
- Hva burde vi bruke dette til?
Hvis du har tanker om dette, legg gjerne igjen en kommentar i kommentarfeltet.
Hei Eirik. God post om gode nyheter. Vi i Edda avsluttet Buskerudbenken og de liknende prosjektene fordi vi både måtte betale dyrt for dataene og fordi vi så at nesten ingen brukte tjenestene.
Det kan være at vi ikke gjorde en god nok jobb med å designe en god tjeneste. Det kan også være at det rett og slett ikke er nok publikummere som bryr seg.
Jeg tror vi i mediene, i de minste vi i lokalmediene, først og fremst kan bruke dette til gode arbeidsverktøy for journalister. Så håper jeg at andre interesserte kan bygge tjenester for publikum som motbeviser mine antagelser.
Tord