Død over pdf!

Dette hinderet mot god journalistikk og et åpent samfunn må fjernes. Vi kan bidra.

Medi­er og jour­nal­is­ter kri­tis­eres ruti­nemes­sig for å kaste bort egen og lesernes tid på kjendis­vås og tulle­sak­er. De løper i flokk etter brannbil­er og kopier­er heller kol­le­genes sak­er enn å lage noe orig­inalt selv, het­er det. De Vik­tige Sak­ene, de som ret­tfer­dig­gjør Sam­funnsop­p­draget, nedprioriteres.

Men hva hvis en redak­sjon virke­lig bestem­mer seg for å under­søke sub­stansen i en Vik­tig Sak? Gir sine dyk­tig­ste folk tid og ressurs­er? Da finner den fort ut det samme som et team fra Finan­cial Times og Bureau of Inves­tiga­tive Jour­nal­ism erfarte da de skulle granske EUs struk­tur­fond: Poli­tikere og statlig for­valt­ning leg­ger effek­tive hin­dringer i veien for reelt innsyn, reell kon­troll, reell analyse — og alt­så for den Vik­tige Jour­nal­is­tikken alle etterl­yser. Det er nok triv­eligere med kjendis­jour­nal­is­tikk likevel.

Cyn­thia O’Murchu fra FT pre­sen­ter­er dette store data­jour­nal­is­tiske pros­jek­tet som en kafkaesk jakt på Europas skjulte mil­liarder. Typisk er at noe infor­masjon er tilgjen­gelig, men dårlig struk­tur­ert og fullt av man­gler (se også metoder­ap­porten). O’Murchu har et godt ord for det: Obskur trans­parens. Slik kan byråkrater og poli­tikere si at “men se her, infor­masjo­nen er jo tilgjen­gelig”. Sam­tidig er den nær ubrukelig.

Det er på høy tid at jour­nal­is­ter, medi­er og inter­esserte borg­ere mis­ter tålmodigheten med en infor­masjon­sprak­sis preget av lik­som-åpen­het og insti­tusjonell treghet. Datak­ilder pub­lis­ert i pdf-for­mat er selve sym­bo­l­et på denne prak­sisen. Som O’Murchu sier det (min utheving):

The major­i­ty of the near­ly 600 doc­u­ments were PDFs, some hun­dreds of pages long. Oth­ers were locked with pass­words, designed to pre­vent cit­i­zens from review­ing the data. Final­ly, despite our gar­gan­tu­an team-effort, the data we gath­ered, and made avail­able to the pub­lic is but a snap­shot. With unlim­it­ed resources (which news organ­i­sa­tion or cit­i­zen has those?) one may have been able to write scrap­ers to con­tin­u­ous­ly update the data. But for now, I’d be hap­py if EU law­mak­ers and offi­cials imple­ment­ing the pol­i­cy took note of the fol­low­ing: Trans­paren­cy helps win cit­i­zens’ trust. Redi­rects are a good thing. PDFs are not a trans­par­ent way of pub­lish­ing data.

Hva kan vi gjøre i prak­sis for å fram­skyn­de pdf-ens død som for­mat for dat­a­pub­lis­er­ing? Her er noen forslag — har du flere?

 • Klag hver gang: Hvis du ser at en kom­mune, en etat eller annen offentlig insti­tusjon pub­lis­er­er data i pdf-for­mat, send en klage og krev innsyn i et redi­ger­bart for­mat. Vis til offent­lighet­sloven.
 • Skrap ut og pub­lis­er: Hvis du nek­tes innsyn i redi­ger­bare for­mater, kopi­er ut dataene selv og legg dem ut på net­tet, feks. som Google­doc som alle har til­gang til. (Sjekk lisens­betingelser, men ikke vær alt­for for­sik­tig — det meste av offentlig sek­tors data tilhør­er offentligheten). 
 • Ros de flinke: Alle lik­er et klapp på skul­deren. Etater som gjør en god jobb med å legge ut data på rik­tig måte, bør få høre dette (O’Murchu møtte heldigvis også god prak­sis, Polen og Est­land får ros).

TEMA

O

ffentli
ge data

116 ARTIKLER FRA VOX PUBLICA

FLERE KILDER - FAKTA - KONTEKST

4 KOMMENTARER

 1. Frode Mindrebø says:

  Den med pas­sor­dbeskyt­tede doku­menter skjøn­ner jeg gre­it, men pdf? Hvor­for er ikke pdf-doku­menter aksept­able for innseende journalister?

  • Pdf er ok hvis det bare er snakk om å lese et doku­ment. Innen data­jour­nal­is­tikk, slik som i eksem­plet som er omtalt her, ønsker man imi­dler­tid å bear­bei­de data. Her utgjør pdf et bety­delig og helt unød­vendig hin­der. Jour­nal­is­tene må da først kopiere ut dataene før de kan arbei­de videre med dem i reg­n­eark eller data­bas­er. Dette krev­er en del tid, og feil kan opp­stå i kopierin­gen eller skrapin­gen. I en jour­nal­is­tisk hverdag preget av knap­phet på tid og ressurs­er kan slike hin­dre være det som står i veien for at et pros­jekt blir realis­ert. Ikke minst i små redak­sjon­er eller når det er snakk om store og ambisiøse pros­jek­ter, som i FT-eksemplet.

   Dataene som pub­lis­eres i pdf-doku­menter stam­mer som oftest fra reg­n­eark eller data­bas­er. At dataene hentes ut fra redi­ger­bare for­mater og legges over i en ikke-redi­ger­bar pdf, skyldes enten man­glende kom­petanse, dårlige ruti­n­er eller rett og slett et ønske om å begrense reelt innsyn.

 2. Oblig­a­torisk leses­toff om hvor­for pdf ikke alltid er et passende format:
  Jakob Nielsen’s Alert­box, July 14, 2003:
  PDF: Unfit for Human Consumption

  Pdf og pdf er ikke det samme! Det er forskjel­lige grad­er av skade dette for­matet gjør.: 

  Aller, aller værst:
  Fler­siders papir(brev) print­et ut og skan­net inn som pdf som med tek­sten i skriv­et som bilde. Dette er hærværk! Særlig siden orginal­fi­la var dig­i­tal og ikke hadde behøvd bli anal­o­gis­ert ved utskrift. Tek­sten er ikke søk­bar, du kan ikke klippe og lime i tek­sten slik at den må pun­sjes. For å gjøre den søk­bar må en kjøre fila gjen­nom et tek­st­g­jenkjen­ning­spro­gram, noe de fær­reste har til­gang til. Hvis blinde eller svaksynte trenger å lese brevet går det ikke an for dem verken finne pdf-ene, nav­igere i tek­sten eller få tek­sten lest høyt. Ofte er papirtenk­ing og for­fen­ge­lighet eneste grunn til at innskannede pdf-er legges ut, etter­som mange vel­ger å skrive ut for å få sje­fens sig­natur på papir­doku­mentet i den tro at bare et sig­nart ark er “ekte” eller “ordentlig”.

  Kvalitet­skri­te­riene for offentlige nettst­ed­er skiller heller ikke mel­lom pdf med tekst som bilde eller pdf eller pdf med klipp­bar tekst: http://kvalitet.difi.no/kriteriesett/kriterie/?id=664

  Nest værst:
  Sider med tabeller lagret i pdf uten pdf-struk­turkoder. Det er en for­fer­delig plu­drete jobb å restruk­turere en tabell som har blitt lagret som i pdf-tek­st­doku­ment. Særlig hvis tabel­lene har sammes­låtte celler, eller celleinnhold som går over flere lin­jer kan det ta flere timer å lage reg­n­eark igjen. 

  Irriterende, unød­vendig passordbeskyttelse
  Da for­rige stats­bud­sjett ble lansert, hadde jeg tenkt å slå sam­men alle PDFene til én 3000siders søk­bar fil som kunne lese på mitt net­tbrett. Men det gikk ikke, for­di Finans­de­parte­mentet hadde lagt pas­sord på PDFene slik at de ikke var mulig å slå sam­men filene uten å knekke pas­sor­det de hadde lagt på. Hen­sik­ten med dette var uforsåelig. 

  Pub­lis­er­ings­latskap å bruke Pdf:
  Legge ut lange rap­porter og trykksak­er som Pdf-fil­er uten html-ver­sjon. Dette før­er til at pub­likasjo­nen blir min­dre lest og blir min­dre gjen­finnbar. Se Jakob Nielsens artikkel om hvor­for bruk­erne som regel hater lange pdf-fil­er på nett. Dessuten forsvin­ner de fleste mulighetene til inte­grasjon av sosiale medi­er når det ikke går an å lenke til en enkeltside. 

  Helt ok å bruke pdf. Pdf ikke noe prob­lem i det hele tatt:
  Kon­sekvent lagre en pdf ver­sjon av doku­ment par­al­lellt med en html-ver­sjon av det samme doku­mentene. For eksem­pel pub­likasjon­er fra regjeringen.no

til toppen