Død over pdf!

Dette hinderet mot god journalistikk og et åpent samfunn må fjernes. Vi kan bidra.

Medi­er og jour­na­lis­ter kri­ti­se­res rutine­mes­sig for å kas­te bort egen og leser­nes tid på kjen­di­s­vås og tul­le­sa­ker. De løper i flokk etter brann­bi­ler og kopie­rer hel­ler kol­le­ge­nes saker enn å lage noe ori­gi­nalt selv, heter det. De Vik­ti­ge Sake­ne, de som rett­fer­dig­gjør Sam­funns­opp­dra­get, ned­prio­ri­te­res.

Men hva hvis en redak­sjon vir­ke­lig bestem­mer seg for å under­sø­ke sub­stan­sen i en Vik­tig Sak? Gir sine dyk­tigs­te folk tid og res­sur­ser? Da fin­ner den fort ut det sam­me som et team fra Finan­ci­al Times og Bureau of Investi­ga­ti­ve Jour­na­lism erfar­te da de skul­le grans­ke EUs struk­tur­fond: Poli­ti­ke­re og stat­lig for­valt­ning leg­ger effek­ti­ve hind­rin­ger i vei­en for reelt inn­syn, reell kon­troll, reell ana­ly­se — og alt­så for den Vik­ti­ge Jour­na­lis­tik­ken alle etter­ly­ser. Det er nok tri­ve­li­ge­re med kjen­dis­jour­na­lis­tikk like­vel.

Cynt­hia O’Murchu fra FT pre­sen­te­rer det­te sto­re data­jour­na­lis­tis­ke pro­sjek­tet som en kaf­ka­esk jakt på Euro­pas skjul­te mil­li­ar­der. Typisk er at noe infor­ma­sjon er til­gjen­ge­lig, men dår­lig struk­tu­rert og fullt av mang­ler (se også metode­rap­por­ten). O’Murchu har et godt ord for det: Obskur trans­pa­rens. Slik kan byrå­kra­ter og poli­ti­ke­re si at «men se her, infor­ma­sjo­nen er jo til­gjen­ge­lig». Sam­ti­dig er den nær ubru­ke­lig.

Det er på høy tid at jour­na­lis­ter, medi­er og inter­es­ser­te bor­ge­re mis­ter tål­mo­dig­he­ten med en infor­ma­sjons­prak­sis pre­get av lik­som-åpen­het og insti­tu­sjo­nell treg­het. Data­kil­der pub­li­sert i pdf-for­mat er selve sym­bo­let på den­ne prak­si­sen. Som O’Murchu sier det (min uthe­ving):

The majority of the near­ly 600 docu­ments were PDFs, some hund­reds of pages long. Others were locked with pas­swords, desig­ned to pre­vent citizens from reviewing the data. Final­ly, despi­te our gar­gan­tuan team-effort, the data we gat­he­red, and made avai­lab­le to the pub­lic is but a sna­pshot. With unli­mi­ted resources (which news orga­ni­sa­tion or citizen has those?) one may have been able to wri­te scra­pers to con­ti­nuous­ly upda­te the data. But for now, I’d be happy if EU law­ma­kers and offi­ci­als imple­men­ting the poli­cy took note of the following: Trans­pa­rency helps win citizens’ trust. Redi­rects are a good thing. PDFs are not a trans­pa­rent way of pub­lish­ing data.

Hva kan vi gjø­re i prak­sis for å fram­skyn­de pdf-ens død som for­mat for data­pub­li­se­ring? Her er noen for­slag — har du fle­re?

 • Klag hver gang: Hvis du ser at en kom­mu­ne, en etat eller annen offent­lig insti­tu­sjon pub­li­se­rer data i pdf-for­mat, send en kla­ge og krev inn­syn i et redi­ger­bart for­mat. Vis til offent­lig­hets­lo­ven.
 • Skrap ut og pub­li­ser: Hvis du nek­tes inn­syn i redi­ger­ba­re for­ma­ter, kopi­er ut data­ene selv og legg dem ut på net­tet, feks. som Google­doc som alle har til­gang til. (Sjekk lisens­be­tin­gel­ser, men ikke vær alt­for for­sik­tig — det mes­te av offent­lig sek­tors data til­hø­rer offent­lig­he­ten).
 • Ros de flin­ke: Alle liker et klapp på skul­de­ren. Eta­ter som gjør en god jobb med å leg­ge ut data på rik­tig måte, bør få høre det­te (O’Murchu møt­te hel­dig­vis også god prak­sis, Polen og Est­land får ros).

TEMA

O

ffentli
ge data

116 ARTIKLER FRA VOX PUBLICA

FLERE KILDER - FAKTA - KONTEKST

4 KOMMENTARER

 1. Avatar
  Frode Mindrebø says:

  Den med pass­ord­be­skyt­te­de doku­men­ter skjøn­ner jeg greit, men pdf? Hvor­for er ikke pdf-doku­men­ter aksep­tab­le for inn­se­en­de jour­na­lis­ter?

  • Pdf er ok hvis det bare er snakk om å lese et doku­ment. Innen data­jour­na­lis­tikk, slik som i eksemp­let som er omtalt her, øns­ker man imid­ler­tid å bear­bei­de data. Her utgjør pdf et bety­de­lig og helt unød­ven­dig hin­der. Jour­na­lis­te­ne må da først kopiere ut data­ene før de kan arbei­de vide­re med dem i regne­ark eller data­ba­ser. Det­te kre­ver en del tid, og feil kan opp­stå i kopie­rin­gen eller skra­pin­gen. I en jour­na­lis­tisk hver­dag pre­get av kna­pp­het på tid og res­sur­ser kan sli­ke hind­re være det som står i vei­en for at et pro­sjekt blir rea­li­sert. Ikke minst i små redak­sjo­ner eller når det er snakk om sto­re og ambi­siø­se pro­sjek­ter, som i FT-eksemp­let.

   Data­ene som pub­li­se­res i pdf-doku­men­ter stam­mer som oftest fra regne­ark eller data­ba­ser. At data­ene hen­tes ut fra redi­ger­ba­re for­ma­ter og leg­ges over i en ikke-redi­ger­bar pdf, skyl­des enten mang­len­de kom­pe­tan­se, dår­li­ge ruti­ner eller rett og slett et øns­ke om å begren­se reelt inn­syn.

 2. Obli­ga­to­risk lese­stoff om hvor­for pdf ikke all­tid er et pas­sen­de for­mat:
  Jakob Niel­sen’s Alert­box, July 14, 2003:
  PDF: Unfit for Human Con­sump­tion

  Pdf og pdf er ikke det sam­me! Det er for­skjel­li­ge gra­der av ska­de det­te for­ma­tet gjør.:

  Aller, aller værst:
  Fler­si­ders papir(brev) prin­tet ut og skan­net inn som pdf som med teks­ten i skri­vet som bil­de. Det­te er hær­værk! Sær­lig siden orgi­nal­fila var digi­tal og ikke had­de behøvd bli ana­lo­gi­sert ved utskrift. Teks­ten er ikke søk­bar, du kan ikke klip­pe og lime i teks­ten slik at den må pun­sjes. For å gjø­re den søk­bar må en kjø­re fila gjen­nom et tekst­gjen­kjen­nings­pro­gram, noe de fær­res­te har til­gang til. Hvis blin­de eller svak­syn­te tren­ger å lese bre­vet går det ikke an for dem ver­ken fin­ne pdf-ene, navi­ge­re i teks­ten eller få teks­ten lest høyt. Ofte er papir­ten­king og for­fen­ge­lig­het enes­te grunn til at inns­kan­ne­de pdf-er leg­ges ut, etter­som man­ge vel­ger å skri­ve ut for å få sje­fens sig­na­tur på papir­do­ku­men­tet i den tro at bare et signart ark er «ekte» eller «ordent­lig».

  Kva­li­tets­kri­te­ri­ene for offent­li­ge nett­ste­der skil­ler hel­ler ikke mel­lom pdf med tekst som bil­de eller pdf eller pdf med klipp­bar tekst: http://kvalitet.difi.no/kriteriesett/kriterie/?id=664

  Nest værst:
  Sider med tabel­ler lag­ret i pdf uten pdf-struk­tur­ko­der. Det er en for­fer­de­lig plud­re­te jobb å restruk­tu­re­re en tabell som har blitt lag­ret som i pdf-tekst­do­ku­ment. Sær­lig hvis tabel­le­ne har sam­me­slåt­te cel­ler, eller celle­inn­hold som går over fle­re lin­jer kan det ta fle­re timer å lage regne­ark igjen.

  Irri­te­ren­de, unød­ven­dig pass­ord­be­skyt­tel­se
  Da for­ri­ge stats­bud­sjett ble lan­sert, had­de jeg tenkt å slå sam­men alle PDFe­ne til én 3000siders søk­bar fil som kun­ne lese på mitt nett­brett. Men det gikk ikke, for­di Finans­de­par­te­men­tet had­de lagt pass­ord på PDFe­ne slik at de ikke var mulig å slå sam­men file­ne uten å knek­ke pass­or­det de had­de lagt på. Hen­sik­ten med det­te var ufor­såe­lig.

  Pub­li­se­rings­lat­skap å bru­ke Pdf:
  Leg­ge ut lan­ge rap­por­ter og trykk­sa­ker som Pdf-filer uten html-ver­sjon. Det­te fører til at pub­li­ka­sjo­nen blir mind­re lest og blir mind­re gjen­finn­bar. Se Jakob Nielsens artik­kel om hvor­for bru­ker­ne som regel hater lan­ge pdf-filer på nett. Dess­uten for­svin­ner de fles­te mulig­he­te­ne til inte­gra­sjon av sosia­le medi­er når det ikke går an å len­ke til en enkelt­side.

  Helt ok å bru­ke pdf. Pdf ikke noe pro­blem i det hele tatt:
  Kon­se­kvent lag­re en pdf ver­sjon av doku­ment paral­lellt med en html-ver­sjon av det sam­me doku­men­te­ne. For eksem­pel pub­li­ka­sjo­ner fra regjeringen.no

til toppen