Analyseprogram avdekker nettavisenes prioriteringer

Nyutviklet programvare åpner nye muligheter for forskning på nettavisjournalistikk.

Det dreier seg her om et tverrfaglig samarbeid mellom informasjonsvitere og medievitere, om utnytting av kompetanse fra to fagområder og om utvikling av programvare for arkivering av nettavisforsider. Programmet skal arkivere endringer på nettavisers forsider, lage et søkbart register og vise hvordan nettsaker «beveger» seg på forsiden over tid.

Arbeidet med programmet startet i begynnelsen av februar 2012, i forbindelse med mitt doktorgradsprosjekt som undersøker pressedekningen av NAV, herunder blant annet nettavisen VG Nett. Prosjektet søker blant annet å undersøke hvordan nettavisartikler «beveger» seg på forsiden, slik at man kan få et bilde på hvordan en nettsak har vært prioritert i forhold til resten av artiklene på forsiden. Til sammenligning vil en toppsak på forsiden av en papiravis ha en høyere prioritering enn en sak uten forsidereferanse.

Toppen av VGs forside 5. februar 2012 kl 08.46 og kl. 09.05 (grønn markeringsfarge lagt på).

Det er imidlertid flere utfordringer med å inkludere nettaviser i innholdsanalyser. En nettartikkel kan spores ved hjelp av avisarkivet Retriever, men arkivet gir ingen informasjon om hvordan redaksjonen har prioritert saken. Med andre ord er det ingen informasjon om hvor artikkelen har vært plassert på forsiden, eller om den i det hele tatt har vært på forsiden. Det er nettopp disse utfordringene det nye programmet skal løse. Programmet er utviklet av informasjonsviterne Mads Tordal, Ruben Oen og Øyvind Døskeland i samarbeid med undertegnede — samtlige ved Institutt for informasjons- og medievitenskap, UiB.

I forkant av arbeidet med programmet er det også blitt undersøkt hvorvidt andre tjenester kan være til hjelp, slik som eksempelvis Nasjonalbibliotekets arkivering av norske nettsider. Disse systemene er ikke tilstrekkelig for å drive denne typen forsideanalyser. «Wayback Machine» (et søkbart internettarkiv) er heller ikke et godt alternativ, da denne tjenesten kun arkiverer forsider utvalgte dager, og som regel fra 1–8 ganger om dagen. VG Nett arkiverer sine egne forsider i html-format hvert femte minutt, og dette arkivet strekker seg tilbake til 2010. Redaksjonen stiller arkivet til disposisjon for medieforskning. Arkivet til VG Nett gir imidlertid ikke mulighet til å bruke arkivet som et søkbart register med utgangspunkt i artiklene. Her må man altså lete gjennom forsidene manuelt for å finne ut hvordan artiklene «beveger» seg på forsiden.

Problematikken med analyser og innhenting av data i forhold til nettaviser er således bakgrunnen for dette samarbeidet mellom informasjons- og medievitere. Programmet har i første omgang tatt utgangspunkt i VG Netts forsider og fungerer på følgende vis: forsider arkiveres i html-format hver gang det skjer en redaksjonell endring på siden. Med andre ord vil den ikke registrere at det skiftes annonser eller at et bilde skifter server (uten at selve bildet endrer seg). Dette arkiveres så kronologisk i et søkbart register. Her kan man søke etter artiklenes nettadresse (URL), og programmet genererer deretter en oversikt over hvilke forsider artikkelen har vært plassert på. Dette åpner videre for muligheten til å lage en bildeserie der man ser hvordan artikkelen «beveger seg på forsiden» over tid. Artiklene kan også få et grønt merke slik at den enkelt kan spores på de forskjellige forsidene.

Arkivet kan også brukes til å gjøre analyser av hvilke tidspunkt endringer på nettavisforsider skjer. Eksempelvis kan man vise hvilke klokkeslett de fleste oppdateringene på forsiden skjer.

Koden publisert på Github

Nettavisarkiveringsprogrammet vil forhåpentligvis motivere fremtidige studenter og forskere til å rette oppmerksomheten mot forskning på nettaviser og nettartikler. Dersom programmet blir ferdigutviklet og får funksjonen som en database, kan man også grave i arkivet av nettavisartikler på forsiden. Videre slipper man å ta skjermdumper manuelt for å arkivere forsider.

Det må påpekes at programmet ikke er feilfritt slik det står nå. Eksempelvis er programmet kun tilpasset VG Nett for øyeblikket, og programmet vil kun lagre forsidene som html. Dersom VG-redaksjonen sletter artikler eller annet innhold, vil dette påvirke fremvisningen av nettavisforsiden. Vi jobber med å løse disse utfordringene, og ønsker nye forslag velkommen. Koden til programmet er tilgjengelig på Github.

2 KOMMENTARER

Anders Ericson says:
30. mars 2012, kl. 10:49
Interessant. En annen ting, som noen kanskje også vil forske på, og kanskje ved hjelp av dette programmet?: Utviklinga når det gjelder bruken (omfanget) av eksterne hyperlenker i redaksjonelle tekster. Over tid? I forhold til type artikkel? Tema? I forhold til forfatter? Hvem som sitter på desken?

Mads Tordal says:
5. april 2012, kl. 11:13
Mulighetene er mange! Det du ramser opp er ting som en kan finne ut av. I dette tilfellet så er det bevaring av fremsidene som står i fokus, hva en vil gjøre med dataen som blir samlet inn er helt opp til den enkelte forsker/interessent.

I nåværende form må hver enkelt kjøre programmet for å samle inn data, det er ikke noen mulighet å gå tilbake i tid. Ideelt sett kunne dette ha blitt kjørt en sentral plass slik at de som var interessert i dataene kunne se på disse uten å måtte prøve å samle disse inn selv — ved å ta kontakt med de aktuelle avisene, som såvidt meg bekjent ikke lagrer veldig mye. F.eks, hadde dette programmet kjørt fra 22. juli rundt kl 1500 og utover, kunne det gitt en svært etterlengtet oversikt, men her hadde det vært interessant å sett på utviklingen av artikkelinnhold også (http://www.dagbladet.no/2012/03/31/kultur/terrorangrep_i_oslo/nasjonalbiblioteket/medieforskning/20879267/). Registrering av endringer i artikkelinnhold kan være et naturlig steg videre, men det er foreløpig ingen planer om å begynne på den oppgaven.

til toppen

Koden publisert på Github

Nyhetsbrev

2 KOMMENTARER