Analyseprogram avdekker nettavisenes prioriteringer

Nyutviklet programvare åpner nye muligheter for forskning på nettavisjournalistikk.

Det drei­er seg her om et tverr­fag­lig sam­ar­beid mel­lom infor­ma­sjons­vi­te­re og medie­vi­te­re, om utnyt­ting av kom­pe­tan­se fra to fag­om­rå­der og om utvik­ling av pro­gram­vare for arki­ve­ring av nett­avis­for­si­der. Pro­gram­met skal arki­ve­re end­rin­ger på nett­avi­sers for­si­der, lage et søk­bart regis­ter og vise hvor­dan nett­sa­ker «beve­ger» seg på for­si­den over tid.

Arbei­det med pro­gram­met star­tet i begyn­nel­sen av febru­ar 2012, i for­bin­del­se med mitt dok­tor­grads­pro­sjekt som under­sø­ker presse­dek­nin­gen av NAV, her­under blant annet nett­avi­sen VG Nett. Pro­sjek­tet søker blant annet å under­sø­ke hvor­dan nett­avis­ar­tik­ler «beve­ger» seg på for­si­den, slik at man kan få et bil­de på hvor­dan en nett­sak har vært prio­ri­tert i for­hold til res­ten av artik­le­ne på for­si­den. Til sam­men­lig­ning vil en topp­sak på for­si­den av en papir­avis ha en høy­ere prio­ri­te­ring enn en sak uten for­si­dere­fe­ran­se.

Top­pen av VGs for­si­de 5. febru­ar 2012 kl 08.46 og kl. 09.05 (grønn mar­ke­rings­far­ge lagt på).

Det er imid­ler­tid fle­re utford­rin­ger med å inklu­de­re nett­avi­ser i inn­holds­ana­ly­ser. En nett­ar­tik­kel kan spo­res ved hjelp av avis­ar­ki­vet Retrie­ver, men arki­vet gir ingen infor­ma­sjon om hvor­dan redak­sjo­nen har prio­ri­tert saken. Med and­re ord er det ingen infor­ma­sjon om hvor artik­ke­len har vært plas­sert på for­si­den, eller om den i det hele tatt har vært på for­si­den. Det er nett­opp dis­se utford­rin­ge­ne det nye pro­gram­met skal løse. Pro­gram­met er utvik­let av infor­ma­sjons­vi­ter­ne Mads Tor­dal, Ruben Oen og Øyvind Døske­land i sam­ar­beid med under­teg­ne­de — samt­li­ge ved Insti­tutt for infor­ma­sjons- og medie­vi­ten­skap, UiB.

I for­kant av arbei­det med pro­gram­met er det også blitt under­søkt hvor­vidt and­re tje­nes­ter kan være til hjelp, slik som eksem­pel­vis Nasjo­nal­bi­blio­te­kets arki­ve­ring av nors­ke nett­si­der. Dis­se sys­te­me­ne er ikke til­strek­ke­lig for å dri­ve den­ne typen for­side­ana­ly­ser. «Way­back Machi­ne» (et søk­bart inter­nett­ar­kiv) er hel­ler ikke et godt alter­na­tiv, da den­ne tje­nes­ten kun arki­ve­rer for­si­der utvalg­te dager, og som regel fra 1–8 gan­ger om dagen. VG Nett arki­ve­rer sine egne for­si­der i html-for­mat hvert fem­te minutt, og det­te arki­vet strek­ker seg til­ba­ke til 2010. Redak­sjo­nen stil­ler arki­vet til dis­po­si­sjon for medie­forsk­ning. Arki­vet til VG Nett gir imid­ler­tid ikke mulig­het til å bru­ke arki­vet som et søk­bart regis­ter med utgangs­punkt i artik­le­ne. Her må man alt­så lete gjen­nom for­si­de­ne manu­elt for å fin­ne ut hvor­dan artik­le­ne «beve­ger» seg på for­si­den.

Pro­ble­ma­tik­ken med ana­ly­ser og inn­hen­ting av data i for­hold til nett­avi­ser er såle­des bak­grun­nen for det­te sam­ar­bei­det mel­lom infor­ma­sjons- og medie­vi­te­re. Pro­gram­met har i førs­te omgang tatt utgangs­punkt i VG Netts for­si­der og fun­ge­rer på føl­gen­de vis: for­si­der arki­ve­res i html-for­mat hver gang det skjer en redak­sjo­nell end­ring på siden. Med and­re ord vil den ikke regist­re­re at det skif­tes annon­ser eller at et bil­de skif­ter ser­ver (uten at selve bil­det end­rer seg). Det­te arki­ve­res så kro­no­lo­gisk i et søk­bart regis­ter. Her kan man søke etter artik­le­nes nett­adres­se (URL), og pro­gram­met gene­re­rer der­et­ter en over­sikt over hvil­ke for­si­der artik­ke­len har vært plas­sert på. Det­te åpner vide­re for mulig­he­ten til å lage en bilde­se­rie der man ser hvor­dan artik­ke­len «beve­ger seg på for­si­den» over tid. Artik­le­ne kan også få et grønt mer­ke slik at den enkelt kan spo­res på de for­skjel­li­ge for­si­de­ne.

Arki­vet kan også bru­kes til å gjø­re ana­ly­ser av hvil­ke tids­punkt end­rin­ger på nett­avis­for­si­der skjer. Eksem­pel­vis kan man vise hvil­ke klokke­slett de fles­te opp­da­te­rin­ge­ne på for­si­den skjer.

Koden publisert på Github

Nett­avis­ar­ki­ve­rings­pro­gram­met vil for­hå­pent­lig­vis moti­ve­re frem­ti­di­ge stu­den­ter og fors­ke­re til å ret­te opp­merk­som­he­ten mot forsk­ning på nett­avi­ser og nett­ar­tik­ler. Der­som pro­gram­met blir fer­dig­ut­vik­let og får funk­sjo­nen som en data­base, kan man også gra­ve i arki­vet av nett­avis­ar­tik­ler på for­si­den. Vide­re slip­per man å ta skjerm­dum­per manu­elt for å arki­ve­re for­si­der.

Det må påpe­kes at pro­gram­met ikke er feil­fritt slik det står nå. Eksem­pel­vis er pro­gram­met kun til­pas­set VG Nett for øye­blik­ket, og pro­gram­met vil kun lag­re for­si­de­ne som html. Der­som VG-redak­sjo­nen slet­ter artik­ler eller annet inn­hold, vil det­te påvir­ke frem­vis­nin­gen av nett­avis­for­si­den. Vi job­ber med å løse dis­se utford­rin­ge­ne, og øns­ker nye for­slag vel­kom­men. Koden til pro­gram­met er til­gjen­ge­lig på Git­hub.

TEMA

J

ournali
stikk

122 ARTIKLER FRA VOX PUBLICA

FLERE KILDER - FAKTA - KONTEKST

2 KOMMENTARER

  1. Anders Ericson says:

    Inter­es­sant. En annen ting, som noen kan­skje også vil fors­ke på, og kan­skje ved hjelp av det­te pro­gram­met?: Utvik­lin­ga når det gjel­der bru­ken (omfan­get) av eks­ter­ne hyper­len­ker i redak­sjo­nel­le teks­ter. Over tid? I for­hold til type artik­kel? Tema? I for­hold til for­fat­ter? Hvem som sit­ter på des­ken?

    • Mads Tordal says:

      Mulig­he­te­ne er man­ge! Det du ram­ser opp er ting som en kan fin­ne ut av. I det­te til­fel­let så er det beva­ring av frem­si­de­ne som står i fokus, hva en vil gjø­re med data­en som blir sam­let inn er helt opp til den enkel­te forsker/interessent.

      I nåvæ­ren­de form må hver enkelt kjø­re pro­gram­met for å sam­le inn data, det er ikke noen mulig­het å gå til­ba­ke i tid. Ide­elt sett kun­ne det­te ha blitt kjørt en sen­tral plass slik at de som var inter­es­sert i data­ene kun­ne se på dis­se uten å måt­te prø­ve å sam­le dis­se inn selv — ved å ta kon­takt med de aktu­el­le avi­se­ne, som såvidt meg bekjent ikke lag­rer vel­dig mye. F.eks, had­de det­te pro­gram­met kjørt fra 22. juli rundt kl 1500 og utover, kun­ne det gitt en svært etter­leng­tet over­sikt, men her had­de det vært inter­es­sant å sett på utvik­lin­gen av artik­kel­inn­hold også (http://www.dagbladet.no/2012/03/31/kultur/terrorangrep_i_oslo/nasjonalbiblioteket/medieforskning/20879267/). Regist­re­ring av end­rin­ger i artik­kel­inn­hold kan være et natur­lig steg vide­re, men det er fore­lø­pig ingen pla­ner om å begyn­ne på den opp­ga­ven.

til toppen