Når databaserte nyheter blir partiske

Algoritmer er blitt allestedsnærværende i nyhetsmediene - derfor er det viktig å vite hvordan partiskhet og skjevheter kan sive inn i beslutningene de tar.

Tenk på Goog­le News. Da tje­nes­ten ble lan­sert i 2002 var den et av de førs­te for­sø­ke­ne på å sam­le inn og per­so­na­li­se­re nyhe­ter med algo­rit­mer — det vil si med pro­se­dy­rer som skritt for skritt og sys­te­ma­tisk behand­ler infor­ma­sjon. Goog­le skrøt til og med av det på hjem­me­si­den: «Den­ne siden ble laget ute­luk­ken­de med data­ma­ski­nal­go­rit­mer, uten men­nes­ke­li­ge redak­tø­rer. Men­nes­ker ble ver­ken ska­det eller brukt i arbei­det med den­ne siden.»

Goog­le News-algo­rit­mens kri­te­ri­er for å ran­ge­re og grup­pe­re nyhets­ar­tik­ler er pub­li­se­rings­hyp­pig­het, kil­de, aktua­li­tet, sted, rele­vans og mang­fold. Mil­lio­ner av gan­ger om dagen bru­ker Goog­le News-algo­rit­men dis­se kri­te­ri­ene til å ta redak­sjo­nel­le avgjø­rel­ser.

Like­vel, i den sys­te­ma­tis­ke bru­ken av beslut­nings­kri­te­ri­er kan algo­rit­men ska­pe skjev­he­ter som ikke synes opp­lag­te, gitt pro­gram­me­rin­gen av den. Det kan være lett å gi etter for feil­slut­nin­gen om at for­di data­ma­ski­nal­go­rit­mer er sys­te­ma­tis­ke, så må de på et vis være mer «objek­ti­ve». Men det er fak­tisk sli­ke sys­te­ma­tis­ke skjev­he­ter som er de mest lums­ke, siden de ofte går ube­mer­ket hen.

Selv robo­ter kan være par­tis­ke.

Enhver beslut­nings­pro­sess, enten men­nes­ke­lig eller algo­rit­misk, om hva som skal tas med, eks­klu­de­res eller vekt­leg­ges — pro­ses­ser Goog­le News har man­ge av — har poten­si­al til å ska­pe skjev­he­ter. Det inter­es­san­te med algo­rit­mer er at beslut­nings­kri­te­ri­ene som er til­gjen­ge­li­ge for algo­rit­men kan synes harm­løse, men sam­ti­dig føre til resul­ta­ter som opp­le­ves som par­tis­ke eller med slag­side.

Enhver skjev­het i data­ene som algo­rit­men fores med blir med på las­set

Et eksem­pel: Hvis den ikke pro­gram­me­res spe­si­elt for det, vil ikke Goog­le News-algo­rit­men ta par­ti når den pluk­ker repre­sen­ta­ti­ve artik­ler om en lokal valg­kamp — tje­nes­ten er grunn­leg­gen­de upar­tisk. Men et av kri­te­ri­ene for å vel­ge ut artik­ler er «pub­li­se­rings­fre­kvens». Det kan vir­ke nøy­tralt — men hvis en av kan­di­da­te­ne i valg­kam­pen gjen­nom­gå­en­de får litt mer medie­dek­ning (alt­så høy­ere «pub­li­se­rings­fre­kvens»), kan det kri­te­ri­et få Goog­le News’ utvalg til å vir­ke par­tisk.

Algo­rit­mer kan mang­le seman­tisk grunn­lag til å kun­ne for­stå mer avan­ser­te begre­per som ste­reo­ty­pi­er eller rasis­me. Hvis de enk­le og mål­ba­re kri­te­ri­ene algo­rit­me­ne bru­ker til å eks­klu­de­re infor­ma­sjon fra syn­lig­het på en eller annen måte kor­re­le­rer med for eksem­pel kløf­ter mel­lom folke­grup­per, kan de se ut som at de har en slag­side mot en folke­grup­pe.

Enk­le beslut­nings­kri­te­ri­er som leder til kom­plek­se avgjø­rel­ser om å inklu­de­re og eks­klu­de­re er en måte som par­tisk­het og skjev­het, ofte ufor­va­ren­de, kan vise seg i algo­rit­mer. And­re meka­nis­mer som kan ska­pe skjev­he­ter i nyhets­dek­nin­gen kan illust­re­res med en sær­lig vik­tig infor­ma­sjons­pro­sess — opp­sum­me­rin­gen.

Oppsummering av virkeligheten

På en måte drei­er nyhets­rap­por­te­ring seg egent­lig om å opp­sum­me­re vir­ke­lig­he­ten. Du kan inn­ven­de: «Det drei­er seg også om å for­tel­le en his­to­rie!» — og det vil du ha rett i, siden lite er kje­de­li­ge­re enn en tørr opp­sum­me­ring. Men før his­to­ri­en kan for­tel­les må repor­te­ren ta beslut­nin­ger om hvil­ke hen­del­ser som skal tas med, hva slags bak­grunns­in­for­ma­sjon som trygt kan ute­la­tes, og hva som bør vekt­leg­ges som vir­ke­lig vik­tig. Alt det­te har poten­si­al til å far­ge his­to­ri­en. Repor­te­re obser­ve­rer ver­den og avdek­ker mye infor­ma­sjon, for så å gjø­re et hånd­ter­bart utvalg som er til­pas­set tiden og opp­merk­som­he­ten pub­li­kum har til rådig­het. Det­te er å opp­sum­me­re.

Opp­sum­me­ring er vik­tig for­di tid og opp­merk­som­het er to av råva­re­ne som defi­ne­rer vår epo­ke. Man­ge av oss øns­ker eller tren­ger ikke kjen­ne til intri­ka­te detal­jer i hver nyhets­sak; ofte nøy­er vi oss gjer­ne med et kjapt over­blikk over en hen­del­se. Det­te beho­vet for å opti­me­re opp­merk­som­het og red­de oss fra infor­ma­sjons­flom­men dri­ver fram nyska­ping innen behand­ling og opp­sum­me­ring av infor­ma­sjon, i redak­sjo­nel­le vur­de­rin­ger så vel som i nye data­ma­ski­nal­go­rit­mer.

Grün­der­be­drif­ten Cir­ca i San Fran­cis­co arbei­der med en app for redak­sjo­nel­le vur­de­rin­ger som opp­sum­me­rer hen­del­ser som seri­er av «punk­ter» eller fakta­bi­ter. Redak­tø­rer sam­ler inn «fak­ta fra et mang­fold av kil­der» og gjør dem om til «kon­si­se, lett­les­te «punk­ter» i Cir­ca», slik appens hjelpe­si­der beskri­ver kon­sep­tet. Nå leg­ger Cir­ca selv mind­re vekt på opp­sum­me­ring og mer på his­to­rie­for­tel­ling. De knyt­ter de kon­si­se «punk­te­ne» sam­men i en sekvens som byg­ger en his­to­rie. Til­nær­min­gen deres er dre­vet av redak­tø­rer og er selv­føl­ge­lig utsatt for alle de uli­ke måte­ne som skjev­het og par­tisk­het kan opp­stå i en redi­ge­rings­pro­sess, inklu­dert både indi­vi­du­el­le og orga­ni­sa­to­ris­ke pre­fe­ran­ser.

Din dag­li­ge nyhets­meny har anta­ke­lig blitt påvir­ket av man­ge uli­ke algo­rit­mer

Men hva om Cir­ca begyn­te å bru­ke algo­rit­mer som iste­den­for å base­re seg på redak­tø­rer, tok auto­ma­tis­ke avgjø­rel­ser om hvil­ke punk­ter de skul­le ta med eller ute­late? Da kun­ne de begyn­ne å lik­ne mer på Lon­don-baser­te Sum­mly, som har en ny lese-app med «algo­rit­me-gene­rer­te sam­men­fat­nin­ger fra hundre­vis av kil­der». Sum­mly vel­ger de «vik­tigs­te» set­nin­ge­ne fra en artik­kel og pre­sen­te­rer dis­se som opp­sum­me­ring. Men hvor­dan kan den­ne algo­rit­men begyn­ne å lage skjev­he­ter i his­to­rie­ne den pro­du­se­rer, for eksem­pel gjen­nom defi­ni­sjo­nen av «vik­tig»? Er det for eksem­pel ten­ke­lig at algo­rit­men i en sak om den isra­elsk-pale­stins­ke kon­flik­ten kun­ne vel­ge ut set­nin­ger på en dis­pro­por­sjo­nal måte slik at den ene sidens syn vekt­leg­ges tyng­re enn den and­res?

Kan­skje vil vi ald­ri få vite hvor­dan Sum­mlys algo­rit­mer kan ska­pe skjev­he­ter i opp­sum­me­rin­ge­ne den lager; den er en pro­prie­tær og luk­ket tek­no­lo­gi. Det under­stre­ker beho­vet for åpen­het om algo­rit­mer. Ved å stu­de­re mer åpne for­søk som forsk­nings­ba­ser­te pro­sjek­ter kan vi lære mye om hvor­dan algo­rit­mer for opp­sum­me­ring vir­ker og kan ska­pe skjev­he­ter.

Jeg snak­ket med Jeff Nichols ved IBM Rese­arch, som har byg­get et sys­tem (pdf) for å opp­sum­me­re sports­ar­ran­ge­men­ter basert kun på Twit­ter-mel­din­ger (twe­ets) folk skri­ver om dem. Sports­in­ter­es­ser­te Nichols begyn­te å plot­te inn meng­den av twe­ets om kam­pe­ne under VM i fot­ball i 2010. Han så at meng­den økte på vis­se tids­punk­ter, og bruk­te sin ad hoc-meto­de til å fin­ne de mest spen­nen­de øye­blik­ke­ne i en kamp slik at han kun­ne spo­le fram til dem på sin video­opp­ta­ker. Meng­den twe­ets øker natur­lig ved spen­nen­de hen­del­ser, sær­lig sco­rin­ger.

Der­et­ter begyn­te Nichols og hans team å spør­re vans­ke­li­ge­re spørs­mål om hva slags opp­sum­me­rin­ger de fak­tisk kun­ne lage på bak­grunn av Twit­ter-mate­ria­let. De end­te opp med å lage et sys­tem som kun­ne behand­le alle twe­ets om en kamp, fin­ne top­pe­ne i twe­et-akti­vi­tet, vel­ge ut repre­sen­ta­ti­ve nøk­kel-mel­din­ger fra dis­se hen­del­se­ne, og splei­se dem sam­men til kor­te opp­sum­me­rin­ger. Når les­bar­het og gram­ma­ti­kalsk nivå ble sam­men­lig­net, vis­te det seg at teks­te­ne laget med algo­rit­men var av til­sva­ren­de kva­li­tet som manu­elt pro­du­ser­te opp­sum­me­rin­ger basert på det sam­me Twit­ter-mate­ria­let.

Manu­ell eller maski­nell opp­sum­me­ring — hvil­ken er best?

IBM-sys­te­met vis­te like­vel at en spe­si­ell type skjev­het kan sni­ke seg inn i algo­rit­mer:

Enhver skjev­het i data­ene som algo­rit­men fores med blir med på las­set helt fram til det fer­di­ge resul­ta­tet. Algo­rit­men er par­tisk til for­del for «de som skri­ker høy­est», iføl­ge Nichols, siden den rela­tivt enk­le algo­rit­men fin­ner rele­van­te twe­ets ved å lete etter fre­kven­sen av nøk­kel­ord på engelsk. Impli­ka­sjo­ne­ne er gans­ke kla­re: Hvis Slo­ve­nia sco­rer et kon­tro­ver­si­elt mål mot USA, kan algo­rit­men rap­por­te­re at «USA ble ranet», hvis det er den domi­ne­ren­de reak­sjo­nen i engelsk­språk­li­ge twe­ets. Men anta­ke­lig vil ikke slo­ve­ne­re som tvit­rer om hen­del­sen være enig. De vil sann­syn­lig­vis mel­de noe sånt som «Fint mål — der fikk dere den, USA!» (på slo­vensk, selv­føl­ge­lig). Nichols er inter­es­sert i å til­pas­se algo­rit­men for å ta hen­syn til uli­ke per­spek­ti­ver og gene­re­re bevisst par­tis­ke opp­sum­me­rin­ger fra uli­ke syns­vink­ler (kan bli en vin­ner i ame­ri­kans­ke kabel-tv-nyhe­ter!).

Når de skal ta avgjø­rel­ser om hva som skal inklu­de­res i eller eks­klu­de­res fra en opp­sum­me­ring, må algo­rit­mer van­lig­vis gå gjen­nom et skritt der infor­ma­sjon prio­ri­te­res. Ting med lave­re prio­ri­tet blir eks­klu­dert. IBM-sys­te­met er for eksem­pel ret­tet inn mot høyde­punk­ter i idretts­be­gi­ven­he­ter. Det­te fun­ge­rer hvis målet er å fin­ne de mest spen­nen­de dele­ne av en kamp, som får mye opp­merk­som­het. Men det er and­re inter­es­san­te his­to­ri­er som bob­ler like under ters­ke­len for «høyde­punk­ter». Hva med midt­stop­pe­ren som spil­te solid i for­svar, men ald­ri gjor­de en enkelt­pre­sta­sjon som ga man­ge nok twe­ets til å bli opp­da­get av algo­rit­men? Den­ne delen av kam­pen, eller his­to­ri­en, vil­le bli ute­latt.

IBM-algo­rit­men ikke bare prio­ri­te­rer infor­ma­sjon, men må også gjø­re utvalg basert på uli­ke kri­te­ri­er. Noen av dis­se val­ge­ne kan også kodes inn slik at pro­gram­me­rer­ne hjel­per algo­rit­men med å gjø­re valg (heu­ris­tikk). For eksem­pel har IBM-sys­te­mets pro­gram­me­re­re for­hånds­be­stemt at algo­rit­men skal fore­trek­ke leng­re fram­for kor­te­re twe­ets til opp­sum­me­rin­ge­ne, siden de kor­te­re mel­din­ge­ne plei­er å være mind­re les­ba­re set­nings­frag­men­ter. Det er helt klart en avgjø­rel­se som kan for­sva­res, men Nichols inn­ser at det også kan ska­pe en skjev­het: «Å ute­late kom­men­ta­rer fra folk som har en tendens til ikke å skri­ve full­sten­di­ge set­nin­ger kan kan­skje eks­klu­de­re en lave­re utdan­net del av befolk­nin­gen». Kri­te­ri­er valgt av pro­gram­me­re­re for utvalg og prio­ri­te­ring kan kor­re­le­re med and­re vari­ab­ler (som utdan­nings­nivå) som kan være vik­ti­ge når par­tisk­het og skjev­he­ter i medie­dek­ning skal vur­de­res.

Optimering, rangering, aggregering

Opp­sum­me­rin­gen er bare én type infor­ma­sjons­be­hand­ling som kan sys­te­ma­ti­se­res i en algo­rit­me. Din dag­li­ge nyhets­meny har anta­ke­lig blitt påvir­ket av man­ge uli­ke algo­rit­mer alle­re­de før du har begynt å kon­su­me­re nyhe­te­ne. Algo­rit­mer for per­so­na­li­se­ring som dem som bru­kes av Zite, en popu­lær appli­ka­sjon for å lese nyhe­ter, til­pas­ser sys­te­ma­tisk inn­hold til dine inter­es­ser, på bekost­ning av å eks­po­ne­re deg for et stør­re mang­fold av saker. Soci­al Flow, en grün­der­be­drift i New York, bru­ker algo­rit­mer for opti­me­ring for å fin­ne ut det nøy­ak­ti­ge tids­punk­tet for når det er best å dele nyhe­ter i sosia­le nett­verk slik at de får mak­si­malt gjen­nom­slag hos mål­grup­pen.

Opti­me­rings­al­go­rit­mer kan også bli brukt (pdf) til å bestem­me lay­out­en av en nyhets­side. Men å opti­me­re lay­out basert på ett kri­te­ri­um, som antall side­vis­nin­ger, kan ha util­sik­te­de kon­se­kven­ser, som at skan­da­ler og kjen­dis­ny­he­ter all­tid hav­ner øverst på siden. Også her kan val­get av hvil­ke aspek­ter man vil opti­me­re og hva de er kor­re­lert med, ha betyd­ning.

Algo­rit­mer for ran­ge­ring er annen type som er mye brukt i nyhets­sam­men­heng. Tenk på lis­te­ne over «topp­sa­ker» på de fles­te nett­avi­ser, eller hvor­dan kom­men­ta­rer blir ran­gert, eller til og med på hvor­dan Twit­ter ran­ge­rer tren­der. Sær­lig Twit­ter-tren­der har kom­met i søke­ly­set etter at hen­del­ser som folk trod­de vil­le duk­ke opp på lis­ten over tren­der, som #occupy­wall­stre­et eller #wikile­aks, ikke vis­te seg. I lik­het med Sum­mly er ikke Twit­ter åpne om algo­rit­men de bru­ker til å iden­ti­fi­se­re tren­der. Det gjør det vans­ke­lig å vur­de­re hvil­ke sys­te­ma­tis­ke skjev­he­ter som er inne­bygd i algo­rit­men og om heu­ris­tikk eller men­nes­ke­li­ge valg inn­lem­met i den også kan spil­le en rol­le.

Fors­ke­re job­ber med hvor­dan du kan bli eks­po­nert for nyhe­ter på en nyt­tig måte

Goog­le bru­ker også ran­ge­rings­al­go­rit­mer til å sor­te­re søke­re­sul­ta­te­ne dine. I det­te til­fel­le er ran­ge­rings­al­go­rit­me­ne utsatt for den sam­me typen skjev­het til for­del for «de som skri­ker høy­est» som vi hør­te om fra Nichols. Inter­nett er fullt av fir­ma­er spe­sia­li­sert på søke­mo­tor­op­ti­ma­li­se­ring som prø­ver å lure Goog­les algo­rit­me slik at vis­se typer inn­hold vil vises høyt oppe i søke­re­sul­ta­te­ne selv om det kan­skje ikke for­tje­ner å være der. Det­te gjør de del­vis ved å knyt­te vis­se nøk­kel­ord til nett­ste­det de øns­ker å dyt­te opp­over på lis­ten over søke­re­sul­ta­ter, og ved å lage hyper­len­ker fra man­ge and­re nett­ste­der til det­te nett­ste­det. And­re prø­ver å mani­pu­le­re søkeran­ge­rin­ger. Pro­fes­sor Takis Meta­xis ved Wel­les­ley Col­le­ge og hans kol­le­ga Eni Mus­ta­fa­raj har skre­vet om «google­bom­bing». Her ska­per man kob­lin­ger mel­lom poli­tis­ke aktø­rer, som Geor­ge W. Bush, og neg­a­ti­ve søke­ord, som «håp­løs fias­ko», slik at per­sonen duk­ker opp når noen søker på den­ne fra­sen. Det­te er et per­fekt eksem­pel på hvor­dan skjev­he­ter i data som en algo­rit­me fores med kan føre til skjev­he­ter i resul­ta­tet. Og når data­ene algo­rit­men fores med er offent­li­ge, lig­ger algo­rit­men åpen for mani­pu­la­sjon.

Ikke alle typer skjev­he­ter og par­tisk­het i algo­rit­mer må være ska­de­lig. Hvis algo­rit­mer kun­ne ska­pe en mot­vekt til indi­vi­du­ell og tanke­mes­sig par­tisk­het vi alle bærer i oss, kun­ne det ha en posi­tiv effekt på infor­ma­sjo­nen vi blir eks­po­nert for. Ved Korea Advan­ced Insti­tute of Scien­ce and Tech­no­lo­gy (KAIST) har Souneil Park og hans sam­ar­beids­part­ne­re eks­pe­ri­men­tert med algo­rit­mer for inn­sam­ling av nyhe­ter som fores inn i en nyhets­pre­sen­ta­sjon kalt New­sCu­be (pdf). Den­ne leder bru­ke­ren til å for­hol­de seg til et stør­re mang­fold av per­spek­ti­ver. Glem å over­late ting til til­fel­dig­he­te­ne — fors­ke­re job­ber med hvor­dan du kan bli eks­po­nert for nyhe­ter på en nyt­tig måte. Richard Tha­ler og Cass Sun­stein kal­ler i sin bok Nud­ge den­ne for­men for inn­fly­tel­se for «liber­ta­ri­ansk pater­na­lis­me» — å påvir­ke erfa­rin­ger for å kor­ri­ge­re for kog­ni­ti­ve mang­ler i men­nes­kers reson­ne­rings­evne. Ikke bare kan algo­rit­mer ska­pe skjev­he­ter i inn­hol­det vi kon­su­me­rer — en dag kan de kan­skje gjø­re det på en måte som gjør oss smar­te­re og mind­re utsatt for våre egne tanke­mes­si­ge bris­ter. En algo­rit­me kun­ne kan­skje til og med sak­te dyt­te eks­tre­mis­ter mot midt­en ved å eks­po­ne­re dem for sta­dig mer mode­ra­te ver­sjo­ner av deres egne ide­er.

Algo­rit­mer fin­nes over alt i nyhe­te­ne som omgir oss, enten det er i opp­sum­me­rin­ger, per­so­na­li­se­ring, opti­me­ring, ran­ge­ring, kob­lin­ger, klas­si­fi­se­ring, aggre­ge­ring eller en annen algo­rit­misk infor­ma­sjons­pro­sess. De er alle­steds­nær­væ­ren­de, og det gjør det verdt å reflek­te­re over hvor­dan dis­se pro­ses­se­ne kan bidra til sys­te­ma­tisk mani­pu­la­sjon av infor­ma­sjo­nen vi kon­su­me­rer, enten det er gjen­nom heu­ris­tikk, data­ene de fores med, eller kri­te­ri­ene som bru­kes til å hjel­pe dem med å ta beslut­nin­ger om å inklu­de­re, eks­klu­de­re og vekt­leg­ge.

Algo­rit­mer vil all­tid måt­te ta ikke-til­fel­di­ge avgjø­rel­ser om inklu­de­ring, eks­klu­de­ring og vekt­leg­ging i medie­ne våre for å hjel­pe oss å løse vårt pro­blem med kna­pp tid og opp­merk­som­het. Vi kan ikke på magisk vis gjø­re algo­rit­mer «objek­ti­ve» ved å for­stå hvor­dan de for­år­sa­ker skjev­he­ter i medie­ne. Men vi kan lære oss å bli mer kri­tis­ke når vi bru­ker data­ba­ser­te medi­er. Sær­lig data­jour­na­lis­ter bur­de gjø­re det til en vane å ten­ke grun­dig over hva bivirk­nin­ge­ne av algo­rit­me­ne de lager kan være og hva som kan kor­re­le­re med kri­te­ri­ene de bru­ker for å ta avgjø­rel­ser. I nes­te omgang bør vi være åpne om dis­se bivirk­nin­ge­ne på en måte som hjel­per pub­li­kum til å bedøm­me kva­li­te­ten på det vi gjør.

Artik­ke­len ble først pub­li­sert av Nie­man Jour­na­lism Lab. Over­satt av Olav Anders Øvre­bø.

TEMA

J

ournali
stikk

117 ARTIKLER FRA VOX PUBLICA

FLERE KILDER - FAKTA - KONTEKST

INGEN KOMMENTARER

Kommentarfeltet til denne artikkelen er nå stengt. Ta kontakt med redaksjonen dersom du har synspunkter på artikkelen.

til toppen