Media er fulle av nyheiter om korona-viruset og Covid 19, om opphavet til sjukdomen, spreiing av viruset og kampen mot sjukdommen. Dette er naturleg sidan vi alle er sterkt påverka av dette i kvardagen. Vi er nysgjerrige og ønskjer å forstå samanhengane i det som skjer. Denne situasjonen er fruktbar mark for spreiing av idear som at Microsoft-gründeren Bill Gates står bak korona-viruset, eller at pandemien er eit resultat av stråling frå 5G-mobilnettet. For dei fleste opplyste menneske er desse samanhengane heilt utan truverde, men likevel ser dei ut til å spreie seg som virus. Nasjonal sikkerheitsmyndigheit og justisminister Monika Meland poengterte berre for ei veke sidan kor farleg spreiing av falske nyheiter kan vere for demokratiet.
I mange av Balkan-landa er det ein industri der folk arbeider med å konstruere nye saker som gjer folk nysgjerrige. Tidsaktuelle konspirasjonsteoriar er effektive klikkfangarar, og bidrar dermed til inntening. I Russland er det troll-fabrikkar som har som agenda å svekke demokrati. Menneske, frå dei aller mektigaste til den vanlege Facebook-brukaren, ser ikkje ut til å vere interessert i sanninga og spreier slike saker. Mange har meir glede av å få stadfesta eigne meiningar eller få positiv merksemd frå omgangskretsen.
Nettstadar som faktisk.no prøver å motverke dette ved å forklare kvifor slike nyheiter ikkje er sanne. Likevel ser vi at óg seriøse media innimellom bit på og spreier falske nyheiter. For seriøse medieaktørar vil det vere stor hjelp i å avdekke tvilsame saker før dei når nettsida. Dagens teknologi rundt språkanalyse og analysar av opphav til bilde og videoar vil kunne hjelpe. Men dette er, som i den kontinuerlege kampen mot mikrobar, eit kappløp der berre jamleg forsking vil gjere det mulig å holde tritt med falske nyheiter-bransjen. MediaFutures er eit initiativ for forskingsbasert innovasjon der Universitetet i Bergen og store aktørar i den norske mediebransjen har ambisjonar om blant anna å utvikle teknologiar for å handtere falske nyheiter. Den kompetansen UiB har i kunstig intelligens-baserte analysar av bilde, video og språk er akkurat det kunnskapsgrunnlaget som trengs for å hjelpe mediebransjen med desse utfordringane.
Det meste av falske nyheiter som i dag vert spreidd er utforma av menneske. Dei kan for eksempel lage bilde der dei photoshoppar vekk element eller legg til element. Slikt juks vil ein i dag kunne oppdage automatisk med algoritmar som ser etter fargeforskjellar, pikslar som ikkje passar inn, eller inkonsistent skuggelegging. Når falske nyheiter-forfattar skriv tekstar vil dei gjerne ha spesielle måtar å formulere seg på, slik at ein kan bruke (ofte subtile) statistiske eigenskapar ved teksten til å sannsynleggjere at den er ei falsk nyheit. Maskinlæringsalgoritmar har blitt opplært til å avsløre slike tekstar med ganske god presisjon.
Men utviklinga går mot at ulike former for innhald vert generert automatisk. Vi har såkalla deepfakes, som er bilde og videoar som ser ut til å vere reelle, men som eigentleg er automatisk konstruert ved hjelp av såkalla djuplærings-algoritmar. Ein variant av desse er såkalla generative adversielle nettverk. Ideen her er at to djuplærings-system konkurrerer mot kvarandre. Det eine genererer bilde eller videoar, det andre diskriminerande systemet avslører falske bilde eller videoar. Det diskriminerande systemet må etter kvart som det generative systemet lagar betre og betre bilde bli flinkare til å skilje mellom ekte og falske bilde. Det generative systemet må lære seg å lage stadig meir naturtru bilde. Etter ei stund vil bilda vere så naturtru at det kanskje ikkje er råd for menneske å sjå forskjell. Då må vi stole på det diskriminerande systemet for å avdekke juks, og det vil heller ikkje vere 100%.
Tekstar kan genererast automatisk ved hjelp av språkmodellar, som er statistiske modellar av språk funne ved djuplæring. Dei kan generere tekstar som er ganske tilforlatelege, men som eigentleg kun er sekvensar av ord som stettar eigenskapane til for eksempel ein journalistisk tekst. Vi må forvente at i framtida vil ein kunne få slike djuplæringssystem til å generere journalistiske tekstar basert på utvalde, sanne eller usanne, påstandar. NTB produserer fotballreferat og valrapportar automatisk, så ideen om automatisk produksjon av journalistikk er ikkje ukjent i media. Og fake news-industrien vil sjølvsagt ikkje halde fingrane av fatet når det gjeld å generere usanne historier.
Konsekvensen er at vi i tillegg til maskinlæringsteknikkar må utstyre oss med automatiske faktasjekkarar som trekker ut påstandar frå kjelder ved hjelp av språkanalyseteknikkar, samanheld dei med truverdige kjelder og brukar sannsynsbaserte teknikkar til å vurdere om påstandar eller nyheitsartiklar er truverdige. Slik semantisk analyse av tekstar identifiserer entitetar (personar, organisasjonar) som vert omtalt i ein tekst og relasjonar mellom dei. Påstandane i teksten vert gjerne organisert i såkalla kunnskapsgrafar. Desse grafane har eit format som etter kvart er blitt ganske universelt og er brukt i internasjonale kunnskapsbasar, t.d. DBPedia, ein database med strukturert innhald frå Wikipedia. Vi vil trenge algoritmar kan samanhalde kunnskapsgrafen frå ein tekst med verifiserte kunnskapsgrafar, forklare kva som er gale og slik bidra til å avsløre juks.
En kortversjon av kronikken ble først publisert i Medier24.