Hvordan skal PrevBOT virke?
Navnet «PrevBOT» står for «Preventive Robot», noe som viser til det preventive (forebyggende) formålet, og til at den kunstige intelligensen implementeres i robotteknologi.
PrevBOT kan være tilstede i chatfora, men i sin grunnleggende form er den ikke en generativ chatbot som autonomt deltar i samtaler. Hvorvidt en slik interagerende funksjon bør legges til i fremtiden må blant annet vurderes opp mot rettslige rammer for infiltrasjon og bevisprovokasjon, samt etiske avveininger. Prosessen i sandkassa har forholdt seg til PrevBOT som et passivt observerende verktøy, og er følgelig ikke å anse som en chatbot.
Den grunnleggende egenskapen en PrevBOT må ha, er altså å overvåke samtaler i åpne fora på nettet, for så i sanntid å identifisere samtaler der grooming pågår. Ved å hente ut statistikken fra verktøyet, vil politiet også kunne avdekke steder på nett med økt risiko for at grooming skjer. Boten skal med andre ord peke ut problematiske steder og personer.
Hvordan identifisere grooming?
Hvis vi går inni boten, er det i hovedsak tre ting den skal gjøre:
-
Detektere grooming-språk
Boten må gjenkjenne ord og formuleringer for sex-prat. Ikke bare i leksikalsk forstand. Den må også være oppdatert på slang og kodeord som blir brukt. Med god og kontinuerlig trening og oppdatering vil den kanskje klare å kjenne igjen tegnene på en groomingsamtale, før språket blir eksplisitt seksuelt. -
Avsløre falske profiler
Boten skal anslå kjønn og alder på de chattende. Mange overgripere utgir seg for å være noe annet enn de i realiteten er. (Det kan gjelde de mindreårige også.) Ved å anslå kjønn og alder, kan boten oppdage samtaler der det er stor aldersforskjell. Slik kan PrevBOTen oppdage om det er voksne i fora der de andre er unge, eller motsatt – om mindreårige har sneket seg inn i et chatrom med 18-årsgrense. -
Sinnsstemningsanalyse
Boten skal identifisere følelsene til de chattende. Responstid, tempoet på inntasting, språket og måten å skrive på kan avsløre om du som chatter for eksempel er aggressiv/pågående/utålmodig selv om innholdet i det du skriver antyder at du er rolig og avslappet. Det kan være et tegn på at du har andre hensikter enn dem du uttrykker.
Det er ikke slik at boten må mistenke løgn om alder/kjønn og følelse, for at samtalen skal klassifiseres som pågående grooming. Men disse tre deteksjonene vil til sammen gi et godt bilde i vurderingen av samtalene.
Når PrevBOTen klassifiserer en samtale som potensiell grooming, blir samtalen flagget. Tanken er så at mennesker overtar, og beslutter om det er grunnlag for å gripe inn eller ikke, og eventuelt hvordan. PrevBOT er altså tenkt som et beslutningsstøtteverktøy.
Hvordan politiet skal gripe inn i samtalene som flagges, er ikke beskrevet. Den opprinnelige tanken i prosjektet har vært, at groomeren på en eller annen måte advares, og groomingforsøket på en eller annen måte avskjæres. Politiet har allerede nettpatruljer som følger med og har erfaring med slikt. Håpet er at PrevBOT gir dem økt kapasitet.
Sandkasseprosjektet har løst diskutert om det kan være vel så effektivt om «offeret» også får en melding, eventuelt om bare «offeret» blir advart. For sårbare mindreårige kan det være uheldig om samtalen bare plutselig blir brutt, uten at de skjønner hva som har skjedd. Vi konkluderte ikke med hva som vil fungere best, men anbefaler PrevBOT-prosjektet å prøve ut alternativene – og uansett tar hensyn til «ofrene» - i måten groomingforsøkene avskjæres på.
Å detektere seksualisert språk
Det er gjort en del forsking internasjonalt på grooming-lingvistikk. Mange tar utgangspunkt i R. OʼConnellʼs fem-stegs modell for nettbaserte grooming-prosesser. Som modellen viser, er det kanskje først i det femte steget at samtalen blir eksplisitt seksuell. Man kan likevel gjenkjenne grooming-forsøk i de tidligere stegene. Særlig fasen Risikovurdering kan være avslørende. Nyere forsking antyder også at dagens nettgroomere er mer utålmodige, eventuelt forsiktige, og gjør risikovurderingen tidligere i løpet.
Med maskinlæring (ML), analyse av naturlig språk (NLP) og nevrale nettverk kan man trene modellene til å gjenkjenne tegnene på en groomingsamtale. «Fasiten», som modellene trenes på, vil være logger fra samtaler der man i ettertid vet at det var grooming som foregikk.
Stilometri (eng.: stylometry) er studien og analysen av lingvistisk stil og skrivemønstre. Da kan man se på ordforråd, setningslengder, ordfrekvens og alt annet kvantifiserbart ved teksten. I en samtale kan det for eksempel være interessant å se hvor ofte man stiller spørsmål. Forskerne Borj og Bours ved NTNU har hatt lovende resultater i sine forsøk på å gjenkjenne groomingsamtaler. Etter å ha brukt ulike klassifiseringsteknikker lyktes de i å oppdage overgriperne med opptil 98% nøyaktighet.
Å avsløre løgn
Forfatterprofilering innebærer å analysere tekster for å identifisere forfatterens kjønn, alder, morsmål, personlighetstrekk, følelser og lignende. Forsøk viser at slik profilering kan være imponerende treffsikker, særlig om kategoriene er grove – er forfatteren et barn (under 18 år) eller en voksen (for eksempel over 25 år) – og om modellen er trent på spesifikke tema (f.eks. chatromsamtaler) heller enn et bredt sjangergrunnlag.
Dersom den chattende i tekst eller brukerprofil gir seg ut for å være noe annet enn kategoriene forfatterprofileringen plasserer vedkommende i, kan det tale for at grooming er på gang.
Å tolke følelsene
Sinnsstemningsanalyse, også kjent som sentimentanalyse, er å bruke NLP og maskinlæringsteknikker for å identifisere og trekke ut subjektiv informasjon fra tekstdata. Her brukes altså kunstig intelligens, som kan lese det folk skriver og sortere det i følelseskategorier. Et enkelt eksempel er bedrifter som følger med på hvordan produktene deres omtales. I analysen kan teksten sorteres som “positiv”, “negativ” eller “nøytral”, eller man kan finmaske sorteringen i større grad.
Sinnsstemningsanalyse brukes på mange felt. Underholdningindustrien bruker det til å måle publikumsreaksjoner på tv-serier, når de skal vurdere å avslutte eller forlenge en produksjon. I politikken brukes det til å analysere folks reaksjoner på politiske utspill og hendelser. Og i finanssektoren brukes det til å fange opp trender i finansmarkedet.
Eksemplene over gjelder sinnsstemningsanalyse på gruppenivå. Men det kan også brukes på individnivå. Det er samme metoder som ligger bak når sosiale medie-plattformer følger med på aktiviteten din – hva liker du, hva kommenterer du, hva poster du, hva stopper du opp ved når du scroller? Jo bedre de kjenner følelseslivet ditt, jo mer effektivt kan de treffe med annonser og innhold.
Tekstlig biometri
Dagens teknologi kan ikke bare putte forfattere i båser, som med forfatterprofilering, og avsløre forfatterens ekte følelser. Den kan til og med identifisere den enkelte forfatter. Tekstlig biometri kaller man det, og tanken er at den enkeltes språk er såpass unikt, at man kan snakke om tekstlige fingeravtrykk. På skisseblokka har PrevBOT også fått denne egenskapen, for å kunne gjenkjenne tidligere dømte seksualforbrytere, som har blitt aktive på nett igjen. Denne egenskapen har vi riktignok holdt utenfor diskusjonene i sandkasseprosjektet.
Forklarbare Tsetlin
PHS ser for seg å bygge PrevBOT på Tsetlin-maskin (TM). Styrken til en Tsetlin-maskin, er at den skal være bedre på forklarbarhet enn nevrale nettverk. I et prosjekt som PrevBOT, der mennesker skal bli kategorisert som potensielle overgripere basert på (i de fleste tilfeller) lovlig kommunikasjon på åpent nett, vil det være viktig å kunne forstå hvorfor verktøyet konkluderer som det gjør.
En grundig beskrivelse av Tsetlin-maskinen finner du i kapittel 6 i denne rapporten.
Figuren illustrerer beslutningsprosessen i PrevBOTen. PS står for problematiske steder, mens PP står for problematiske personer. Illustrasjonen er hentet fra Sunde & Sundes artikkel fra 2021. Diskusjonene i sandkassen har tatt utgangspunkt i at muligheten til å spore tekstlige fingeravtrykk ikke blir lagt inn som en egenskap i PrevBOTen.
Av figuren framgår også det å starte etterforsking som et alternativ. PrevBOT-prosjektet oppgir at det ville være mest aktuelt for funksjonen tekstlig fingeravtrykk, som altså ikke lenger er aktuell.