Juridisk: Dataflyten i PrevBOT-prosjektet
I dette kapittelet nærmer vi oss lovligheten i dette konkrete prosjektet. Og vi starter med en øvelse "alle" kan lære av: å få oversikt over dataflyten i prosjektet.
For å kunne gjøre en juridisk analyse er det sentralt å få oversikt over dataflyten i prosjektet. I forbindelse med utviklingen av algoritmen i PrevBOT-prosjektet, behandles to hovedgrupper med data:
1. Den ene gruppen hentes fra åpent tilgjengelige datasett fra Nasjonalbiblioteket. Formålet med denne behandlingen er å trene KI-modellen i norsk språk.
Datatilsynet forstår det slik at denne norsktreningen vil foregå i arbeidspakken ved CAIR/UiA, som del av PrevBOT-prosjektet. PHS antar selv at bruk av disse dataene ikke anses å utløse noen personvernspørsmål. På grunn av prosjektets omfang har vi avgrenset rapporten mot denne gruppen med data.
2. Den andre gruppen med data består av informasjon fra taushetsbelagte chatlogger innhentet fra norske straffesaker (straffesaksdata).
Chatloggene fra bevismaterialet i straffesaker består av en utskrift av nettpratsamtalen mellom gjerningspersonen og offeret hvor grooming har pågått. Et mindre antall relevante saker er blitt identifisert i forprosjektet «Nettprat». For mer informasjon om den konkrete datainnsamlingen av chatlogger, se rapporten fra Nettpratprosjektet s. 20.
Chatloggene vil kunne inneholde en rekke personopplysninger, avhengig av hva deltakerne i samtalen selv deler av personlig informasjon. Det kan også tenkes at loggene vil kunne inneholde metadata med personopplysninger.
Basert på informasjonen i chatloggene, kan det være at algoritmen vil være i stand til å fange opp personopplysninger, selv om disse ikke eksplisitt er en del av treningsdataene. Det kan for eksempel tenkes at det tekstlige fingeravtrykket til en person, som ofte vil være å anses som en personopplysning, vil kunne fanges opp av algoritmen. I slike tilfeller vil det kunne – i alle fall teoretisk – være mulig å reidentifisere en person med en viss sannsynlighet, selv om ingen direkte identifiserende personopplysninger er inkludert. PHS opplyser at slik identifisering forutsetter at det foreligger en referansedatabase med tekstlige fingeravtrykk. Etter det opplyste skal PrevBOT ikke ha denne funksjonen og en slik database vil dermed heller ikke opprettes.
Personopplysningene som behandles vil kunne gjelde følgende kategorier av registrerte:
- Fornærmede i straffesaken
- Gjerningspersonen i straffesaken
- Eventuelt andre personer som blir omtalt i chatsamtalen
Ved behandlingen av chatlogger kan det tenkes at følgende behandlingsaktiviteter knyttet til personopplysninger gjennomføres:
- Tilgjengeliggjøring av chatlogger fra ulike politidistrikt til Politiets IT-enhet
- Fjerning av personopplysninger («vasking») fra chatlogger hos Politiets IT-enhet
- Tilgjengeliggjøring av chatlogger fra Politiets IT-enhet til CAIR/UiA (forutsatt at personopplysningene ikke er helt anonymisert)
- Dataforberedelse/strukturering hos CAIR/UiA (forutsatt at personopplysningene ikke er helt anonymisert)
- Trening av algoritmen hos CAIR/UiA (forutsatt at personopplysningene ikke er helt anonymisert)
- Analyse hos CAIR/UiA (forutsatt at personopplysningene ikke er helt anonymisert)
Politiets IT-enhet (PIT) er med som støtte i prosjektet, og PIT mottar kopi av chatloggene direkte fra lokale politidistrikt. PIT sørger for at de taushetsbelagte chatloggene lagres på sikker måte og ikke eksponeres for andre enn de som har lovlig tilgang til dataene. Før chatloggene tilgjengeliggjøres for CAIR v/UiA, skal de fjerne identifiserende opplysninger om gjerningsperson og fornærmede. PHS anser at disse opplysningene uansett ikke er relevante for prosjektet. Hos PIT skal chatloggene i tillegg vaskes maskinelt, slik at navn, adresser, telefonnummer og eventuell andre direkte identifiserende opplysninger som er gitt i chatten, fjernes, og erstattes med «XX».
Anonymisering
Personvernlovgivningen gjelder ikke for anonyme data. Data er anonyme hvis det ikke lenger er mulig, med de hjelpemidlene som med rimelighet kan tenkes å ha blitt brukt, å identifisere enkeltpersoner i datasettet.
Om anonymisering
Det er mange fallgruver når data skal anonymiseres, og Datatilsynet anser det på generell basis som utfordrende å anonymisere personopplysninger med sikkerhet. Det gjør det viktig å foreta grundige risikovurderinger før behandling av anonyme data, og å bruke solide anonymiseringsteknikker.
PHS legger opp til at chatloggene vil være anonymiserte før de behandles av CAIR v/UiA. På denne bakgrunn, vil det kun behandles personopplysninger innenfor PrevBOT-prosjektet fra og med tilgjengeliggjøringen av chatloggene, frem til at anonymisering finner sted.
Dersom det ikke behandles noen form for personopplysninger i utviklingsfasen av PrevBOT, vil ikke personvernregelverket komme til anvendelse. Det betyr at opplysninger fra straffesaker vil kunne behandles i forskningsprosjektet uten hinder av personvernregelverket, forutsatt at resultatet er å regne som anonymt i tråd med personvernforordningen.
Veien videre – følgende er en subsidiær fremstilling
Datatilsynet tar høyde for at det er en risiko for at personopplysninger kan behandles i PrevBOT-prosjektet. I alle tilfeller vil Datatilsynet legge til grunn at PrevBOT-prosjektet behandler personopplysninger i overnevnte behandlingsaktiviteter, for å kunne komme videre med den juridiske analysen. Store deler av det følgende vil altså være en subsidiær drøftelse. Det følgende er derfor ment som veiledning.
Når personopplysninger behandles for forskningsformål må en rekke vilkår være oppfylt. Den behandlingsansvarlige må vurdere flere momenter for å avklare hvorvidt det dreier seg om behandling av personoppysninger for forskningsformål. Det er viktig å merke seg at selv om man kommer til at behandlingen av personopplysninger skjer for forskningsformål, så må kravene etter personvernforordningen overholdes. Datatilsynet er på generelt grunnlag bekymret for at en for vid tolkning av forskningsbegrepet vil kunne åpne for misbruk av denne særegne situasjonen.