Finterai, sluttrapport: Maskinlæring uten datadeling

Dataminimering

Drøftelsene i dette kapittelet knytter seg til hvordan Finterai kan legge til rette for dataminimering i tjenesten sin.

Utvikling av kunstig intelligens er ofte avhengig av store mengder personopplysninger. Prinsippet om dataminimering (lovdata.no) stiller imidlertid krav om at opplysningene som brukes skal være adekvate, relevante og begrenset til det som er nødvendig for å oppnå formålet de behandles for. Det betyr at en behandlingsansvarlig ikke kan bruke flere personopplysninger enn det som faktisk er nødvendig for å oppnå formålet, og at opplysningene må slettes når det ikke lenger er bruk for dem. Videre innebærer prinsippet om dataminimering at det må velges opplysninger som er relevante for formålet.

Les mer om dataminimering

I lovkommentaren til personvernforordningen pekes det på at kravene til adekvans og relevans, betyr at personopplysningene som behandles må «ha en nær og naturlig sammenheng med behandlingsformålet, og være egnet til å oppnå formålet». Vurderingen av dataminimering er uløselig knyttet til formålet med behandlingen.

Les lovkommentaren til personvernforordningen (juridika.no)

Den behandlingsansvarlige har ansvar for å overholde prinsippet om dataminimering. En leverandør av programvare, som etter en konkret vurdering ikke er å anse som behandlingsansvarlig, vil i utgangspunktet ikke ha et direkte ansvar for å overholde dataminimeringsprinsippet. Det er imidlertid viktig at programvaren som leveres legger til rette for at den behandlingsansvarlige i praksis kan overholde regelverket. I motsatt fall vil ikke leverandørens kunder lovlig kunne benytte programvaren til behandling av personopplysninger. Det er derfor viktig at Finterai har et bevisst forhold til dataminimering ved utvikling av tjenesten sin, uavhengig av om de er å anse som behandlingsansvarlig eller ikke.

I sandkassen har vi diskutert hvordan tjenesten til Finterai kan påvirke mengden personopplysninger bankene benytter i arbeidet med å avdekke mistenkelige transaksjoner, og eventuelle tiltak Finterai kan gjøre for å legge til rette for dataminimering. Diskusjonene har altså primært knyttet seg til innhenting av tredjepartsdataopplysninger som ikke kommer direkte fra transaksjonen, og som innhentes fra andre enn kunden selv. Det kan for eksempel være opplysninger som har kommet frem i media. Tredjepartsdata inneholder ikke alltid personopplysninger. Vurderingene i denne rapporten gjelder kun for behandling av tredjepartsdata som er å anse som personopplysninger.

Forholdet til hvitvaskingsreglene – utfordringer med standardisering

Vi har ikke vurdert rettslig grunnlag i dette sandkasseprosjektet. Bankenes forpliktelser til å bidra til å bekjempe hvitvasking, følger imidlertid av hvitvaskingsloven og hvitvaskingsforskriften. Det er derfor nærliggende å anta at bankene, dersom de vil behandle tredjepartsopplysninger med formål å avdekke hvitvasking, må finne et rettslig grunnlag for behandlingen i hvitvaskingsregelverket.

Hvitvaskingsreglene er risikobaserte. Dette innebærer at den enkelte banks forpliktelser til å innhente informasjon etter dette regelverket, avhenger av risikoen den enkelte kunde representerer i den aktuelle banken. Den samme kunden kan ha ulik risiko i ulike banker. I tillegg vil kundemassen i hver enkelt bank bestå av kunder med ulik risiko.

Den risikobaserte tilnærmingen i hvitvaskingsreglene kan skape utfordringer for Finterai når de ønsker å standardisere datakategoriene bankene må benytte i den fødererte læringen. Dataminimeringsprinsippet innebærer at bankene ikke kan behandle flere personopplysninger enn det som er nødvendig for å oppfylle formålet. Et spørsmål som har dukket opp i sandkassen, er om det innenfor rammene av det gjeldende hvitvaskingsregelverket er mulig å finne et minimumsnivå av opplysninger som alltid kan innhentes uavhengig av risiko, og som dermed kan inngå i en standardisering.

Det er Finanstilsynet som fører tilsyn med de rapporteringspliktiges etterlevelse av hvitvaskingsreglene, og en tolkning av dette regelverket faller utenfor rammene for sandkasse-prosjektet til Datatilsynet. Vi kan derfor ikke besvare spørsmålet. All behandling av personopplysninger krever imidlertid et rettslig grunnlag, og drøftelsene under forutsetter derfor at det er mulig å oppstille et minimumsnivå av opplysninger som kan benyttes i anti-hvitvaskingsarbeidet, uavhengig av risiko.

Dataminimering og føderert læring – behovet for forhåndsdefinerte datakategorier

Noen banker innhenter allerede i dag tredjepartsdata i forbindelse med sitt anti-hvitvaskingsarbeid, men det er ulik praksis mellom bankene knyttet til hvilke data som hentes inn. For at føderert læring skal fungere etter sin hensikt, er det imidlertid nødvendig å samkjøre hvilke data-kategorier bankene behandler. Bakgrunnen for dette er at en modell som er utviklet i Bank A skal trenes i Bank B og C. Disse bankene må da ha tilgang på de samme data-kategoriene som Bank A benyttet ved utvikling av modellen.

Bankene som deltar i den fødererte læringen må altså ha tilgang på de samme kategoriene med personopplysninger. Behovet for hver enkelt kategori av personopplysninger oppstår imidlertid først når en bank bygger en modell som benytter de aktuelle personopplysningene. Noen typer opplysninger, for eksempel dataene i SWIFT-meldinger, kan man legge til grunn at alltid vil være aktuelle. Andre kategorier personopplysninger benyttes derimot sjeldnere eller kanskje aldri. Da oppstår spørsmålet om dataminimering. Er det i tråd med prinsippet om dataminimering å innhente personopplysninger som man på tidspunktet for innsamlingen ikke vet om man vil få behov for? Denne problemstillingen vil trolig være aktuell i større eller mindre grad også hos andre aktører som benytter føderert læring på personopplysninger.

I sandkassa har vi diskutert ulike alternativer for tilpasning av Finterais tjeneste som potensielt kan bidra til at bankene ikke trenger å hente inn de ulike kategoriene med personopplysninger før det faktisk er behov for opplysningene.

Det mest realistiske alternativet som ble diskutert, er at bankene først innhenter nødvendige tredjepartsopplysinger når de beslutter å utvikle en modell som inkluderer opplysningene, eller når de får en modell til trening som krever de aktuelle opplysningene. Finterai har pekt på at en slik løsning kan være teknisk utfordrende, samtidig som det vil føre til forsinkelser i treningsprosessen.

Dersom det innhentes personopplysninger som det viser seg at bankene aldri har behov for, vil de aktuelle opplysningene ikke kunne sies å være nødvendige for det konkrete formålet. Datatilsynet foreslår derfor at systemet bør rigges slik at bankene kan vente med å innhente personopplysninger til de vet med sikkerhet at de vil få bruk for opplysningene. Her er det imidlertid viktig å understreke at Datatilsynets innspill er å anse som veiledning, og ikke utgjør noen lovlighetsvurdering av den planlagte tjenesten til Finterai.

Dataminimering i kunstig intelligens

Finterai mener at modellene bankene i dag bruker for å avdekke mistenkelige transaksjoner, er for svake. Selskapet har en teori om at bankene trenger flere datapunkter i modellene sine for å gjøre en tilfredsstillende jobb med å avdekke mistenkelige transaksjoner, noe de ønsker å legge til rette for i tjenesten sin.

Ved bruk av kunstig intelligens kan man bygge systemer som kan lære, finne sammenhenger, gjøre sannsynlighetsanalyser og trekke konklusjoner langt utover det både mennesker og systemer som ikke benytter kunstig intelligens er i stand til. Dette innebærer at systemer basert på kunstig intelligens vil kunne heve kvaliteten i bankenes anti-hvitvaskingsarbeid. Det er en sannsynlighet for at systemene finner sammenhenger i opplysninger som ikke tradisjonelt har blitt benyttet i anti-hvitvaskingsarbeidet, og som i utgangspunktet ikke er ansett for å ha en nær og naturlig sammenheng med bekjempelse av hvitvasking.

Det kan imidlertid være en utfordring at bankene ikke alltid vet i hvor stor grad ulike tredjepartsopplysninger vil bidra til å oppnå formålet om å avdekke forsøk på hvitvasking, før de har testet dataene over tid. Dersom resultatet fra testingen viser at en eller flere kategorier av personopplysninger har hatt lite eller ingen betydning for å oppnå formålet, vil de aktuelle personopplysningene ikke oppfylle kravet til relevans. Fortsatt behandling av personopplysningene vil da fort være i strid med dataminimeringsprinsippet.

Men hva med behandlingen av de aktuelle personopplysningene som har skjedd frem til tidspunktet når banken (eller Finterai) oppdager at de ikke har tilstrekkelig relevans for å oppnå formålet? Vil den også ha vært i strid med dataminimeringsprinsippet dersom erfaring viser at opplysningene ikke var tilstrekkelig relevant? Dette er spørsmål vi har diskutert i sandkassa, men som det ikke er et klart svar på. Som så mye annet vil svaret bero på en konkret vurdering.

Det er imidlertid neppe grunnlag for å si at det alltid vil være i strid med dataminimeringsprinsippet å behandle personopplysninger som senere viser seg å ikke ha tilstrekkelig relevans for å oppnå formålet. Ved vurderingen er det blant annet relevant å se hen til begrunnelsen for hvorfor den eller de aktuelle personopplysningene ble valgt i utgangspunktet. For eksempel, var utvalget av personopplysninger helt tilfeldig, eller var det basert på saklige og legitime antagelser?

Videre er det viktig å være oppmerksom på risikoen for at en antagelse er feil, og ha effektive tiltak for å kontrollere relevansen av de personopplysningene som benyttes. Jo lengre tid det tar før man fanger opp og stanser en behandling av personopplysninger som viser seg å ikke være tilstrekkelig relevant, jo større er risikoen for at behandlingen er i strid med dataminimeringsprinsippet. Disse problemstillingene er ikke unike for Finterai. Dette er noe alle som bruker kunstig intelligens-verktøy for å behandle personopplysninger bør være særlig oppmerksom på.