Finterai, sluttrapport: Maskinlæring uten datadeling

Finterai, sluttrapport: Maskinlæring uten datadeling

Hvordan kan du lære av data du ikke har? Kan føderert læring være løsningen, når datadeling er vanskelig? Datatilsynets sandkasse har utforsket utfordringer og fordeler ved føderert læring, en antatt personvernvennlig metode for maskinlæring som oppstartsvirksomheten Finterai ønsker å bruke i kampen mot hvitvasking og terrorfinansiering.

Sammendrag

Finterai er en norsk oppstartbedrift som vil gå løs på et samfunnsproblem langt større aktører har revet seg i håret over før dem; hvitvasking og terrorfinansiering. Bankene er pålagt å gjøre sitt for å forhindre det, men sliter med å gjøre det på en effektiv måte.

Kjernen i problemet er at hver enkelt bank har «for få» kriminelle transaksjoner til å kunne gi gode nok indikasjoner på hva som faktisk skiller en mistenkelig transaksjon fra mengden. Resultatet er at bankenes elektroniske overvåkningssystemer flagger altfor mange transaksjoner (falske positive), som så utløser et påfølgende tid- og kostnadskrevende, manuelt etterforskningsarbeid. Problemet kan kanskje løses ved å bygge systemer på basis av mer data enn det som foreligger i dag. Utfordringen er at banker ikke kan dele de nødvendige dataene seg imellom, siden transaksjoner inneholder personopplysninger.

Kan føderert læring løse floken?

Finterai vil løse dette datadelingsproblemet ved å anvende en relativt ny metode innen maskinlæring, nemlig «føderert læring». Føderert læring er en desentralisert metode innenfor kunstig intelligens, og blir ansett som mer personvernvennlig enn mange andre former for maskinlæring. Ved å bruke denne metoden kan banker lære av hverandre uten å faktisk dele data om kundene.

I sandkasseprosjektet har vi utforsket tre problemstillinger føderert læring reiser i tilknytning til personvernregelverket som har ledet til de tre konklusjonene under.

Konklusjoner

  1. Behandlingsansvar: Bankene selv vil alltid ha avgjørende innflytelse på både formålet og midlene til behandlingsaktivitetene diskutert i denne rapporten, og vil derfor være behandlingsansvarlig. Finterai vil trolig ikke ha et behandlingsansvar for aktivitetene, med forbehold om at det må gjøres en nærmere vurdering av rettslige grunnlag, samt alle faktiske forhold, før det kan konkluderes. Finterai vil trolig være bankenes databehandler for kontroll av sårbarheter i modellene der Finterai skal sørge for at modellene ikke inneholder personopplysninger.
  2. Dataminimering: Risikoprofilen til en banks kunder påvirker hvilke krav banken må oppfylle etter hvitvaskingsreglene, herunder hvor mye data de må samle inn om kundene. Det kan derfor være krevende å standardisere hvilke datakategorier alle bankene alltid må ha tilgang på for å delta i den fødererte læringen, samtidig som prinsippet om dataminimering overholdes. Vi utelukker likevel ikke at det er mulig å identifisere noen kategorier data, som det alltid kan kreves at bankene har tilgang på. For å oppfylle kravet om dataminimering bør imidlertid systemet rigges slik at bankene kan vente med å innhente personopplysninger til de vet med sikkerhet at de vil få bruk for opplysningene.
  3. Sikkerhetsutfordringer: Bruk av føderert læring innebærer både styrker og utfordringer når det kommer til informasjonssikkerhet og personopplysningssikkerhet. Føderert læring reduserer behovet for deling av data. Samtidig er det en relativt ny metode. Løsningen benytter i utstrakt grad skytjenester som krever sikkerhetskompetanse, men sørger også for at deltakende aktører i stor grad kan benytte egne kapabiliteter og ressurser for å sikre sin del av løsningen. En potensiell angrepsvektor relatert til føderert læring er modellinverteringsangrep, som har som formål å rekonstruere (person)data basert på tilgang til trente modeller. Risiko for dette ansees som lav, men også krevende å vurdere.

Hva er Datatilsynets sandkasse?

I denne sandkassa utforsker deltakere sammen med Datatilsynet personvernrelaterte spørsmål, for å bidra til at tjenesten eller produktet deres etterlever regelverket og ivaretar personvernet på en god måte. 

Datatilsynet tilbyr veiledning i dialog med deltakerne, og konklusjonene fra prosjektene er ikke vedtak eller forhåndsgodkjenning. Deltakerne står fritt i valget om å følge rådene de får.

Sandkassa er en verdifull metode for å utforske problemstillinger der jussen har få praktiske eksempler å vise til, og vi håper konklusjoner og vurderinger i rapporten kan være til hjelp for andre med liknende problemstillinger.