Personvernfremmende teknologi

Personvernfremmende teknologi

Personvernfremmende teknologi kan begrense innsamling av, tilgang til og lagring av personopplysninger. For virksomheter kan derfor bruk av slik teknologi være et nyttig tiltak for å møte kravet om innebygd personvern i utviklingen av et system eller en løsning. Her går vi gjennom hva dette er, med noen eksempler, bruksområder og utfordringer.

Innledning

Hva er personvernfremmende teknologi?

Personvernfremmende teknologi er samlebetegnelsen for teknologi som kan bidra til implementeringen av en eller flere av personvernprinsippene i et system eller løsning, og styrke personopplysningssikkerheten. Disse teknologiene er også kjent som "Privacy Enhancing Technologies" (PET). 

Hvorfor bruke personvernfremmende teknologi?

Alle virksomheter må gjennomføre en risikovurdering av løsningene de planlegger å bruke. Vurderingen skal gjennomføres før personopplysningene behandles og før løsningen eventuelt tas i bruk. Personvernfremmende teknologi kan være et tiltak for å redusere sårbarheter som blir identifisert i denne risikovurderingen. Det er forøvrig verdt å merke seg at bruken av personvernfremmende teknologi i seg selv kan utløse behovet for å gjennomføre en risikovurdering og eventuelt også en personvernkonsekvensvurdering (DPIA).

Implementering av personvernfremmende teknologi kan være et nyttig tiltak for å møte kravet om innebygd personvern i utviklingen av et system eller en løsning. Dette gjelder særlig tilfeller der personopplysninger skal overføres fra én aktør til en annen og det må begrenses hvilke opplysninger som blir delt eller eksponert.

Utviklingen av personvernfremmende teknologi er drevet frem av nyvinninger på flere områder. Dette inkluderer innovasjon innen kryptografiske metoder som har forbedret konfidensialiteten i tekniske løsninger, i tillegg til nye strukturelle tilnærminger til hvor og hvordan personopplysninger behandles i tekniske systemer.

Personvernfremmende teknologi er et område under utvikling, og flere av løsningene er i en tidlig utviklingsfase. Dette kan gi utfordringer knyttet til skalerbarhet, tilgang til teknisk støtte og kunnskap om sårbarheter.

Kravene i personvernregelverket må overholdes

Alle virksomheter som behandler personopplysninger må kjenne til og oppfylle personvernregelverket. Personvernforordningen krever at den behandlingsansvarlige har på plass organisatoriske og tekniske tiltak som sikrer at personopplysninger behandles i samsvar med personvernprinsippene slik som dataminimering, lagringsbegrensning, integritet og konfidensialitet. Det gjelder også når personvernfremmende teknologi tas i bruk.

For all behandling av personopplysninger, er det den behandlingsansvarlige som har det overordnede ansvaret for at personvernregelverket overholdes. Dette vil i praksis ofte ikke være leverandøren av løsningen, men virksomheten som tar den i bruk og som bestemmer formålet med behandlingen.

Les mer om virksomhetenes plikter

Om veiledningen

Vi vil her komme med noen eksempler på personvernfremmende teknologi og se på hvordan den kan brukes til å møte kravene i personvernforordningen. Vi vil også vise til et par praktiske erfaringer fra Datatilsynets regulatoriske sandkasse, og se på noen av utfordringene og begrensningene som kan oppstå.

Innholdet komplimenterer også veiledningen vår om om programvareutvikling med innebygd personvern som er rettet mot utviklere.

Eksempler og bruksområder

Vi vil her gå gjennom noen eksempler på personvernfremmende teknologi, og gi en beskrivelse av relevante juridiske og tekniske problemstillinger som teknologien kan bidra til å adressere.

(Merk at beskrivelsene ikke vil gi en fullstendig vurdering av alle aktuelle problemstillinger, da de vil variere avhengig av det konkrete bruksområdet.)

Differensielt personvern

Differensielt personvern ("differential privacy") er en metode for å analysere personopplysninger i et datasett uten at personene er direkte identifiserbare. Dette er hensiktsmessig når en aktør vil dele analytisk innsikt med eksterne aktører, men datagrunnlaget inneholder personopplysninger som ikke skal deles.

Ved bruk av differensielt personvern legger utvikleren bevisst til unøyaktige data som "støy" til deler av datasettet som ikke er relevante for analysen eller statistikkføringen. Dette skal sikre at analyser som deles ikke enkelt kan kobles til enkeltpersoner.

Ved å legge til nok unøyaktig informasjon, kan man oppnå en form for pseudonymisering i datagrunnlaget. En slik pseudonymisering kan bidra til å oppfylle dataminimeringsprinsippet, som vil si at bruken av personopplysninger avgrenses til det som er strengt nødvendig for å oppnå formålet. I tillegg til kan det være et sikkerhetstiltak for å redusere risiko for at enkeltpersoner identifiseres.

De tilførte unøyaktighetene medfører at informasjonen som hentes ut aldri vil være helt nøyaktig. Mindre støy i datasettet vil gi mer nøyaktige resultater, men samtidig øke sjansen for å identifisere enkeltpersoner. 

Føderert læring

Føderert læring ("federated learning"), er en tilnærming innen maskinlæring som tar sikte på at flere deltakere kan lære av hverandres datasett uten å dele selve datasettene (som ofte kan inneholde personopplysninger). 

Føderert læring fungerer ved at en deltaker først laster ned den siste versjonen av en maskinlæringsalgoritme til en klientenhet, for eksempel en mobiltelefon. Deretter foretas det lokale forbedringer på algoritmen basert på dataene som finnes på klientenheten. Disse lokale modifikasjonene blir deretter sendt tilbake til en server, hvor de blir oppdatert og sammenflettet med endringer fra andre enheter. Et gjennomsnitt av endringsinformasjonen blir deretter brukt til å forbedre modellen. Den oppgraderte maskinlæringsalgoritmen kan så lastes ned av alle klientenhetene.

Denne tilnærmingen gir muligheten til å forbedre en eksisterende modell basert på et stort antall brukere, uten at de forskjellige aktørene må dele personopplysninger som ligger i datasettene deres. Dette kan være hensiktsmessig hvis virksomheten har begrensede data å trene modellene sine på, og når det ikke er hensiktsmessig eller lovlig å dele personopplysninger med eksterne.

En kjent utfordring med føderert læring er at noen modeller kan være sårbare for inversjonsangrep. Dette betyr at ondsinnede aktører kan forsøke å avlede personopplysninger basert på informasjon som sendes ut av de lokale klientenhetene.

Føderert læring kan fungere som et tiltak for å oppfylle kravene til informasjonssikkerhet. Tiltaket kan også bidra til å overholde prinsippene om konfidensialitet og integritet ved at egne datasett ikke deles med andre parter for trening av maskinlæringsmodeller.

Homomorfisk kryptering

Homomorfisk kryptering er en type kryptering som skal muliggjøre behandling eller analyse av krypterte opplysninger uten at de trenger å dekrypteres. Dette betyr i teorien at konfidensialiteten opprettholdes, samtidig som det er mulig å bruke datagrunnlaget.

Denne tilnærmingen kan være verdifull når virksomheter ønsker å gi eksterne aktører en meningsfull innsikt i datasett uten å avsløre personopplysninger som ligger der. For enkeltpersonene som opplysningene gjelder, kan det bety at opplysningene er beskyttet fra eksterne aktører og utilsiktet adgang.

Homomorfisk kryptering kan redusere risiko for personvernet ved utkontraktering eller ekstern lagring av data. Den kan også integreres som en viktig komponent i andre personvernfremmende teknologier, for eksempel føderert læring.

Videre kan den bidra til å minimere risiko og redusere alvorligheten av et sikkerhetsbrudd, siden personopplysningene forblir krypterte gjennom hele behandlingsforløpet. Dette betyr at data med personopplysninger er uleselige for eventuelle angripere og ikke mulig å manipulere. Teknologien kan derfor bidra til å oppfylle prinsippene om konfidensialitet og integritet. 

Som med all bruk av kryptering, er det viktig at krypteringsnøkkelen beskyttes i tilstrekkelig grad – også for å sørge for at personopplysninger ikke tapes eller ødelegges ved at det blir umulig å dekryptere datasettet. 

Det også viktig å merke seg at opplysninger det er tilgang til via homomorfisk kryptering, ikke er anonyme. Så lenge de fremdeles er for personopplysninger å regne, vil kravene i personvernregelverket gjelde.

Kantprosessering og lokal behandling

I motsetning til de andre teknologiene, representerer kantprosessering ("edge computing") en tilnærming til databehandling snarere enn å være en teknologi i seg selv. Ved kantprosessering utføres behandlingen av data nærmere kilden som genererer opplysningene.

Et eksempel på kantprosessering er et kamera som bruker kunstig intelligens til å analysere bilder, og som gjennomfører analysen lokalt i kamerahuset. Dette skiller seg fra annen praksis, der bildene ofte sendes videre og analysene utføres i skyen eller på en ekstern maskin. Et annet eksempel kan være behandling av data som genereres av en mobiltelefon, og der innsamlingen av opplysninger, i tillegg til analysen, utføres på selve enheten før resultatene sendes til en skyserver.

Kantprosessering kan redusere antall sårbarheter ettersom opplysningene blir behandlet på stedet der de genereres. Det muliggjør også dataminimering, ettersom kun ferdigbehandlede data blir overført.

Det er viktig å merke seg at kantprosessering eller lokal behandling ikke nødvendigvis vil påvirke hvorvidt virksomheten er behandlingsansvarlig eller databehandler. Selv om opplysningene behandles og lagres nærmere kilden, eller på en lokal enhet, har virksomheten fortsatt bestemt hvorfor en sånn behandling skal skje og hvordan. Virksomheten må derfor være oppmerksom på å fortsatt kunne være behandlingsansvarlig for dataene som behandles lokalt, selv om virksomheten ikke har direkte tilgang til dataene.

Nullkunnskapsbevis

Nullkunnskapsbevis ("zero-knowledge proofs"), gjør det mulig for en virksomhet eller tilbyder å bevise sannheten i et utsagn for en annen part uten å avsløre annen informasjon enn at utsagnet faktisk er sant.

Når en virksomhet autentiserer brukere, er det vanligvis nødvendig å gjøre det ved hjelp av en nøkkel som er kjent både for den som ønsker å bli autentisert og den som skal autentisere. Nullkunnskapsbevis er en tilnærming der opplysningene blir autentisert, uten at de faktiske opplysningene vises eller blir avslørt overfor motparten. Det vil si at personen som skal autentiseres må kunne bevise at de besitter kunnskap om noe hemmelig (for eksempel at en person er myndig), uten at den som autentiserer får vite hva hemmeligheten består av (for eksempel hva alderen er).

Bruk av nullkunnskapsbevis kan styrke personopplysningssikkerheten og føre til større grad av lagringsbegrensing og dataminimering ved at aktøren som autentiserer ikke behøver å selv lagre informasjonen som kreves for å autentisere.

Sikker flerpartsberegning

Sikker flerpartsberegning ("secure multiparty computation") er en protokoll som gjør det mulig for flere aktører å behandle opplysninger på tvers av enheter – uten at noen av aktørene har innsikt i de andres opplysninger utover det som er strengt nødvendig. Det betyr at det ikke er nødvendig med en sentral aktør som har tilgang til alle aktørenes datasett. I stedet kan de forskjellige aktørene bevare sine egne opplysninger og holde dem avskjermet.

En undervariant av sikker flerpartsberegning er "private set intersection". Denne protokollen gjør det mulig for to deltakere å finne ut hvilke data de har de har til felles i sine respektive datasett, uten å avsløre eller dele annen informasjon fra datasettene.

Bruk av sikker flerpartsberegning kan hjelpe til med å ivareta personopplysningssikkerheten ettersom fullstendige datasett ikke deles med andre deltakere. Risiko som kan oppstå ved databrudd vil kunne reduseres fordi data som deles mellom aktørene ikke lagres sammen på ett sted. Tiltaket kan også bidra til å oppfylle prinsippet om dataminimering, ettersom andre som hovedregel ikke får tilgang til personopplysninger som ikke er nødvendig til formålet deres. 

Tiltrodde prosesseringsområder

Tiltrodde prosesseringsområder ("trusted execution environment" (TEE)), er et kontrollert prosesseringsområde i datamaskiner eller mobiltelefoner. Disse områdene er isolert fra der programvare og programmer normalt kjøres. På dette sikre området er det mulig å kjøre kode og lagre informasjon som er isolert fra resten av enheten. Andre deler av enheten kan ikke behandle opplysninger lagret på dette området, men behandlinger på området kan benytte informasjon fra andre deler av enheten.

Bruk av tiltrodde prosesseringsområder kan være hensiktsmessig for virksomheter å bruke hvis de vil analysere opplysninger på en måte som ivaretar sikkerheten og forhindrer at andre aktører får tilgang.

Tiltaket vil kunne redusere sannsynligheten for at personopplysninger kommer på avveier, gjennom effektiv tilgangsstyring for bestemte deler av en behandling.

Syntetiske data

Syntetiske data er generert for å etterligne virkeligheten, uten å representere reelle personopplysninger. Prosessering av slike data i en løsning skal gi samme resultater som reelle data, og kan derfor være hensiktsmessig å benytte ved testing av løsninger hvor det ikke er nødvendig eller lovlig å bruke personopplysninger. 

Det er viktig å sørge for at det ikke er teknisk mulig å avlede reelle opplysninger basert på de syntetiske dataene. Syntetiske datasett har ofte de statistiske egenskapene til et opprinnelig datasett som inneholder personopplysninger. Produksjon av syntetiske data vil derfor som oftest kreve en behandling av reelle data for å skape en tilstrekkelig god etterligning, og behandlingen av de reelle dataene vil kreve et gyldig behandlingsgrunnlag.

Syntetiske data representerer en nyttig tilnærming for å oppfylle prinsippet om dataminimering, da tiltaket er et alternativ til å samle inn ytterligere personopplysninger kun for testformål.

Virksomheter må være bevisste på risikoene ved syntetiske data. Hvis dataene genereres fra personopplysninger som inneholder skjevheter, vil disse skjevheter føres videre. Skjevheter med potensielt uheldige konsekvenser bør derfor identifiseres og rettes, i tråd med riktighetsprinssippet i forordningen.

Eksempler på praktisk bruk av syntetiske data

Løsninger som benytter syntetiske data er allerede tilgjengelig på markedet. To av dem har vunnet Datatilsynets pris for innebygd personvern:

Erfaringer fra sandkassen

I flere av prosjektene i Datatilsynets regulatoriske sandkasse har personvernfremmende teknologi vært et sentralt tema.

Sandkassen skal stimulere til personvernvennlig innovasjon og digitalisering, og Datatilsynet samarbeider der med enkeltaktører for å hjelpe dem til å følge regelverket og utvikle løsninger med godt personvern. 

Føderert læring for å avdekke hvitvasking

I prosjektet "Maskinlæring uten datadeling" så Datatilsynet og teknologiselskapet Finterai nærmere på hvordan personvernregelverket skulle tolkes i forbindelse med bruk av føderert læring for antihvitvaskingsformål.

Finterai utviklet maskinlæringsteknologi for å hjelpe banker i kampen mot finansiell kriminalitet. En "utfordring" for bankene var at de ikke hadde mange nok kriminelle transaksjoner til å gjøre gode analyser på hva som faktisk skilte en mistenkelig transaksjon fra mengden. Målet til Finterai var å benytte føderert læring for å kombinere læringen fra flere bankers datasett, men uten at bankene faktisk delte data seg imellom.

En konkret lærdom fra prosjektet var at utformingen av systemarkitekturen for føderert læring kunne ha betydelig innvirkning på personvernet og sikkerheten i løsningen. Veivalg som ville medført å samle og sentralisere bankenes transaksjonsopplysninger på en sentral server, vil potensielt kunne skape en stor angrepsflate og utløse økte krav til tekniske og organisatoriske tiltak. Et viktig tiltak var derfor at Finterai ikke skulle ha tilgang til de individuelle bankenes lokale datasett med transaksjonsopplysninger for å utvikle eller drifte tjenesten. Istedenfor skulle bankene selv ha kontroll over sine datasett.

Et annet tema som ble diskutert i prosjektet, var muligheten for «modellinverteringsangrep». Slike angrep har som mål å rekonstruere data som er benyttet for treningen av løsningen, inkludert persondata. Det er i sum betydelige hindre og kostnader knyttet til denne type angrep for eksterne trusselaktører, også i kontekst av Finterais løsning.

Ettersom føderert læring er en ung teknologi, kan det være flere sårbarheter som ikke enda er avdekket, og det kan derfor være krevende å gjøre presise risikovurderinger.

Les sluttrapporten "Maskinlæring uten datadeling" 

Kantprosessering på for mindre inngripende sikkerhetsovervåking

Sikkerhetsselskapet Doorkeeper har hatt som mål å styrke personvernet i moderne kameraovervåkingssystemer. De ønsket å oppnå dette ved å bruke intelligent videoanalyse til å sladde identifiserende opplysninger – slik som ansikter og menneskeformer – i videostrømmen. Videre ønsket de å sørge for at færre opptak ble lagret sammenlignet med mer tradisjonelle overvåkingssystemer. Dette var derfor tema i sandkasseprosjektet.

Doorkeeper brukte kantprosessering og lokal lagring i løsningen sin, der videostrømmen ble sladdet direkte i kameraet før den ble sendt videre til en ekstern plattform ("video management system"). Mange av personopplysningene ville slik kun bli behandlet i selve kamerahuset. Opptak med personopplysninger ville bare bli sendt til den eksterne plattformen hvis en forhåndsdefinert hendelse ble detektert. I tillegg ble opptak midlertidig lagret bare i kameraet ("cache"), men disse skulle bli slettet etter et forhåndsbestemt tidsintervall (for eksempel fem minutter).

For Doorkeeper var det blant annet viktig å sørge for at sikkerheten fulgte den tekniske utviklingen, og at eventuelle sårbarheter ble adressert fortløpende. Doorkeeper måtte også sikre den fysiske innretningen av løsningen, inkludert kommunikasjonen mellom kameraet og den eksterne plattformen.

Det var også et poeng at behandlingen av personopplysninger kunne bli konfigurert til å være betydelig begrenset, noe som kunne påvirke vurderingen av det rettslige grunnlaget for overvåkingen. I situasjoner der det rettslige grunnlaget var basert på en berettiget interesse vil det at kameraovervåkingen er mindre inngripende kunne påvirke nødvendighetsvurderingen.

Les sluttrapporten "Intelligent kameraovervåking med personvern i fokus"

Utfordringer og begrensninger

Vi vil her oppsummere noen mulige utfordringer og begrensninger som virksomheter og utviklere bør ta hensyn til når de vurderer å ta i bruk personvernfremmende teknologi.

  1. Manglende modenhet
    De ulike personvernfremmende teknologiene varierer i modenhet. Det fører til at de kan være vanskelige å skalere og implementere, i tillegg til at det kan være mangelfull tilgang på teknisk støtte. Mange sårbarheter er heller ikke avdekket, noe som kan svekke personopplysningssikkerheten og ivaretagelsen av sentrale krav i personvernregelverket.
  2. Manglende kompetanse
    De fleste av teknologiene krever riktig kompetanse for å kunne brukes lovlig. Erfaringer fra den regulatoriske sandkassen viser at mange av løsningene vil måtte skreddersys den konkrete bransjen, virksomheten eller løsningen, noe som kan være utfordrende og kreve høy teknisk kompetanse.

    Manglende kompetanse kan også føre til feil i implementering og bruk, som igjen kan føre til at personvernet ikke blir ivaretatt. Hvis virksomheten selv ikke har nødvendig ekspertise, bør det vurderes å bruke en tjeneste eller leverandør som gir et passende nivå med brukerstøtte.
  3. Manglende oppdateringer
    Teknologier med kjente sårbarheter som ikke blir reparert eller oppdatert, kan være en utfordring. Hvis det ikke iverksettes tiltak for å fjerne sårbarheter, vil det føre til høyere risiko og kan medføre brudd på personvernregelverket.

    Når angripere får kjennskap til sårbarheter, vil de normalt forsøke å utnytte dem så fort som mulig. Produsentene må derfor publisere oppdateringer så fort som mulig når sårbarheter blir kjent, slik at sikkerheten kan opprettholdes.

    Det er verdt å påpeke at jo færre aktører virksomheten har i leverandørkjeden, desto færre aktører må virksomheten forholde seg til for å holde produktene oppdatert.
  4. Usikkerhet om behandlingsansvar
    Noen typer teknologi kan skape usikkerhet om hvor behandlingsansvaret ligger.

    I personvernforordningen er den behandlingsansvarlige definert som den som bestemmer formålet med behandling av personopplysninger (dvs. hvorfor behandlingen skjer) og hvilke essensielle midler som skal brukes for å oppnå formålet (dvs. hvordan opplysningene skal behandles). Dette betyr i praksis at det som oftest vil være virksomheten – og ikke utvikleren – som anskaffer og tar løsningen i bruk, og som er å anse som behandlingsansvarlig.

    Visse teknologier og metoder, som kantprosessering, vil gjøre at virksomheten som tar i bruk løsningen ikke har direkte tilgang til personopplysningene som behandles. Det kan likevel være at virksomheten har behandlingsansvaret, selv om den ikke har tilgang til opplysningene.