Anbefalinger om innebygd personvern ved anskaffelse av løsninger som bygger på maskinlæring
Øk kompetansen
Opplæring av ansatte er et sentralt tiltak for å sørge for innebygd personvern i praksis. Øk kompetansen om innebygd personvern, maskinlæring, kontrakter og anskaffelser.
Både sikkerhetsansvarlig og virksomhetens personvernombud kan være gode ressurser ved anskaffelse av maskinlæringsløsninger og bør involveres på et tidlig tidspunkt.
Her er en liste over nyttige kilder:
Innebygd personvern
Veilederen går gjennom alle personvernprinsippene og gir enkle råd for hvordan de kan bygges inn. Den gir en god beskrivelse av innebygd personvern som krav.
Veilederen går gjennom de forskjellige fasene i en utviklingsprosess og beskriver hvordan personvern kan bygges inn. Den er designet for teknologer, men enhver kan dra nytte av de praktiske rådene for hvordan personvern bør bygges inn.
Maskinlæring
Lettlest rapport som beskriver kunstig intelligens og sammenhengen med personvern.
Et dekkende og godt designet online kurs om kunstig intelligens for de som vil vite mer om mekanismene bak.
Omfattende rapport om kunstig intelligens fra et teknisk perspektiv. Rapporten går også gjennom mulige utfordringer maskinlæring kan skape.
Hvordan stille kravene og evaluere i en anskaffelsesprosess
Generell informasjon om anskaffelser, særlig hvordan en offentlig oppdragsgiver kan gå fram for å få informasjon om produkter og stille krav.
Vurder: Er maskinlæring mest hensiktsmessig?
Hvilket behov skal maskinlæringsverktøyet løse? Vår anbefaling er å vurdere hvilken kontekst dere skal behandle personopplysningene i og vurdere om et regelstyrt verktøy kan føre til en mer personvernvennlig løsning enn et maskinlæringsverktøy.Skal dere for eksempel bruke verktøyet som beslutningsstøtte for å fatte vedtak overfor innbyggerne, må dere stille andre krav til verktøyet enn om det skal brukes til å effektivisere interne beslutningsprosesser.
Regelstyrte verktøy
Regelstyrte verktøy er verktøy der algoritmen er statisk og baserer seg på faste regler, i motseting til algoritmer som er dynamiske og gjør prediksjoner basert på mønstre i datagrunnlaget.
Til hjelp ved sammmenlikningen, vil vi vise til noen utfordringer ved maskinlæringsverktøy, som Personvernkommisjonen har løftet fram i sin rapport 26. september 2022.
For det første kan maskinlæringsalgoritmer kreve store mengder data for å opparbeide en nøyaktig modell. (Les mer om det på side 17 i Datatilsynets KI-rapport.) Et gjennomgående krav i personvernforordningen er at en behandling bare skal omfatte personopplysninger som er nødvendige for å oppfylle behandlingens formål (prinsipp om dataminimering) og at personopplysninger ikke skal benyttes til annet formål enn de opprinnelig ble samlet inn for (formålsbegrensning). Videre er det i bestemmelsen om innebygd personvern spesifisert at den behandlingsansvarlige skal sikre at det «som standard» bare er personopplysninger som er nødvendige for behandlingens formål, som blir behandlet, se artikkel 25 nr. 2.
For det andre trekker kommisjonen frem at datagrunnlaget som samles inn og brukes til å trene en maskinlæringsalgoritme kan inneholde feil og mangler. Forekommer det slike skjevheter i datagrunnlaget vil resultatet, maskinlæringsalgoritmens prediksjoner, også være preget av skjevheter. Virksomheten må med dette være obs på hvilke data de benytter når de trener en maskinlæringsalgoritme. Avhengig av behandlingens kontekst kan også datagrunnlaget bli utdatert, og dermed misvisende. For å ivareta like godt personvern gjennom løsningens livsløp vil det dermed være nødvendig å gjøre justeringer tilstrekkelig ofte for å opprettholde prediksjonenes nøyaktighet.
Videre vil maskinlæringsalgoritmer sjeldent gi tilstrekkelig mulighet for åpenhet og forutberegnelighet. Maskinlæringsløsninger er lite transparente, sier personvernkommisjonen i sin rapport. Maskinlæringsalgoritmer vil også i mange tilfeller være dynamiske. Det vil si at logikken kan endre seg, også etter at algoritmen er tatt i bruk.
Til slutt peker kommisjonen på problemstillingen med at prediksjoner fra maskinlæringsløsninger kan benyttes ukritisk. Denne problemstillingen er også trukket frem i Det vil i praksis kunne føre til at det som er ment som et beslutningsstøttesystem i realiteten blir et automatisert beslutningssystem.
Datatilsynet vil også trekke frem at det er viktig at virksomheten tenker over hvilke rettigheter den behandlingsansvarlige fremdeles skal sørge for å ivareta for de registrerte, og hvorvidt man som behandlingsansvarlig fremdeles egner å etterleve sine plikter dersom man velger å benytte maskinlæringsløsninger fra en ekstern utvikler.
Dersom dere kommer til at en maskinlæringsverktøyet er mest hensiktsmessig til å løse behovet deres, er neste spørsmål hvordan dere kan gjøre tiltak ved å stille krav til produktet.
Spør, grav og still krav!
Vi har noen forslag til hva dere som behandlingsansvarlige kan spørre etter av dokumentasjon for å kunne vurdere innebygd personvern i de forskjellige løsningene som blir tilbudt.
Få løsningen forklart på en måte dere forstår
Maskinlæringsløsninger kan være svært kompliserte, og det er viktig at alle som skal bruke løsningen forstår hvordan den virker. For å sikre krav til innebygd personvern i anskaffelsesfasen er det viktig at de som er med og vurderer de ulike tilbudene i en konkurranse, forstår hvordan personvern kan ivaretas ved bruk.
Vi anbefaler, at dere som skal skaffe en maskinlæringsløsning ber om en lettforståelig og tilstrekkelig beskrivelse av hva løsningen faktisk gjør.
Be om å få se dataflyt og behandlingsprotokoll
En leverandør som opptrer som databehandler må gjøre rede for hvilke behandlingsaktiviteter de utfører på vegne av den behandlingsansvarlige, jf. artikkel 30 nr. 2. Dere som er behandlingsansvarlige kan be om å få se en slik behandlingsprotokoll, før dere inngår kontrakt om anskaffelse av en maskinlæringsløsning. Også leverandører som ikke er databehandlere bør kunne gjøre rede for hvilke personopplysninger som vil bli behandlet i løsningen. Behandlingsprotokollen er sentral for å få oversikt over hvordan behandlingen faktisk foregår. Behandlingsprotokollen vi vil være nyttig å se i sammenheng med den enkel beskrivelsen nevnt i punktet over.
Det kan også være relevant å få en beskrivelse av hvordan innsamlet data beveger seg i løsningen, altså dataflyten.
Spør om hvordan krav til åpenhet er ivaretatt
En større problemstilling knyttet til bruk av maskinlæringsløsninger er hvordan man skal sørge for å kunne forklare avgjørelser der behandlingsstøtte fra en maskinlæringsløsning er benyttet.
Som beskrevet ovenfor er manglende åpenhet, eller transparens, en gjennomgående problemstilling ved maskinlæringsløsninger. Likevel må virksomheten etterleve enkelte krav til å informere den registrerte. Denne informasjonsplikten gjelder også for den underliggende logikken, i visse typer automatiserte avgjørelser.
Det er derfor viktig å få avklart før kontrakt inngås om det for eksempel finnes måter å fremstille hvordan algoritmen vekter variabler og hvor nøyaktig algoritmen er. Sistnevnte kan for eksempel løses ved at løsningen som benyttes viser hvor stor sannsynlighet det er for at prediksjonen er korrekt.
Spør etter mekanismer for å fange opp og bøte med algoritmeskjevhet
Maskinlæring skaper en del nye problemstillinger knyttet til etikk i systemer. Mulig skjevhet i maskinlæringsalgoritmene kan utfordre prinsippet om rettferdighet i personvernforordningen artikkel 5 nr. 1 bokstav a.
Se også Datatilsynets KI-rapport på s. 15 (pdf).
Personvernkommisjonen peker på at slike skjevheter blant annet kan oppstå når det er manglende transparens i løsningen. Videre vil skjevheter forsterkes dersom løsningen benyttes ukritisk, eller mates med feil data.
I anskaffelse av maskinlæringsløsnigner kan det være lurt å undersøke om det finnes mekanismer i løsningen for å fange opp mulige skjevheter, hvor ofte algoritmen bør justeres og hvordan. Dersom det er mulig å finne ut hvilke situasjoner en algoritme er mindre nøyaktig i, vil dere lettere kunne iverksette egnede tiltak for å minske konsekvensene av denne skjevheten. Et annet alternativ vil være å retrene algoritmen så snart nøyaktigheten faller under en forhåndsbestemt tålegrense.