Juridisk ABC, sluttrapport: Jussboten LawAi

Språkmodeller og Retrieval-Augmented Generation (RAG)

Generelle, store språkmodeller (LLM), slik som GPT, er maskinlæringsmodeller trent på å analysere og generere tekst basert på svært store datamengder. De kan lage sammenhengende og naturlige setninger som svar på formulerte spørsmål eller instrukser. 

Slike modeller kan brukes i en rekke KI-systemer, som dermed kan utføre ulike funksjoner, slik som dialoger, språkanalyse, innholdsstrukturering og språkoversettelser.

Språk lagres ikke som tekst i disse språkmodellene, men som numeriske representasjoner, ofte kalt vektorer. Dette er en effektiv måte å representere innkodede meninger og sammenhenger mellom språkelementer på. En språkmodell «forstår» altså ikke språk i tradisjonell forstand, men er en avansert modell for hvordan mennesker bruker språk. De har ingen iboende forståelse av meningsinnholdet i tekstene de produserer. Det er vi lesere som gir mening til de genererte tekstene.

De fleste språkmodeller er flerspråklige, det vil si trent på flere språk samtidig. Dette betyr at de har kartlagt sammenhenger mellom språkelementer på tvers av disse språkene. Dermed kan de bruke kilder fra de ulike språkene, og de vil kunne produsere svar og oversettelser på språkene de er trent på – riktignok med noe varierende kvalitet.

Språkmodeller er ofte så velartikulerte, at er det lett å oppfatte dem som kunnskapsmodeller. Men språkmodeller – som navnet antyder – er modeller for språk i seg selv, og hvordan språk brukes i praksis. De er i hovedsak ikke kunnskapsmodeller. De har ikke kunnskap om juss, kjemi, fysikk, filosofi og matematikk, utover det som (i mange tilfeller i betydelig grad) reflekteres gjennom innholdet i språket. Teknologien er imidlertid i rivende utvikling, og kombinasjoner av språk- og kunnskapsmodeller er under utprøving, og vil i økende grad også bli tilgjengelig for allmenn bruk. Dagens allment tilgjengelige språkmodeller har imidlertid ikke disse egenskapene.

Språk inneholder av sin natur informasjon. Gjennom tekstene de er trent på, har dermed dagens store språkmodeller svært mye (tilfeldig) informasjon om verden. I hovedsak er tekstene som brukes for trening av de generelle modellene ikke kvalitetssikret for riktighet, kun at de er tekst. Dette i motsetning til «klassiske» KI- og maskinlæringssystemer, som i hovedsak blir modellert og trent for spesifikke formål – ideelt sett med datasett som er kvalitetssikret for det aktuelle formålet. Språkmodeller har imidlertid den egenskapen at de kan brukes til mange uspesifiserte formål. De kalles derfor grunnmodeller.

En vesentlig utfordring med språkmodeller er det som kalles «hallusinering». Det betyr at modellen genererer tekst som er språklig korrekt, og at innholdet tilsynelatende fremstår troverdig, men som likevel ikke reflekterer fakta. Svarene språkmodeller genererer er statistiske representasjoner av tekst som kan være relevant eller riktig å produsere i gitt kontekst. De har bygget inn en viss tilfeldighet for å kunne gi varierte formuleringer av svar.

Språkmodellene gir i praksis ofte gode og relevante svar, gitt at teksten den er trent på inneholder riktig informasjon. Dette er fordi de språklige sammenhengene i mange tilfeller også inneholder de relevante faktaene. Men de mangler altså kunnskapsmodeller for å vurdere om innholdet er riktig. Språkmodeller vil derfor kunne generere tekst som fremstår korrekt, men som ikke nødvendigvis er basert på fakta. Forskning har vist at dette blant annet kan skje om du stiller juridiske spørsmål til språkmodeller.

Les om denne forskningen i Journal of legal analysis (ekstern side, på engelsk)

Tilpassing av språkmodeller til spesifikke formål

Med ulike teknikker kan man riktignok få generelle språkmodeller til å fungere for spesifikke formål, og sørge for at den får kontinuerlig oppdatert informasjon. Retrieval-Augmented Generation (RAG) er en metode for å gjøre slike modeller mer effektive og oppdaterte. Formålet er å forbedre nøyaktigheten til tekstbaserte svar ved å «berike» spørsmål med utvalgt, kvalitetssikret og oppdatert informasjon, som er spesielt relevant for området man ønsker å spesialisere på. Dette systemet gjør språkmodeller mer faktabaserte og relevante, særlig når det gjelder nyere informasjon som språkmodellene i seg selv ikke nødvendigvis er trent på.

RAG består av tre hovedkomponenter

  1. Retrieval (Gjenfinning)

    Modellen søker basert på spørsmålet etter informasjon i lokale databaser eller andre utvalgte kilder. Dette kan ligne på hvordan tradisjonelle søkemaskiner fungerer, men for RAG benyttes metoder for å finne relevant informasjon basert på kontekst i stedet for kun å basere seg på søkeord. Resultatene av disse søkene kan også brukes for å presentere direkte koblinger til den underliggende informasjonen, f.eks. artikler, maler og andre dokumenter i egne kilder.
  2. Augmented (Forsterkning)

    Den innhentede informasjonen brukes til å forbedre språkmodellens svar ved at relevant uttrekk av denne tilfører mer kontekst til spørsmålet. Dette gjør at svarene blir mer presise og faktuelle, sammenlignet med tradisjonelle språkmodeller som kun baserer seg på forhåndstrente data.
  3. Generation (Generering)

    Til slutt genereres et sammenhengende tekstsvar både med utgangspunkt i det formulerte spørsmålet og den ekstra innhentede informasjonen ved hjelp av språkmodellen.

I stedet for å bruke enkle nøkkelordsøk, benytter RAG seg altså av semantisk søk, som baserer seg på konteksten i spørsmålet mer enn selve ordene. Dette gjøres ved å kode spørsmålet og informasjonen i databasen som vektorer (numeriske representasjoner), altså den samme kodingen som brukes for treningen av språkmodellene. Dermed kan systemet finne informasjon som er relevant selv om de eksakte ordene ikke samsvarer. Dette gjør søkene mer fleksible og relevante for brukeren.

Fordeler med RAG

  • Oppdatert kunnskap: I motsetning til språkmodeller som bare kan trekke fra treningsdata, kan RAG hente fersk informasjon fra eksterne kilder, noe som gir oppdaterte og mer nøyaktige svar.
  • Fleksibilitet: Systemet kan tilpasse seg spørsmål formulert på ulike måter ved å forstå meningen, selv om ikke alle søkeord er tilstede.
  • Nøyaktighet: Ved å kombinere søke- og genereringskapasiteten, reduserer RAG risikoen for feil eller "hallusinasjoner".

Konkrete bruksområder for RAG

RAG kan brukes i en rekke sammenhenger der det er behov for nøyaktig, oppdatert informasjon, som i forskning, journalistikk, eller kundeservice. Modellen kan også tilpasses til spesifikke domener, som medisinske eller juridiske applikasjoner, for å sikre at informasjonen som presenteres er både relevant og korrekt.

Språkmodeller som GPT representerer en viktig teknologisk innovasjon innen tekstgenerering, men har sine begrensninger når det gjelder oppdatert og faktabasert informasjon. RAG-systemet kombinerer fordelene ved generative modeller med nøyaktigheten fra tradisjonelle søkesystemer, noe som gjør det til et effektivt verktøy for å gi presise svar i komplekse eller dynamiske miljøer. Dette systemet er særlig nyttig i situasjoner der tilgang til oppdatert informasjon er kritisk, og det kan tilpasses til mange ulike sektorer og bruksområder.

Selv om RAG forbedrer språkmodellens evne til å gi korrekte svar, er det fortsatt noen utfordringer knyttet til implementering. Det kreves kontinuerlig overvåking av nøyaktighet samt filtrering av feilaktig informasjon. I tillegg er det tekniske utfordringer knyttet til skalering og ytelse når disse modellene brukes i stor skala. Prosessene med å søke, finne og videresende tilleggsinformasjon setter krav til ytelse på infrastrukturen for at brukeropplevelsen opprettholdes, dvs. at det ikke tar for lang tid å få svar også hvis antall brukere øker. Å løpende oppdatere og indeksere egen informasjon krever også datakraft i takt med informasjonsmengden.