Dataklassificering til generativ AI: Hvilke data må bruges hvor (og hvordan sætter I reglerne)?

dataklassificering generativ ai

Generativ AI er blevet hverdag i mange organisationer, men dataspørgsmålet er stadig dér, hvor de fleste projekter står og vakler. Ikke fordi teknologien mangler fart, men fordi reglerne for databrug ofte er uklare, usynlige eller alt for brede. Når medarbejdere ikke ved, hvilke data de må skrive ind i en chatbot, lægge i en RAG-løsning eller bruge til finjustering af modeller, bliver risiko hurtigt til praksis.

Dataklassificering er den disciplin, der gør dette håndterbart. Den skaber et fælles sprog for data, så man ikke kun taler om, hvad data er, men også hvor de må bruges, af hvem og under hvilke kontroller. Det er præcis den struktur, som gør generativ AI anvendelig i en professionel kontekst.

Dataklassificering er styring, ikke arkivarbejde

Mange forbinder klassificering med mapper, etiketter og administrative processer. I AI-sammenhæng er det langt mere operationelt. Klassificering afgør, om et dokument må bruges i en offentlig model, om det kun må søges frem via en intern assistent, eller om det slet ikke må indgå i AI-processer. Det handler altså ikke kun om orden. Det handler om adgang, formål, ansvar og sporbarhed.

Når data klassificeres rigtigt, bliver kvaliteten af AI-løsningen også bedre. RAG-systemer finder hurtigere det rigtige indhold, finjustering sker på mere præcise datasæt, og sandsynligheden for irrelevante eller misvisende svar falder. Samtidig bliver det muligt at isolere følsomme oplysninger tidligt, så persondata, forretningshemmeligheder og ophavsretligt beskyttet materiale ikke flyder ukontrolleret ind i værktøjer, der ikke er godkendt til formålet.

Det mest nyttige princip er enkelt: samme data skal ikke have samme frihed i alle AI-scenarier.

Hvilke data må bruges hvor?

Det korte svar er, at data kun må bruges dér, hvor klassifikation, formål, retsgrundlag og tekniske kontroller passer sammen. Mange organisationer gør det unødvendigt kompliceret ved at tale om “AI-data” som én samlet kategori. Det er sjældent klogt. Et internt procesdokument, et kundebrev, et ansigtsfoto og et kodebibliotek har vidt forskellige risikoprofiler.

En praktisk model er at koble klassifikation direkte til brugsscenarier. Det giver en beslutningsramme, som både medarbejdere, ledere, IT og jura kan arbejde efter.

Dataklasse Offentlig generativ AI Privat enterprise-AI Intern RAG-løsning Træning eller finjustering Typiske krav
Offentlige data Ofte tilladt Tilladt Tilladt Ofte muligt Kildekontrol, kvalitetstjek
Interne, ikke-følsomme data Bør kun bruges efter policy Tilladt i godkendt miljø Tilladt Muligt efter vurdering Logning, adgangsstyring
Fortrolige forretningsdata Som udgangspunkt nej Kun i lukket og kontraktligt afklaret miljø Ja, med stram adgang Kun efter særskilt godkendelse Kryptering, rollebaseret adgang, dataminimering
Personoplysninger Som udgangspunkt nej Kun ved klart retsgrundlag og passende sikkerhed Ja, hvis formål og hjemmel er på plads Høj risiko, kræver grundig vurdering GDPR, DPIA, pseudonymisering
Særlige kategorier af persondata og biometriske data Nej Kun i meget kontrollerede scenarier Kun ved tung begrundelse Som hovedregel undgås Skærpet beskyttelse, dokumentation
Ophavsretligt beskyttet materiale og IP Nej uden rettigheder Kun efter rettighedsafklaring Muligt til søgning, afhængigt af licens Kun ved sikker rettighedsafklaring Licensstyring, kilde- og rettighedsdokumentation

Tabellen er ikke en lovtekst, men en stærk start. Den viser også noget vigtigt: spørgsmålet er sjældent bare, om data er følsomme. Det afgørende er, om data må bruges til netop det formål og i netop det miljø.

Fire datatyper, fire risikobilleder

Tekst er stadig den mest udbredte datakilde i generativ AI. Det gælder alt fra politikker og manualer til kontrakter, mails og vidensartikler. Risikoen opstår, når tekst fejlagtigt behandles som harmløs. Persondata gemmer sig ofte i fritekst, og fortrolige forhold gør det samme. Derfor er tekstklassificering et godt sted at begynde, især hvis organisationen arbejder med prompting, dokumentopsamling eller intern videnssøgning.

Billeder og lyd kræver typisk endnu mere forsigtighed. Ansigter, stemmer og andre biometriske kendetegn kan udløse skærpede krav, og materialet kan også være ophavsretligt beskyttet. Mange overser dette, når de tester billedgeneratorer, transskription eller stemmeværktøjer. Teknisk set kan det virke enkelt. Retligt og etisk er det langt mere krævende.

Strukturerede data, som regneark, tabeller, logfiler og kode, giver ofte en falsk følelse af sikkerhed. De ser ryddelige ud, men kan indeholde prisstrategier, kunde-ID’er, HR-data eller forretningskritisk logik. Kode har ovenikøbet sit eget IP-lag. Hvis den bruges i en ekstern model uden kontrol, kan man miste grebet om noget, der i praksis er en kerneaktiv.

Det gode nyhedsbillede er, at alle fire datatyper kan bruges ansvarligt, når klassifikationen er tydelig og reglerne er koblet til konkrete arbejdsgange.

Sæt regler, der kan bruges i hverdagen

Den største fejl er at skrive en AI-politik, som ser klog ud på ledelsesniveau, men som ikke hjælper den medarbejder, der sidder med et dokument åbent og skal vælge værktøj. Reglerne skal kunne omsættes til beslutninger på få sekunder.

En enkel implementering kan bygges i fem trin:

  1. Definér 4 til 6 dataklasser, som giver mening i organisationen.
  2. Knyt hver dataklasse til tilladte AI-scenarier, fx offentlig chatbot, intern assistent, RAG og modeltræning.
  3. Beskriv obligatoriske kontroller for hver kombination af data og værktøj.
  4. Placér ansvar hos navngivne roller, ikke hos “organisationen” i abstrakt form.
  5. Indfør review og opdatering, så klassifikation og politik følger den faktiske brug.

Det lyder enkelt, og det er netop en styrke. En brugbar model slår en elegant model, som ingen anvender.

Hvad reglerne bør svare på

Hvis en AI-politik skal fungere i praksis, bør den svare klart på de spørgsmål, medarbejdere faktisk har. Ikke på de spørgsmål, en arbejdsgruppe forestillede sig på et møde.

Et godt minimum er disse spørgsmål:

Den liste er kort, men meget styrende. Når den er koblet til klassificering, bliver politikken konkret og mindre afhængig af mavefornemmelse.

Den tekniske side af reglerne

Regler virker bedst, når de understøttes teknisk. Man bør ikke satse på, at alle medarbejdere husker alt, hver gang de bruger AI. Hvis et værktøj ikke må modtage persondata, bør systemet så vidt muligt opdage og blokere dem. Hvis kun bestemte teams må tilgå fortrolige dokumenter via en AI-assistent, bør rollebaseret adgang være standard og ikke en manuel undtagelse.

Der er flere tekniske greb, som ofte giver stor værdi uden at gøre løsningen tung:

Når disse kontroller er på plads, flytter governance sig fra papir til drift. Det er her, modenheden virkelig viser sig.

Hvem bestemmer hvad?

Dataklassificering til generativ AI er ikke kun et IT-projekt. Hvis klassifikation alene ejes af teknikere, bliver reglerne ofte for snævre eller for teoretiske. Hvis den alene ejes af jura, bliver de ofte for generelle. Det stærke setup er tværfagligt og tydeligt fordelt.

Et velfungerende ansvarsbillede kan se sådan ud:

  • Dataejer: godkender formål, klassifikation og forretningsmæssig anvendelse
  • IT og sikkerhed: sætter tekniske kontroller, adgang og monitorering
  • Jura og compliance: vurderer retsgrundlag, kontrakter, DPIA og dokumentation
  • Fagområde: kvalitetssikrer datakilder og vurderer output i praksis
  • Ledelse: accepterer risiko og prioriterer ressourcer

Denne fordeling gør to ting muligt på samme tid. Der kommer fart i beslutningerne, og der kommer klarhed, når nogen spørger, hvorfor et datasæt må bruges ét sted, men ikke et andet.

Dokumentation er en del af løsningen

Mange organisationer dokumenterer modeller, men ikke data. Det er en svaghed. I generativ AI er det ofte dataflowet, der afgør risikoniveauet. Derfor bør man dokumentere datakilder, klassifikation, formål, retention, rettigheder og de kontroller, der er valgt.

Her giver en enkel dataspecifikation stor værdi. Den behøver ikke være tung, men den bør gøre det muligt at svare på spørgsmål som: Hvor kommer data fra? Hvem ejer dem? Er de personhenførbare? Må de bruges til søgning, prompting eller træning? Hvornår skal de slettes eller revurderes?

EU’s AI-regler skubber i samme retning, især på krav om datakvalitet, governance og biaskontrol i mere risikofyldte anvendelser. For organisationer i Danmark er det derfor klogt at tænke dokumentation ind tidligt, også selv om løsningen endnu er i pilot.

Når reglerne skal holde i drift

Det er fristende at tro, at klassifikation er et engangsprojekt. Det er det ikke. Nye værktøjer kommer til, leverandørvilkår ændrer sig, datasæt vokser, og medarbejdere finder nye genveje. Derfor bør klassifikation og regler indgå i et fast driftsloop med audits, stikprøver og løbende tilpasning.

En moden praksis rummer også læring. Når et team bliver afvist af systemet, fordi en prompt indeholder følsomme data, er det ikke kun en blokering. Det er også en anledning til at gøre reglen tydeligere, forbedre workflowet eller tilbyde et mere sikkert alternativ. God governance bremser ikke arbejdet. Den former det, så AI faktisk kan bruges bredere og med større tillid.

Det er netop dér, dataklassificering bliver strategisk: ikke som kontrol for kontrollens skyld, men som den struktur, der gør generativ AI anvendelig, sikker og skalerbar i hverdagen.

Til top