Hvad er syntetiske data? Sådan kan danske virksomheder teste og træne AI uden at kompromittere persondata

Kategori

Dato

27. marts 2026

Når danske virksomheder vil bygge, teste og forbedre AI, støder de hurtigt på det samme dilemma: Modeller kræver store mængder data, men adgangen til data er ofte begrænset af persondataregler, tavshedspligt, sikkerhedshensyn og interne compliance-krav.

Her er syntetiske data blevet et af de mest interessante svar. De gør det muligt at arbejde med datasæt, der ligner virkeligheden tæt nok til at være nyttige, men uden at man nødvendigvis eksponerer rigtige kunders, patienters eller medarbejderes oplysninger. Det åbner for hurtigere udvikling, bedre test og mere modig innovation, især i brancher hvor data ellers er svære at bruge.

Hvad syntetiske data egentlig er

Syntetiske data er kunstigt genererede data, skabt til at efterligne mønstre, sammenhænge og fordelinger i virkelige datasæt. Det afgørende er, at de ikke er en kopi af konkrete personer eller hændelser. De er modellerede repræsentationer af virkeligheden, ikke et spejl af enkelte rækker i en database.

Det gør dem fundamentalt anderledes end både rå data og pseudonymiserede data. Hvis et kunderegister blot har fået fjernet navne og CPR-numre, er det stadig tæt knyttet til rigtige mennesker. Syntetiske data er noget andet: nye datapunkter, genereret ud fra statistiske eller simulerede mønstre.

I praksis kan syntetiske data ligne næsten alle typer information:

kundetransaktioner
patientforløb
klik- og adfærdsdata
sensor- og IoT-data
billeder, video og lyd

Det er netop denne bredde, der gør dem så relevante for AI. En model behøver ikke altid adgang til de oprindelige personer bag dataene. Den behøver adgang til de mønstre, der gør data nyttige.

Hvorfor virksomheder ser mod syntetiske datasæt

For mange organisationer handler syntetiske data ikke kun om jura. Det handler også om hastighed. Indsamling, rensning, godkendelse og adgangsstyring omkring rigtige data kan tage måneder. Syntetiske data kan i mange tilfælde produceres langt hurtigere og målrettes bestemte scenarier.

Det giver en mere aktiv måde at udvikle AI på. I stedet for at vente på, at data bliver tilgængelige, kan et team skabe datasæt til særlige tests, skæve cases eller sjældne hændelser. Det er værdifuldt i alt fra svindelopdagelse til kvalitetssikring af software og træning af anbefalingsmotorer.

Gevinsterne viser sig typisk på flere niveauer:

Hurtigere udvikling: Test- og træningsdata kan genereres efter behov
Bedre privatliv: Risikoen for at eksponere rigtige personoplysninger kan reduceres markant
Flere scenarier: Sjældne hændelser kan fremstilles i større antal
Stærkere modeller: Datasæt kan balanceres, så underrepræsenterede grupper fylder mere korrekt
Lavere omkostninger: Mindre manuel dataindsamling og færre flaskehalse i godkendelser

For danske virksomheder er dette særligt interessant i brancher med tung regulering. Finans, sundhed, forsikring og offentlig service har alle områder, hvor AI er lovende, men hvor adgang til data ofte er den største bremse.

Syntetiske data og persondata, hvad er den reelle forskel?

Det korte svar er, at syntetiske data kan være et stærkt værn om privatlivet, men kun hvis de faktisk er anonyme og ikke kan føres tilbage til bestemte personer. Her ligger en vigtig nuance, som mange overser.

GDPR gælder for personoplysninger. Hvis et syntetisk datasæt er genereret på en måde, hvor personer ikke kan identificeres direkte eller indirekte, vil datasættet typisk falde uden for databeskyttelsesreglerne. Men det kræver dokumentation og en seriøs vurdering af reidentifikationsrisikoen. Man kan ikke bare kalde et datasæt syntetisk og regne med, at sagen er lukket.

Det betyder, at ansvarlige virksomheder arbejder med to spor på samme tid: de bruger syntetiske data til at mindske risikoen, og de dokumenterer, hvorfor datasættet ikke længere er personhenførbart. Det er god praksis både juridisk og teknisk.

Et modent setup vil ofte bygge på disse principper:

Dataminimering: Brug mindst mulig mængde ægte data i genereringsfasen
Validering: Test om syntetiske data faktisk bevarer relevante mønstre
Privacy-assurance: Undersøg om personer kan genkendes direkte eller indirekte
Adgangskontrol: Behandl også syntetiske datasæt med sikkerhedsdisciplin
Dokumentation: Beskriv metode, antagelser og begrænsninger

Her ligger en vigtig styrke: Når privatliv tænkes ind fra starten, bliver AI-udvikling ikke kun mere lovlig, men også mere robust.

Hvordan dataene bliver skabt

Der findes ikke én metode til at generere syntetiske data. Valget afhænger af datatypen, formålet og virksomhedens tekniske niveau. Nogle metoder er enkle og passer godt til strukturerede tabeller. Andre kræver stærke miljøer til machine learning, simulation eller 3D-generering.

Ved tekst, tal og klassiske tabeller bruges ofte statistiske modeller, oversampling eller generative modeller. Ved billeddata, video og sensorstrømme er simulationsmiljøer og digitale tvillinger ofte mere velegnede. Det gælder især, når man vil teste ekstreme forhold, sjældne hændelser eller kombinationer, som næsten aldrig forekommer i historiske data.

Metode	Typisk brug	Styrke	Begrænsning
Statistisk generering	Tabulære forretningsdata	Hurtig og relativt enkel	Fanger ikke altid komplekse relationer
SMOTE og beslægtede teknikker	Ubalancerede datasæt	God til sjældne klasser	Skaber variation tæt på eksisterende data
GAN/VAE og andre generative modeller	Billeder, komplekse datastrukturer	Høj realisme	Kræver mere ekspertise og regnekraft
Simulation og digitale tvillinger	Robotik, vision, IoT, trafik	Kontrol over scenarier og edge cases	Tidskrævende at bygge godt

En vigtig pointe er, at kvaliteten af syntetiske data ikke måles på, om de ser flotte ud. Den måles på, om de er nyttige til det konkrete formål. Et datasæt kan være statistisk elegant og stadig være ubrugeligt til modeltræning, hvis de afgørende sammenhænge er gået tabt.

Danske anvendelser med tydelig forretningsværdi

I finans kan syntetiske data bruges til at simulere transaktioner, kundeadfærd og risikoprofiler. Det giver bedre mulighed for at teste svindelmodeller, kreditvurdering og overvågning uden at sende følsomme kundedata rundt mellem udviklingsmiljøer. Her er gevinsten både teknisk og organisatorisk: færre barrierer mellem fagfolk, udviklere og compliance.

I sundhed er potentialet endnu mere markant. Patientdata er blandt de mest følsomme datatyper, og netop derfor er syntetiske sundhedsdata et stærkt felt i forskning og udvikling. Når sygdomsforløb, journalmønstre eller billeddiagnostik kan efterlignes på en ansvarlig måde, bliver det lettere at udvikle modeller til screening, planlægning og klinisk støtte.

Detail og e-handel kan bruge syntetiske data til at træne anbefalingssystemer, efterspørgselsprognoser og kundesegmentering. Her handler det ofte om at skabe realistiske købsmønstre, sæsonvariationer og kampagneeffekter uden at dele rigtige kunders historik i stor skala.

Også i forsikring og industriel teknologi er gevinsten tydelig. Skadeforløb, prisberegning, billedgenkendelse, sensordata og driftsfejl kan simuleres i et kontrolleret miljø. Det gør det lettere at teste modeller under forhold, som er sjældne i virkeligheden, men kritiske i praksis.

Hvor syntetiske data virkelig gør AI bedre

En af de mest undervurderede effekter er, at syntetiske data kan gøre modeller mere retfærdige og mere robuste. Hvis et historisk datasæt er skævt, vil modellen ofte reproducere skævheden. Med syntetiske data kan man skabe bedre balance mellem grupper, hændelser og scenarier.

Det gælder især, når underrepræsenterede tilfælde ellers fylder for lidt. En model til kreditvurdering, triagering eller skadebehandling bliver ikke stærkere af flere data alene. Den bliver stærkere af bedre sammensatte data.

Syntetiske datasæt er særligt nyttige, når virksomheden vil:

teste ekstreme scenarier
træne på sjældne hændelser
reducere bias i træningsdata
dele data på tværs af teams
udvikle prototyper uden lang godkendelsesproces

Det er en mere offensiv tilgang til dataarbejde. I stedet for at acceptere hullerne i historiske data kan man arbejde aktivt med dem.

De vigtigste faldgruber

Syntetiske data er ikke en genvej uden risici. Hvis genereringen er svag, kan resultatet blive en pæn kopi af overfladen, men uden de relationer, der betyder noget for modellen. Så lærer AI noget, der ligner virkeligheden, men ikke fungerer i drift.

Der er også en anden risiko: at bias ikke forsvinder, men blot pakkes ind på en ny måde. Hvis kildedata er skæve, kan syntetiske data gentage skævheden, eller gøre den sværere at opdage. Derfor er kvalitetskontrol helt central.

Typiske udfordringer ser sådan ud:

For tæt på originaldata: Risiko for reidentifikation bliver for høj
For langt fra virkeligheden: Datasættet mister praktisk værdi
Skjult bias: Uretfærdige mønstre bliver videreført
Manglende validering: Modellen performer flot i test, men svagt i drift
For høj teknisk kompleksitet: Organisationen kan ikke vedligeholde løsningen

Den mest ansvarlige tilgang er at se syntetiske data som en disciplin, ikke som et enkelt værktøj. Det kræver metodevalg, dokumentation, test og governance.

Fra pilotprojekt til drift

Mange virksomheder får mest ud af syntetiske data ved at starte afgrænset. Ikke med hele datalandskabet, men med én konkret use case: en svindelmodel, et testmiljø, en anbefalingsmotor eller et klassifikationsproblem med tydelig mangel på træningsdata.

Det giver plads til at måle effekten nøgternt. Bevarer dataene de centrale mønstre? Falder privacy-risikoen? Bliver udviklingsforløbet hurtigere? Kan teamet forklare metoden til ledelse, kunder og eventuelle tilsyn?

En enkel startplan kan være:

Vælg en use case med tydelig forretningsværdi
Kortlæg hvilke datafelter der er nødvendige
Vælg genereringsmetode ud fra datatypen
Test både privatliv, datakvalitet og modelperformance
Dokumentér processen, før løsningen skaleres

For mange danske organisationer bliver næste skridt ikke bare at anskaffe teknologi, men at opbygge fælles kompetencer. Jurister, datafolk, ledere og domænespecialister skal kunne tale om de samme ting med samme præcision. Når det lykkes, bliver syntetiske data ikke kun et værn mod problemer. De bliver et aktiv, der gør AI-arbejdet hurtigere, sikrere og langt mere ambitiøst.

About Us

We Are Social

Contact Us

Hvad er syntetiske data? Sådan kan danske virksomheder teste og træne AI uden at kompromittere persondata

Hvad syntetiske data egentlig er

Hvorfor virksomheder ser mod syntetiske datasæt

Syntetiske data og persondata, hvad er den reelle forskel?

Hvordan dataene bliver skabt

Danske anvendelser med tydelig forretningsværdi

Hvor syntetiske data virkelig gør AI bedre

De vigtigste faldgruber

Fra pilotprojekt til drift

Nordisk Business Academy

About Us

We Are Social

Contact Us

Hvad er syntetiske data? Sådan kan danske virksomheder teste og træne AI uden at kompromittere persondata

Hvad syntetiske data egentlig er

Hvorfor virksomheder ser mod syntetiske datasæt

Syntetiske data og persondata, hvad er den reelle forskel?

Hvordan dataene bliver skabt

Danske anvendelser med tydelig forretningsværdi

Hvor syntetiske data virkelig gør AI bedre

De vigtigste faldgruber

Fra pilotprojekt til drift

Modelrisiko for generativ AI workshop: V...

Nordisk Business Academy