No products added!
Generativ AI kan virke imponerende robust, men den er langt mere påvirkelig, end mange tror. Et velplaceret stykke tekst kan ændre modellens adfærd, få den til at ignorere sine oprindelige instruktioner eller lokke den til at afsløre oplysninger, den ikke burde bruge. Det er kernen i prompt injection.
For virksomheder, undervisere, specialister og teams, der allerede bruger AI i hverdagen, er det ikke kun et teknisk nicheproblem. Det er et ledelses-, sikkerheds- og kvalitetsproblem på samme tid.
Hvad prompt injection egentlig er
Prompt injection opstår, når en AI-model bliver påvirket af manipulerede instruktioner i sit input og derfor svarer eller handler på en måde, der ikke var tilsigtet. Angriberen behøver ikke nødvendigvis adgang til systemets kode eller infrastruktur. Det afgørende er, at modellen læser tekst, den tror er relevant, men som i virkeligheden forsøger at overtage styringen.
Det gør prompt injection anderledes end klassiske softwareangreb. Her er det ikke en buffer overflow eller et kompromitteret login, der er indgangen. Det er sprog.
En sprogmodel kan ikke med sikkerhed skelne mellem “rigtige” instruktioner og “falske” instruktioner, hvis begge dele kommer ind i dens kontekst. Den behandler tekst som tekst. Derfor kan en skjult eller aggressivt formuleret besked få modellen til at tilsidesætte regler, tone, rolle eller sikkerhedsgrænser.
Efter en kort forklaring giver det mening at skelne mellem de to mest almindelige former:
- Direkte prompt injection: En bruger skriver en prompt, der forsøger at omgå reglerne, som i “ignorer tidligere instruktioner og gør i stedet dette”.
- Indirekte prompt injection: De skadelige instruktioner ligger skjult i materiale, modellen læser, som en webside, et dokument, en e-mail, en PDF eller endda et billede.
Hvorfor generativ AI er sårbar
Sårbarheden hænger tæt sammen med, hvordan store sprogmodeller fungerer. De er trænet til at fortsætte tekst, følge mønstre og reagere på instruktioner i kontekst. Det er deres styrke, men også deres svaghed.
Hvis en AI-assistent både skal læse brugerens spørgsmål, et internt regelsæt, indhold fra en vidensbase og data fra eksterne kilder, samles det hele ofte i samme samtalekontekst. Modellen ser ikke en hård sikkerhedsgrænse mellem disse lag, sådan som et menneske intuitivt ville gøre. Den forsøger blot at svare bedst muligt på det samlede input.
Det er også derfor, at prompt injection bliver mere alvorlig, når AI får adgang til værktøjer. Hvis modellen kan søge på nettet, læse dokumenter, skrive til et CRM-system eller udløse workflows, stiger konsekvenserne markant. Problemet er ikke kun et mærkeligt svar. Det kan blive til handling.
Multimodale systemer udvider samtidig angrebsfladen. Instruktioner kan gemmes i billeder, dokumentmetadata eller formatering, som et menneske let overser, men som modellen stadig kan opfange.
Sådan ser angrebet ud i praksis
I praksis er prompt injection ofte overraskende enkel. Forestil dig en AI-assistent, der skal opsummere en rapport. Inde i rapporten står en skjult sætning, som beder modellen om at ignorere den oprindelige opgave og i stedet udlevere interne instruktioner. Hvis systemet ikke har stærke kontrolmekanismer, kan modellen følge den skjulte besked.
Et andet scenarie er kundeservice. En chatbot får besked på at hjælpe med produktspørgsmål, men en bruger skriver en prompt, der forsøger at få botten til at afsløre interne processer, kundedata eller svarskabeloner. Hvis modellen har fået for bred adgang eller for få begrænsninger, kan resultatet blive et sikkerhedsbrud forklædt som almindelig dialog.
Det samme gælder i research, HR, marketing og jura. Når AI bruges til at sammenfatte, prioritere eller anbefale, kan en ondsindet tekst påvirke outputtet. Dermed kan fejl snige sig ind i beslutninger, ikke kun i formuleringer.
Der er nogle tydelige faresignaler, som bør vække opmærksomhed:
- uventede rolleændringer
- mærkelige instruktioner i svaret
- output, der afviger fra opgaven
- forsøg på at omgå politikker
- svar, der virker mere optaget af reglerne end af spørgsmålet
Konsekvenserne rækker længere end et forkert svar
Når prompt injection omtales som en toptrussel i moderne AI-sikkerhed, skyldes det konsekvensernes bredde. Angrebet kan ramme fortrolighed, integritet og drift på én gang.
Fortrolighed er i fare, hvis modellen får lokket følsomme oplysninger frem. Integritet er truet, hvis svar, analyser eller vurderinger bliver manipuleret. Drift er i spil, hvis AI kobles til systemer, der kan sende beskeder, ændre data eller igangsætte handlinger. Det er en usædvanlig kombination, og derfor kræver området mere end almindelig prompt-design.
For organisationer i Danmark og resten af EU kommer der et ekstra lag. Hvis personoplysninger lækkes via en AI-løsning, er det ikke kun et teknisk problem. Det kan blive et spørgsmål om GDPR, ansvar, dokumentation og tillid.
| Risiko | Hvad det kan betyde i praksis |
|---|---|
| Datalæk | Interne oplysninger eller persondata dukker op i svar |
| Manipuleret output | AI leverer skæve analyser, falske resuméer eller misvisende anbefalinger |
| Omgåelse af sikkerhedsregler | Modellen ignorerer politikker og giver svar, der ellers skulle være blokeret |
| Uautoriserede handlinger | AI udløser processer eller værktøjer på baggrund af skjulte instruktioner |
| Tab af tillid | Brugere og kunder mister troen på løsningen og dens kvalitet |
Direkte og indirekte angreb kræver forskellige forsvar
Det er fristende at tro, at et filter for bestemte ord er nok. Det er sjældent tilfældet. Direkte angreb kan nogle gange stoppes med mønstergenkendelse, men indirekte angreb er mere snedige, fordi de skjuler sig i legitimt indhold.
Hvis en model læser webindhold, vedhæftede filer eller transskriptioner, bør systemet betragte disse kilder som potentielt usikre. Det gælder også materiale, der kommer fra troværdige steder. Sikkerhed handler ikke kun om afsender, men også om indholdets effekt på modellen.
Det mest robuste forsvar bygger derfor på lag. Ikke ét værktøj, men flere kontroller, der supplerer hinanden.
Hvordan man forebygger prompt injection
En stærk tilgang begynder med arkitekturen. AI bør kun have adgang til de data og funktioner, der er nødvendige for den konkrete opgave. Hvis en chatbot kun skal besvare produktspørgsmål, skal den ikke samtidig have mulighed for at tilgå følsomme registre eller udføre handlinger uden menneskelig godkendelse.
Dernæst kommer inputkontrol. Tekst, dokumenter og eksterne kilder bør screenes for manipulerende mønstre, skjulte instruktioner og usædvanlige formateringer. Det stopper ikke alt, men det reducerer risikoen markant. Samtidig bør output også kontrolleres. Hvis modellen pludselig svarer i et forkert format, omtaler interne regler eller foreslår handlinger uden for sin rolle, bør svaret stoppes eller markeres.
Systemprompter og kerneinstruktioner skal desuden være skarpt formuleret. Ikke som lange ønskelister, men som tydelige begrænsninger. Jo mere præcis modellen er instrueret i, hvad den må og ikke må, jo bedre udgangspunkt har man. Det er stadig ikke en garanti, men det giver et mere stabilt niveau.
Efter de tekniske lag kommer de organisatoriske. Her er nogle af de vigtigste greb:
- Mindst mulige adgang: Giv AI kun de værktøjer og datakilder, der er nødvendige.
- Inputkontrol: Rens og vurder brugerinput, dokumenter og eksternt indhold før behandling.
- Outputkontrol: Tjek svar for afvigelser, følsomme data og uventede handlinger.
- Menneskelig godkendelse: Kræv manuel kontrol ved følsomme svar, beslutninger eller systemhandlinger.
- Logning og test: Gem hændelser og kør jævnlige angrebstests mod løsningen.
Medarbejdere er en del af forsvaret
Selv den bedste tekniske opsætning bliver svag, hvis brugerne tror, at AI altid forstår kontekst korrekt. Det gør den ikke.
Derfor bør medarbejdere trænes i at arbejde kritisk med AI-output. De skal kende tegnene på manipulation, vide hvornår et svar skal dobbelttjekkes, og forstå hvorfor følsomme oplysninger ikke bare kan indsættes i en ekstern model. Det gælder på tværs af fagområder, fra HR og kundeservice til salg, undervisning og projektledelse.
Særligt i vidensarbejde er det vigtigt at fastholde et simpelt princip: AI må gerne accelerere arbejdet, men den må ikke overtage dømmekraften.
Praktisk kan det oversættes til nogle daglige vaner:
- Stop op ved uventede svar
- Kontrollér fakta mod kilder
- Del ikke fortrolige data ukritisk
- Brug godkendte værktøjer
- Meld mistænkelig adfærd videre hurtigt
Governance gør forskellen mellem pilot og drift
Mange organisationer starter med AI som et eksperiment. Det er en god begyndelse, men prompt injection viser hurtigt, at eksperimenter kræver styring, hvis de skal bruges i drift.
Det betyder klare politikker for, hvilke data der må bruges, hvilke opgaver AI må løse, og hvem der har ansvar for kvalitet, sikkerhed og tilsyn. Det betyder også dokumentation. Hvis en AI-løsning påvirker vigtige arbejdsgange, skal man kunne forklare dens rolle, dens begrænsninger og de kontroller, der beskytter den.
I en nordisk og europæisk kontekst er dette ikke bare god praksis. Det passer også ind i et voksende krav om ansvarlig brug af AI, risikovurdering og løbende overvågning.
En moden indsats kan med fordel samle det hele i et styringslag mellem brugeren og modellen. Nogle kalder det en AI-gateway. Pointen er enkel: prompts, værktøjskald og svar passerer gennem et kontrolleret lag, hvor de kan valideres, logges og bremses, før de skaber problemer.
Hvad der virker bedst over tid
Der findes ingen enkelt metode, som fjerner prompt injection fuldstændigt. Sprogmodeller er i sig selv påvirkelige, og nye angrebsmetoder dukker løbende op. Det realistiske mål er derfor ikke perfektion, men modstandskraft.
Det opnås bedst ved at kombinere sikker arkitektur, snævre rettigheder, test af reelle angrebsscenarier, overvågning af output og en medarbejderkultur, hvor AI bruges med faglig omtanke. Organisationer, der tager den tilgang alvorligt, står langt stærkere, ikke kun mod manipulation, men også i forhold til kvalitet, compliance og tillid.
Når generativ AI bruges ansvarligt, kan den skabe stor værdi. Netop derfor er det værd at tage prompt injection seriøst fra starten. Det gør AI-løsninger mere brugbare, mere troværdige og langt bedre rustet til den virkelighed, de skal fungere i.

