No products added!
Når en sprogmodel skal i drift, er det ikke nok, at den virker i en demo. Den skal levere stabile svar, leve op til forretningens mål, håndtere svære prompts og kunne godkendes af de mennesker, der bærer ansvaret bagefter.
Denne workshop er udviklet til teams, der vil skabe et klart og dokumenterbart grundlag for at vurdere en LLM før lancering. Fokus er praktisk: KPI’er, testcases, risici, godkendelsesflow og de beslutninger, der skal træffes, før løsningen møder rigtige brugere.
Når en LLM skal vurderes før drift
Mange organisationer starter med promptdesign og use cases, men stopper for tidligt i arbejdet med kvalitetssikring. Resultatet bliver ofte usikkerhed: Hvad er egentlig et godt svar, hvor hurtigt skal modellen svare, hvornår er en fejl kritisk, og hvem må godkende løsningen?
I workshoppen omsættes disse spørgsmål til en konkret evalueringsramme. Det gør det lettere at gå fra mavefornemmelse til fælles kriterier, der kan bruges af både teknik, forretning og governance-funktioner.
Der arbejdes med både målbare og faglige vurderinger. En stærk evaluering af en LLM kræver nemlig mere end én score. Den kræver et billede af kvalitet, svartid, robusthed, sikkerhed, bias og den faktiske værdi i brugssituationen.
Hvad workshoppen giver jer
Workshoppen samler de personer, der skal kunne stole på løsningen bagefter. Det skaber fremdrift, når udviklere, produktejere, fageksperter og ansvarlige for compliance arbejder ud fra samme struktur.
Typiske resultater fra forløbet er:
- KPI-ramme: Klare succeskriterier for kvalitet, svartid, sikkerhed og brugeroplevelse
- Testdesign: Et prioriteret katalog af testcases, inklusiv normale scenarier, edge cases og misbrugsscenarier
- Godkendelsesflow: En tydelig proces for review, sign-off og ansvar før go-live
- Dokumentation: Skabeloner og arbejdsgange, der gør evalueringen sporbar og anvendelig i praksis
Fra KPI’er til beslutninger
En god workshop om LLM-evaluering begynder ikke med værktøjer. Den begynder med formål. Hvad skal modellen lykkes med, for hvem, og under hvilke krav?
Det er afgørende, fordi KPI’er altid er knyttet til kontekst. En intern assistent til HR skal måles anderledes end en kundevendt chatbot eller en juridisk hjælper. I workshoppen afklares derfor både forretningsmål, risikoniveau og krav til dokumentation, før der sættes tal på.
Nedenfor ses en typisk struktur, som bruges til at oversætte behov til konkrete evalueringsområder:
| Område | Fokus i workshoppen | Typisk output |
|---|---|---|
| Kvalitet | Relevans, korrekthed, konsistens | KPI’er for svarpræcision og faglig kvalitet |
| Performance | Svartid, stabilitet, kapacitet | Målepunkter for latency og driftsevne |
| Sikkerhed | Prompt injection, datalæk, policy-brud | Negative testcases og eskaleringsregler |
| Fairness | Bias, tone, forskelsbehandling | Evalueringskriterier for følsomme scenarier |
| Governance | Roller, ansvar, godkendelse | Beslutningsflow før produktion |
Det skaber et fælles sprog i organisationen. Og det er ofte dét, der mangler, når AI-projekter går i stå lige før drift.
Testcases der ligner virkeligheden
En LLM bør ikke kun testes på de spørgsmål, teamet håber at få. Den skal også udsættes for de inputs, virkeligheden sender: uklare beskeder, modstridende instruktioner, følsomme emner, intern jargon og brugere, der ikke skriver pænt eller præcist.
I workshoppen bygges testcases op omkring jeres use case. Det kan være kundedialoger, salgsstøtte, intern videnssøgning, juridiske svar, tekstproduktion eller en specialiseret assistent til drift og support. Målet er at skabe et testbibliotek, som både kan bruges nu og ved senere modelændringer.
Efter en fælles gennemgang prioriteres testområderne typisk sådan:
- kerneopgaver
- grænsetilfælde
- flertrinsdialoger
- sikkerhedsscenarier
- følsomme emner
- fallback og afvisninger
Der lægges vægt på, at testcases skal være anvendelige. De skal kunne køres igen, sammenlignes på tværs af modelversioner og bruges som grundlag for en reel godkendelse.
Godkendelse før go-live
Mange teams er stærke på udvikling, men mangler en enkel model for godkendelse. Hvem siger ja, hvornår, og på baggrund af hvad?
Workshoppen hjælper med at definere et godkendelsesflow, som passer til organisationens modenhed og risikoprofil. Nogle har brug for en let beslutningsmodel med få roller. Andre har behov for et mere formelt setup med produktansvarlig, sikkerhed, jura, DPO, fagekspert og driftsansvarlig.
Det centrale er ikke bureaukrati. Det centrale er, at beslutningen om drift bliver taget på et oplyst grundlag.
Et typisk godkendelsesflow kan omfatte designreview, teknisk testreview, sikkerheds- og risikovurdering, brugeraccept og endelig driftsgodkendelse. Når dette er tydeligt beskrevet, bliver det også lettere at håndtere ændringer senere, fx ny modelversion, nye datakilder eller justeret promptstrategi.
Hvem workshoppen er relevant for
Workshoppen er relevant for organisationer, der allerede bruger LLM’er, er i pilotfase, eller står foran en første lancering med ansvar for kvalitet og kontrol.
Det gælder ofte disse roller:
- Produkt og forretning: Ejere af use case, mål og prioriteringer
- IT og udvikling: Ansvarlige for modelvalg, integration og testopsætning
- Compliance og sikkerhed: Funktioner med ansvar for risici, data og krav
- Faglige nøglepersoner: Eksperter, der kan vurdere rigtighed og anvendelighed
Format og arbejdsform
Forløbet kan gennemføres som en koncentreret workshop, et kortere undervisningsforløb eller en virksomhedsrettet session med egne cases. Det kan foregå online eller som intern workshop, afhængigt af behov og deltagerkreds.
Arbejdsformen er aktiv. Deltagerne arbejder med konkrete prompts, vurderingsskemaer, KPI-definitioner og beslutningspunkter. Det gør workshoppen relevant både for dem, der skal tage ledelsesbeslutninger, og for dem, der skal bygge, teste og dokumentere løsningen.
Der er også plads til at få styr på de typiske knaster: hvornår man skal bruge menneskelig review, hvordan man prioriterer mellem kvalitet og hastighed, og hvordan man sætter realistiske tærskler for godkendelse.
Et typisk forløb
Indholdet tilpasses, men strukturen følger ofte en tydelig progression fra mål til handling. Det giver ro i processen og gør det lettere at samle både teknik og forretning.
- Afklaring af use case, risici og succeskriterier
- Formulering af KPI’er og evalueringsmål
- Udvikling af testcases og vurderingsrubrikker
- Gennemgang af godkendelsesroller, dokumentation og beslutningsflow
- Plan for gentest, monitorering og opfølgning efter drift
Når denne struktur er på plads, bliver evaluering ikke en engangsøvelse. Den bliver en del af den måde, organisationen arbejder ansvarligt med AI på.
Hvad I står med bagefter
Efter workshoppen har teamet et mere robust grundlag for at vurdere, om en LLM er klar til drift. Ikke kun teknisk, men også organisatorisk.
Det kan være et første KPI-kort, et prioriteret testkatalog, en model for sign-off, en skabelon til evaluering eller et fælles beslutningsgrundlag til næste pilotfase. For mange er den største gevinst, at uklare forventninger bliver erstattet af konkrete kriterier.
Nordisk Business Academy arbejder praksisnært og AI-integreret, så indholdet kan kobles direkte til den virkelighed, deltagerne står i. Det gør workshoppen relevant for både erfarne teams og organisationer, der vil etablere en sikker og professionel standard for LLM-evaluering.

