AIGP Zelfstudie
Overzicht › Domein 1 · Foundations › Les 4

De drie trainingsfasen & hoe governance eraan hangt

Domein 1 · Foundations Les 4 Risk officers trainen geen modellen — maar governance-verplichtingen hangen aan élke trainingsfase.
Kerngedachte
Twee vragen sturen audit-scope, vendor due diligence en risk-register-entries: welke data is gebruikt? en welke menselijke feedback vormde het gedrag? Elke trainingsfase is een eigen governance-checkpoint.
Het kernschema

Drie fasen → één modern LLM

FASE 1

Pre-training

Leert algemene taalpatronen uit een enorme dataset. Alles wat het model "weet" — én elke bias in de data — wordt hier ingebed, op de breedst mogelijke schaal.

FASE 2

Fine-tuning

Aangepast aan een specifieke taak met een kleinere, gecureerde dataset. Erft pre-training-bias + voegt taakgedrag toe dat apart gevalideerd moet worden.

FASE 3

RLHF

Mensen rangschikken outputs; het model traint richting hoger gerangschikte outputs. Hier gebeuren alignment en gedrags-shaping.

Het hefboom-principe
Pre-training = minste directe controle, hoogste downstream-hefboom. Zit er significante bias in pre-training-data, dan propageert die naar élke applicatie — hoe goed fine-tuning en alignment ook gaan.
Governance per fase

Wat je per fase controleert

Fase 1 · Pre-training — 4 data-governance-vragen

VraagWaar het op let
Data provenanceWelke bronnen, onder welke licenties?
Bias exposureOndervertegenwoordigde groepen, geografische of temporele skew die gebruikers systematisch benadeelt?
Copyright & consentIs de data met de juiste rechten verzameld?
Data poisoningWas de dataset blootgesteld aan kwaadaardige injectie die gedrag subtiel verschuift?

Bij third-party modellen: antwoorden via vendor-documentatie & model cards, niet directe inspectie. Onvolledige antwoorden = third-party risk findings.

Fase 2 · Fine-tuning — de tweede governance-laag

Cruciaal inzicht
Organisaties die foundation models fine-tunen op eigen data zijn niet langer alleen AI-gebruikersze zijn AI-developers met development-laag-verplichtingen.

Fase 3 · RLHF — drie governance-dimensies

1

Annotator bias

Annotatoren bedden hun waarden & cultuur in via hun rankings. Niet-diverse pool → systematische blind spots. Selectie & diversiteit zijn controls, geen QA.

2

Reward hacking

Model maximaliseert de metric op manieren die intentie schenden — outputs die scoren maar subtiel manipulatief/sycophantisch zijn. Continue gedrags-evaluatie nodig.

3

Alignment as control

RLHF codeert beleid, safety-eisen en juridische grenzen in gedrag. Vraag: welke commitments zijn gemaakt en hoe worden ze geverifieerd?

🔗 Link

RLHF kwam al voorbij in les 2 als alignment-stap — hier zie je waaróm die stap een governance-control is.

Twee posities, één risico

Training data governance vs. output governance

Beide pakken hetzelfde onderliggende risico aan — vanaf een andere plek in de pipeline.

Training data governance (upstream)Output governance (downstream)
WanneerVóór & tijdens trainingNá deployment
DektData-sourcing, consent, bias-audits, poisoning-detectie, documentatieOutput monitoring, content-policies, human review, incident response
OmkeerbaarheidMoeilijk terug te draaien zonder volledige hertrainingReactief — vangt slechte outputs ná het feit
HefboomHoogste — grootste reductie van downstream-risicoEssentieel, maar behandelt symptomen als het alleen wordt gebruikt
Onthoud
Wie uitsluitend op output monitoring leunt, behandelt symptomen. Effectieve programma's pakken beide lagen aan.
Audit-scope

Elke fase is een aparte audit-scope-item

Een audit die alleen het gedeployde model bekijkt, mist het grootste deel van de pipeline. Specificeer scope-grenzen expliciet.

FaseAudit-scope dekt
Pre-trainingData provenance, licensing, bias-evaluatie, data-poisoning-controls
Fine-tuningDataset-documentatie, her-evaluatie ná adaptatie, change management voor model-updates
RLHFAnnotator-selectie, diversiteit-controls, reward-hacking-detectie, alignment-commitments
DeploymentOutput monitoring, incident response, human-in-the-loop-ontwerp, KRI-tracking

Bij third-party modellen: due diligence over álle drie fasen

Documentatie-verzoeken & contractuele commitments zijn dan je primaire hefbomen: vraag model cards, fine-tuning-methodologie, alignment-commitments én notificatietermijnen bij updates (mét recht om adoptie uit te stellen voor her-evaluatie). Gaps = third-party risk findings in het register.

Voor board-rapportage

Drie termen rond trainings-risico

Alignment

Alignment

Hoe goed outputs/gedrag matchen met de waarden, policies en grenzen die de org bedoelt. RLHF vermindert misalignment maar elimineert het niet → gedragsmonitoring is niet optioneel.

Model drift

Model drift

Gedrag verandert in de tijd — door vendor-updates of doordat echte-wereld-data wegdrijft van de trainingsdistributie. Vraagt continue monitoring vóór het een incident wordt.

Retraining

Retraining risk

Een update wijzigt gedrag → breekt compliance, introduceert bias of maakt eerdere goedkeuringen ongeldig. Hier gelden change management controls voor AI.

🔗 Rode draad

Upstream-governance (training) geeft meer hefboom dan downstream-monitoring achteraf. Volgende les: inference & agentic AI — waar de gevolgen écht landen.

Begrippen uit deze les

Glossarium

Pre-training
Eerste fase: algemene patronen leren uit een enorme dataset; breedste bias-impact.
Fine-tuning
Aanpassing aan een taak met kleinere, gecureerde data; maakt je AI-developer.
RLHF
Reinforcement Learning from Human Feedback — alignment via menselijke rankings.
Data provenance
Herkomst en licenties van trainingsdata.
Data poisoning
Kwaadaardige injectie in trainingsdata die gedrag subtiel verschuift.
Annotator bias
Waarden/cultuur van annotatoren die via rankings in modelgedrag belanden.
Reward hacking
De metric maximaliseren op manieren die de bedoelde gedrag schenden.
Alignment
Mate waarin gedrag matcht met de waarden/policies van de org.
Model drift
Gedragsverandering in de tijd door updates of verschuivende data.
Retraining risk
Update breekt compliance/goedkeuringen → change management nodig.
Upstream vs downstream
Governance vóór training (hoogste hefboom) vs. ná deployment (reactief).
Checkpoint

Quiz

Klik op je antwoord voor directe feedback.

VRAAG 1
Bij welke trainingsfase heeft de governance-professional de minste directe controle maar de hoogste downstream-hefboom?
Pre-training
Fine-tuning
RLHF
Deployment
Juist: pre-training. Bias hier propageert naar élke downstream-app, ongeacht hoe goed fine-tuning en alignment gaan. Investeren in training-data-governance levert de grootste reductie van downstream-risico.
VRAAG 2
Een organisatie fine-tunet een foundation model op haar eigen klantdata. Wat verandert er aan haar governance-positie?
Niets — ze blijft enkel AI-gebruiker
Ze wordt AI-developer met development-laag-verplichtingen (data-kwaliteit, bias, consent + her-evaluatie)
Alle verantwoordelijkheid verschuift naar de vendor
Sectorregels gelden niet meer op de data
Juist. Wie fine-tunet op eigen data is geen loutere gebruiker meer maar AI-developer. De fine-tuning-dataset draagt eigen data-kwaliteit-, bias- en consent-verplichtingen, en bij gevoelige data gelden sectorregels op de data zelf.
← Terug naar overzicht