D1.4 — De drie trainingsfasen & governance

Kerngedachte
Twee vragen sturen audit-scope, vendor due diligence en risk-register-entries: welke data is gebruikt? en welke menselijke feedback vormde het gedrag? Elke trainingsfase is een eigen governance-checkpoint.

Het kernschema

Drie fasen → één modern LLM

FASE 1

Pre-training

Leert algemene taalpatronen uit een enorme dataset. Alles wat het model "weet" — én elke bias in de data — wordt hier ingebed, op de breedst mogelijke schaal.

→

FASE 2

Fine-tuning

Aangepast aan een specifieke taak met een kleinere, gecureerde dataset. Erft pre-training-bias + voegt taakgedrag toe dat apart gevalideerd moet worden.

→

FASE 3

RLHF

Mensen rangschikken outputs; het model traint richting hoger gerangschikte outputs. Hier gebeuren alignment en gedrags-shaping.

Het hefboom-principe
Pre-training = minste directe controle, hoogste downstream-hefboom. Zit er significante bias in pre-training-data, dan propageert die naar élke applicatie — hoe goed fine-tuning en alignment ook gaan.

Governance per fase

Wat je per fase controleert

Fase 1 · Pre-training — 4 data-governance-vragen

Vraag	Waar het op let
Data provenance	Welke bronnen, onder welke licenties?
Bias exposure	Ondervertegenwoordigde groepen, geografische of temporele skew die gebruikers systematisch benadeelt?
Copyright & consent	Is de data met de juiste rechten verzameld?
Data poisoning	Was de dataset blootgesteld aan kwaadaardige injectie die gedrag subtiel verschuift?

Bij third-party modellen: antwoorden via vendor-documentatie & model cards, niet directe inspectie. Onvolledige antwoorden = third-party risk findings.

Fase 2 · Fine-tuning — de tweede governance-laag

Cruciaal inzicht
Organisaties die foundation models fine-tunen op eigen data zijn niet langer alleen AI-gebruikers — ze zijn AI-developers met development-laag-verplichtingen.

De fine-tuning-dataset heeft eigen data-kwaliteit-, bias- en consent-verplichtingen.
Fine-tuning kan bias versterken óf verminderen — biased in dezelfde richting als pre-training → het probleem stapelt.
Her-evalueer op bias & accuracy ná elke adaptatie, vóór deployment.
Fine-tunen op gevoelige data (medisch, juridisch, financieel) → sectorregels gelden op de data zelf, niet enkel op de output.

Fase 3 · RLHF — drie governance-dimensies

1

Annotator bias

Annotatoren bedden hun waarden & cultuur in via hun rankings. Niet-diverse pool → systematische blind spots. Selectie & diversiteit zijn controls, geen QA.

2

Reward hacking

Model maximaliseert de metric op manieren die intentie schenden — outputs die scoren maar subtiel manipulatief/sycophantisch zijn. Continue gedrags-evaluatie nodig.

3

Alignment as control

RLHF codeert beleid, safety-eisen en juridische grenzen in gedrag. Vraag: welke commitments zijn gemaakt en hoe worden ze geverifieerd?

🔗 Link

RLHF kwam al voorbij in les 2 als alignment-stap — hier zie je waaróm die stap een governance-control is.

Twee posities, één risico

Training data governance vs. output governance

Beide pakken hetzelfde onderliggende risico aan — vanaf een andere plek in de pipeline.

	Training data governance (upstream)	Output governance (downstream)
Wanneer	Vóór & tijdens training	Ná deployment
Dekt	Data-sourcing, consent, bias-audits, poisoning-detectie, documentatie	Output monitoring, content-policies, human review, incident response
Omkeerbaarheid	Moeilijk terug te draaien zonder volledige hertraining	Reactief — vangt slechte outputs ná het feit
Hefboom	Hoogste — grootste reductie van downstream-risico	Essentieel, maar behandelt symptomen als het alleen wordt gebruikt

Onthoud
Wie uitsluitend op output monitoring leunt, behandelt symptomen. Effectieve programma's pakken beide lagen aan.

Audit-scope

Elke fase is een aparte audit-scope-item

Een audit die alleen het gedeployde model bekijkt, mist het grootste deel van de pipeline. Specificeer scope-grenzen expliciet.

Fase	Audit-scope dekt
Pre-training	Data provenance, licensing, bias-evaluatie, data-poisoning-controls
Fine-tuning	Dataset-documentatie, her-evaluatie ná adaptatie, change management voor model-updates
RLHF	Annotator-selectie, diversiteit-controls, reward-hacking-detectie, alignment-commitments
Deployment	Output monitoring, incident response, human-in-the-loop-ontwerp, KRI-tracking

Bij third-party modellen: due diligence over álle drie fasen

Documentatie-verzoeken & contractuele commitments zijn dan je primaire hefbomen: vraag model cards, fine-tuning-methodologie, alignment-commitments én notificatietermijnen bij updates (mét recht om adoptie uit te stellen voor her-evaluatie). Gaps = third-party risk findings in het register.

Voor board-rapportage

Drie termen rond trainings-risico

Alignment

Hoe goed outputs/gedrag matchen met de waarden, policies en grenzen die de org bedoelt. RLHF vermindert misalignment maar elimineert het niet → gedragsmonitoring is niet optioneel.

Model drift

Gedrag verandert in de tijd — door vendor-updates of doordat echte-wereld-data wegdrijft van de trainingsdistributie. Vraagt continue monitoring vóór het een incident wordt.

Retraining

Retraining risk

Een update wijzigt gedrag → breekt compliance, introduceert bias of maakt eerdere goedkeuringen ongeldig. Hier gelden change management controls voor AI.

🔗 Rode draad

Upstream-governance (training) geeft meer hefboom dan downstream-monitoring achteraf. Volgende les: inference & agentic AI — waar de gevolgen écht landen.

Begrippen uit deze les

Glossarium

Pre-training: Eerste fase: algemene patronen leren uit een enorme dataset; breedste bias-impact.
Fine-tuning: Aanpassing aan een taak met kleinere, gecureerde data; maakt je AI-developer.
RLHF: Reinforcement Learning from Human Feedback — alignment via menselijke rankings.
Data provenance: Herkomst en licenties van trainingsdata.
Data poisoning: Kwaadaardige injectie in trainingsdata die gedrag subtiel verschuift.
Annotator bias: Waarden/cultuur van annotatoren die via rankings in modelgedrag belanden.
Reward hacking: De metric maximaliseren op manieren die de bedoelde gedrag schenden.
Alignment: Mate waarin gedrag matcht met de waarden/policies van de org.
Model drift: Gedragsverandering in de tijd door updates of verschuivende data.
Retraining risk: Update breekt compliance/goedkeuringen → change management nodig.
Upstream vs downstream: Governance vóór training (hoogste hefboom) vs. ná deployment (reactief).

Checkpoint

Quiz

Klik op je antwoord voor directe feedback.

VRAAG 1

Bij welke trainingsfase heeft de governance-professional de minste directe controle maar de hoogste downstream-hefboom?

Pre-training

Fine-tuning

RLHF

Deployment

Juist: pre-training. Bias hier propageert naar élke downstream-app, ongeacht hoe goed fine-tuning en alignment gaan. Investeren in training-data-governance levert de grootste reductie van downstream-risico.

VRAAG 2

Een organisatie fine-tunet een foundation model op haar eigen klantdata. Wat verandert er aan haar governance-positie?

Niets — ze blijft enkel AI-gebruiker

Ze wordt AI-developer met development-laag-verplichtingen (data-kwaliteit, bias, consent + her-evaluatie)

Alle verantwoordelijkheid verschuift naar de vendor

Sectorregels gelden niet meer op de data

Juist. Wie fine-tunet op eigen data is geen loutere gebruiker meer maar AI-developer. De fine-tuning-dataset draagt eigen data-kwaliteit-, bias- en consent-verplichtingen, en bij gevoelige data gelden sectorregels op de data zelf.

De drie trainingsfasen & hoe governance eraan hangt

Drie fasen → één modern LLM

Pre-training

Fine-tuning

RLHF

Wat je per fase controleert

Fase 1 · Pre-training — 4 data-governance-vragen

Fase 2 · Fine-tuning — de tweede governance-laag

Fase 3 · RLHF — drie governance-dimensies

Annotator bias

Reward hacking

Alignment as control

🔗 Link

Training data governance vs. output governance

Elke fase is een aparte audit-scope-item

Bij third-party modellen: due diligence over álle drie fasen

Drie termen rond trainings-risico

Alignment

Model drift

Retraining risk

🔗 Rode draad

Glossarium

Quiz