Leert algemene taalpatronen uit een enorme dataset. Alles wat het model "weet" — én elke bias in de data — wordt hier ingebed, op de breedst mogelijke schaal.
→Aangepast aan een specifieke taak met een kleinere, gecureerde dataset. Erft pre-training-bias + voegt taakgedrag toe dat apart gevalideerd moet worden.
→Mensen rangschikken outputs; het model traint richting hoger gerangschikte outputs. Hier gebeuren alignment en gedrags-shaping.
| Vraag | Waar het op let |
|---|---|
| Data provenance | Welke bronnen, onder welke licenties? |
| Bias exposure | Ondervertegenwoordigde groepen, geografische of temporele skew die gebruikers systematisch benadeelt? |
| Copyright & consent | Is de data met de juiste rechten verzameld? |
| Data poisoning | Was de dataset blootgesteld aan kwaadaardige injectie die gedrag subtiel verschuift? |
Bij third-party modellen: antwoorden via vendor-documentatie & model cards, niet directe inspectie. Onvolledige antwoorden = third-party risk findings.
Annotatoren bedden hun waarden & cultuur in via hun rankings. Niet-diverse pool → systematische blind spots. Selectie & diversiteit zijn controls, geen QA.
Model maximaliseert de metric op manieren die intentie schenden — outputs die scoren maar subtiel manipulatief/sycophantisch zijn. Continue gedrags-evaluatie nodig.
RLHF codeert beleid, safety-eisen en juridische grenzen in gedrag. Vraag: welke commitments zijn gemaakt en hoe worden ze geverifieerd?
RLHF kwam al voorbij in les 2 als alignment-stap — hier zie je waaróm die stap een governance-control is.
Beide pakken hetzelfde onderliggende risico aan — vanaf een andere plek in de pipeline.
| Training data governance (upstream) | Output governance (downstream) | |
|---|---|---|
| Wanneer | Vóór & tijdens training | Ná deployment |
| Dekt | Data-sourcing, consent, bias-audits, poisoning-detectie, documentatie | Output monitoring, content-policies, human review, incident response |
| Omkeerbaarheid | Moeilijk terug te draaien zonder volledige hertraining | Reactief — vangt slechte outputs ná het feit |
| Hefboom | Hoogste — grootste reductie van downstream-risico | Essentieel, maar behandelt symptomen als het alleen wordt gebruikt |
Een audit die alleen het gedeployde model bekijkt, mist het grootste deel van de pipeline. Specificeer scope-grenzen expliciet.
| Fase | Audit-scope dekt |
|---|---|
| Pre-training | Data provenance, licensing, bias-evaluatie, data-poisoning-controls |
| Fine-tuning | Dataset-documentatie, her-evaluatie ná adaptatie, change management voor model-updates |
| RLHF | Annotator-selectie, diversiteit-controls, reward-hacking-detectie, alignment-commitments |
| Deployment | Output monitoring, incident response, human-in-the-loop-ontwerp, KRI-tracking |
Documentatie-verzoeken & contractuele commitments zijn dan je primaire hefbomen: vraag model cards, fine-tuning-methodologie, alignment-commitments én notificatietermijnen bij updates (mét recht om adoptie uit te stellen voor her-evaluatie). Gaps = third-party risk findings in het register.
Hoe goed outputs/gedrag matchen met de waarden, policies en grenzen die de org bedoelt. RLHF vermindert misalignment maar elimineert het niet → gedragsmonitoring is niet optioneel.
Gedrag verandert in de tijd — door vendor-updates of doordat echte-wereld-data wegdrijft van de trainingsdistributie. Vraagt continue monitoring vóór het een incident wordt.
Een update wijzigt gedrag → breekt compliance, introduceert bias of maakt eerdere goedkeuringen ongeldig. Hier gelden change management controls voor AI.
Upstream-governance (training) geeft meer hefboom dan downstream-monitoring achteraf. Volgende les: inference & agentic AI — waar de gevolgen écht landen.
Klik op je antwoord voor directe feedback.