Overzicht › Domein 1 · Foundations › Les 12 · AI Ethics

Fairness- & Transparency-failures

Domein 1 · AI Ethics lec 14 Waar regulatory exposure leeft: diagnosticeer eerst de causal pathway, schrijf dán het treatment voor.

Kerngedachte
Mis je de failure mode, dan score je het event verkeerd → verkeerd treatment bij leadership. De examenvraag is steeds: kun je de root cause (pathway) juist diagnosticeren vóór je behandelt?

Vocabulaire

Drie ankertermen

Meetbaar

Disparate impact

De primaire observeerbare maat van een fairness failure: disproportioneel nadelige outcomes voor één demographic group — ook zonder discriminatory intent.

Event

Transparency failure

Outputs niet uitlegbaar aan affected parties, óf AI-involvement in een consequential decision niet disclosed.

Rest

Residual risk

Wat overblijft ná mitigations. Moet expliciet als acceptabel niveau gedefinieerd — controls elimineren risico niet volledig.

🔗 Link

Bouwt op les 7 (inherent→residual) en les 11 (fairness/transparency als principles).

Fairness — één output, drie wegen ernaartoe

Disparate impact via 3 causal pathways

Causal pathway	Wat gebeurt er	Control-respons
Biased training data	Historische records encoderen discriminatory patterns; het model reproduceert ze	Data remediation
Model drift	Model op balanced data herintroduceert disparity als de omgeving verandert	Retesting cadence
Feedback loop amplification	Outputs beïnvloeden de volgende trainingsdata → versterkt & versnelt bestaande disparities	Feedback loop isolation

Examenval
De pathways verwarren in een risk assessment → incomplete treatment plans. Elke weg heeft een eigen root cause en eigen control.

Transparency — ook drie wegen

Transparency failure via 3 causal pathways

Opaque decision outputs

Het model kan geen human-readable explanation produceren van waaróm het tot een resultaat kwam.

Undisclosed AI involvement

De org gebruikt AI voor een consequential decision zónder het affected individual te informeren.

Model card omissions

Documentatie weerspiegelt niet de échte training data, performance metrics of known limitations.

🎯 Wat het examen test

Diagnosticeer wélke pathway de failure veroorzaakte vóór je het treatment voorschrijft.

Inherent risk scoring

Drie gedocumenteerde fairness events

Case	Inherent score	Waarom
Resume ranking	High	Verhoogde regulatory action probability + snelle reputational velocity
Lending (lagere approval-rate voor één demographic)	Critical	Activeert consumer financial protection exposure + hoge class-action litigation probability
Health care (lagere acuity scores bij gelijke health indicators)	Critical	Physical harm + regulatory & licensure exposure + fiduciary duty breach

Geordend op effectiviteit, niet op kost

De mitigation hierarchies

Fairness — 4 niveaus

1 · MEEST EFFECTIEF

Eliminate by design

Use case herschalen of retrainen op balanced data vóór productie.

Monitor & flag

Automated bias testing op productie-outputs met thresholds.

Human review override

Reviewer met échte authority + info om de AI-recommendation te overriden.

4 · MINST

Compensatory redress

Post-event remediation voor wie al harm leed.

Transparency — 3 niveaus

1 · MEEST EFFECTIEF

Mandatory disclosure

AI-involvement gecommuniceerd aan affected individuals op/vóór het beslismoment.

Explainability tooling

Plain-language explanations — vereist voor alle high-stakes decision systems.

Stakeholder communication protocols

Templates + timelines om rationale te geven aan regulators/auditors/parties op verzoek.

Let op de volgorde
Een systeem met enkel control 3 (after-the-fact communication) heeft controls 1 en 2 niet voldaan. Het residual target ná de eerste controls moet vóór deployment gedefinieerd zijn — niet onderhandeld ná het eerste incident.

Residual verschilt per type

Wat blijft over — en hoe je het uitdrukt

	Fairness	Transparency
Waarom blijft residual	Geen testing cadence vangt 100% van drift events	Black box models: geen technisch haalbare explanation
Hoe uitdrukken / oplossen	Als een disparity threshold (bv. outcome rates binnen 5% across groups) — níét als "afwezigheid van risico"	Óf formeel accepteren met board/committee sign-off, óf migreren naar een interpretable model architecture

Waar het in de praktijk faalt

Stale evidence reset effective risk naar inherent

📉 Fairness-control niet hertest

Getest bij deployment, niet ná retraining → drift kan disparity hebben herintroduceerd; geen zicht op die exposure.

📄 Stale model card

Bij launch gemaakt, niet geüpdatet ná retraining → misrepresenteert de huidige performance. Transparency-controls erop draaien niet effectief.

📋 Designed maar niet enforced

Een disclosure protocol dat wel ontworpen maar niet afgedwongen is = dezelfde exposure als géén protocol.

⚠️ Het effect

Stale controls resetten de effective risk naar het inherent level. Alsof er geen control was.

Begrippen uit deze les

Glossarium

Disparate impact: Disproportioneel nadelige outcomes voor een demographic group, ook zonder discriminatory intent.
Transparency failure: Outputs niet uitlegbaar, of AI-involvement niet disclosed.
Biased training data: Pathway: historische discriminatory patterns die het model leert.
Feedback loop amplification: Pathway: outputs beïnvloeden volgende trainingsdata → versterkt disparity.
Eliminate by design: Meest effectieve fairness-control: rescope of retrain op balanced data vóór productie.
Compensatory redress: Minst effectief (post-event): remediation voor reeds geschade individuen.
Mandatory disclosure: Meest effectieve transparency-control: AI-involvement communiceren op/vóór beslismoment.
Disparity threshold: Manier om acceptabele residual fairness risk uit te drukken (bv. binnen 5%).
Black box model: Geen haalbare explanation → accepteren met sign-off of migreren naar interpretable model.
Stale control: Niet-herteste/niet-geüpdatete control; reset effective risk naar inherent level.

Checkpoint

Quiz

Klik op je antwoord voor directe feedback.

VRAAG 1

Een model op balanced data vertoont na een jaar tóch disparate impact omdat de omgeving veranderde. Welke pathway + control?

Biased training data → data remediation

Model drift → retesting cadence

Feedback loop amplification → feedback loop isolation

Opaque output → explainability tooling

Juist: model drift → retesting cadence. De disparity is niet ingebakken in de data, maar herintroduceerd doordat de deployment-omgeving veranderde. De juiste control is een herhaalde testcadans, niet data-remediation.

VRAAG 2

Hoe hoort acceptabele residual fairness risk uitgedrukt te worden?

Als "nul risico" — controls elimineren het volledig

Als een disparity threshold, bv. outcome rates binnen 5% across demographic groups

Als een vaag narratief ("we doen ons best")

Het hoeft niet gedefinieerd te worden vóór deployment

Juist. Geen testing cadence vangt 100% van de drift events, dus residual blijft bestaan. Druk het uit als een meetbare disparity threshold (bv. binnen 5%), expliciet gedefinieerd vóór deployment — niet als afwezigheid van risico.

← Terug naar overzicht