AIGP Zelfstudie
Overzicht › Domein 1 · Foundations › Les 5

Inference-architectuur & agentic AI

Domein 1 · Foundations Les 5 Waar elk business-gevolg van een AI-systeem écht landt — en de hoogste governance-complexiteit van vandaag.
Kerngedachte
Elk business-gevolg gebeurt op inference-tijd — wanneer het model draait. Training-governance voorkomt slechte modellen; inference-governance voorkomt dat slechte outputs op schaal mensen bereiken. Deployment-schaal en autonomieniveau bepalen het risicoprofiel.
Fundament

Drie termen voor inference-governance

BASIS

Inference

Een getraind model op nieuwe inputs draaien om outputs te maken. Elk gevolg (krediet, hiring, klantantwoord) gebeurt hier.

+ DOCUMENTEN

RAG

Retrieval-Augmented Generation: gronden in externe documenten die bij inference worden opgehaald → minder hallucinatie, maar een extra retrieval-laag.

+ AUTONOMIE

Agentic AI

LLM plant & voert multi-step taken uit (web, code, API's, files) met weinig/geen goedkeuring per stap. Hoogste governance-complexiteit van nu.

Basisposture

Vier inference-controls

Bij een geërfd AI-systeem: verifieer alle vier vóór je voortzetting goedkeurt.

1

Access control

Wie mag het model bevragen en onder welke voorwaarden? Authenticatie, autorisatie, role-based access.

2

Input validation

Prompts screenen vóór verwerking: injection-patronen, gevoelige data, out-of-scope use.

3

Output monitoring

Doorlopend (niet enkel bij deployment) op accuracy, bias, policy en schadelijke content.

4

Rate & cost limiting

Voorkomt runaway-gebruik → operationele of financiële exposure.

De retrieval-laag

RAG = tweede governance-oppervlak

RAG bestrijdt hallucinatie door te gronden in opgehaalde documenten — maar de retrieval-laag heeft eigen verplichtingen.

ControlWaarom
Document access controlsWelke documenten/bronnen mag het model ophalen? Zonder dit toont RAG documenten die de gebruiker niet mag zien — een data-access-gap, niet enkel een AI-gap.
Data freshness controlsZijn opgehaalde docs recent geverifieerd? RAG die compliance-vragen met verouderde docs beantwoordt = compliance-risico, zélfs als het model correct werkt.
Source attributionWelke docs informeerden een antwoord? Nodig voor auditeerbaarheid en onderzoek; zonder is een fout antwoord nauwelijks te traceren.
Een governance-tier hoger

Standaard inference vs. agentic AI

Standaard inferenceAgentic AI
FlowGebruiker prompt → model antwoordt → mens beslistModel krijgt doel → plant & voert acties uit zonder goedkeuring per stap
BegrenzingDe menselijke beslislaag begrenst gevolgenGevolgen propageren over meerdere systemen vóór review
Focus governanceInput-validatie & output-kwaliteitAction-level controls, scope-grenzen, human checkpoints
Trigger
De overgang van standaard inference naar agentic deployment is een governance-tier-wijziging die een nieuwe risk assessment hoort te triggeren.

Vier agentic-specifieke controls

1

Scope boundaries

Welke acties/systemen/files/API's mag de agent? Scope creep → unauthorized-action-risk dat opstapelt.

2

Human checkpoints

Goedkeuring vóór onomkeerbare acties, externe communicatie, grote uitgaven. Vooraf in de architectuur ontwerpen.

3

Action logging

Elke actie loggen met genoeg detail voor forensisch onderzoek. Zonder logs geen incident-onderzoek mogelijk.

4

Rollback capability

Documenteer welke acties omkeerbaar zijn; bouw extra autorisatie specifiek voor onomkeerbare acties.

De grootste bedreiging

Prompt injection — gevaarlijker bij agentic

↪️ Direct injection

Aanvaller manipuleert gebruikersinput. In chat → een slecht antwoord. In agentic → ongeautoriseerde acties.

📄 Indirect injection

Instructies verstopt in een document/webpagina die de agent ophaalt. Het model leest ze als legitieme content en volgt ze. Live vector bij agents die externe content ophalen.

Consequence amplification
Een geslaagde injectie kan file-deletie, ongeautoriseerde API-calls en data-exfiltratie triggeren — allemaal vóór een mens de output ziet. Red-team-testing voor beide types is verplicht vóór deployment-goedkeuring.
Vaak onderschat

Vier kostendrijvers bij inference

DrijverEffect
Model sizeMeer parameters → meer compute per query → schaalt met volume
Context lengthLangere prompts + meer opgehaalde docs kosten meer (context-budget telt, ook bij groot window)
Output lengthLangere antwoorden kosten meer om te genereren
Agentic complexiteitKosten schalen niet-lineair: één complexe taak triggert tientallen inference-calls

Stel KRI's voor inference-kost in bij deployment, met alert-drempels die review triggeren vóór het een operationeel incident wordt.

Brug naar de risk-taxonomie

Drie verbindende concepten

1

Autonomous action risk

Risico dat een systeem een echte-wereld-actie neemt zónder review op het moment van handelen. Schaalt met autonomie én omkeerbaarheid: aanraden < uitvoeren.

2

Model cascades

Output van één model = input van het volgende. Fouten stapelen en versterken → de pipeline-foutmarge ligt hoger dan die van elk afzonderlijk model.

3

Human-in-the-loop

Design-pattern: menselijke review op gedefinieerde checkpoints vóór ingrijpende outputs. De mate van betrokkenheid is een risk-treatment-beslissing.

🔗 Rode draad

Autonomieniveau + omkeerbaarheid van acties bepalen samen hoe zwaar de governance-overlay moet zijn. Volgende les: de 7 AI-risicocategorieën.

Begrippen uit deze les

Glossarium

Inference
Een getraind model op nieuwe inputs draaien om outputs te produceren.
RAG
Retrieval-Augmented Generation: antwoorden gronden in bij inference opgehaalde documenten.
Agentic AI
LLM dat multi-step taken plant & uitvoert met weinig/geen goedkeuring per stap.
Input validation
Prompts screenen op injection/gevoelige data/out-of-scope vóór verwerking.
Source attribution
Bijhouden welke documenten een antwoord informeerden (auditeerbaarheid).
Scope boundaries
Welke acties/systemen/API's een agent mag gebruiken.
Human checkpoint
Verplichte menselijke goedkeuring vóór onomkeerbare/ingrijpende acties.
Direct vs. indirect injection
Manipulatie via gebruikersinput vs. via instructies verstopt in opgehaalde content.
Consequence amplification
Eén injectie triggert ingrijpende acties vóór menselijke review.
Autonomous action risk
Risico van handelen zonder review; schaalt met autonomie + omkeerbaarheid.
Model cascade
Pipeline waarin modeloutputs elkaars input zijn; fouten stapelen.
Human-in-the-loop (HITL)
Design-pattern met menselijke review op checkpoints; een risk-treatment-keuze.
Checkpoint

Quiz

Klik op je antwoord voor directe feedback.

VRAAG 1
Waarom is indirecte prompt injection een live aanvalsvector specifiek bij agentic systemen?
Agents gebruiken nooit externe content
De agent haalt externe documenten/pagina's op met verstopte instructies en volgt ze als legitiem — wat ongeautoriseerde acties kan triggeren vóór review
Het verlaagt de inference-kost
Het geldt alleen voor single-turn chat
Juist. Bij indirecte injectie staan instructies in een document/webpagina die de agent ophaalt tijdens de taak. Door consequence amplification kan dat file-deletie, API-calls of exfiltratie triggeren vóór een mens kijkt. Red-team beide types.
VRAAG 2
Een RAG-systeem toont een gebruiker een document waar die geen toegang toe zou mogen hebben. Welke control ontbreekt?
Data freshness controls
Rate limiting
Document access controls — een data-access-gap, niet enkel een AI-gap
Source attribution
Juist. Document access controls bepalen welke documenten/bronnen het model mag ophalen. Ontbreken ze, dan surfacet RAG content die de bevragende gebruiker niet mag zien — een data-access-control-gap.
← Terug naar overzicht