Wat is het?
Inferentie is wat een AI-model doet op het moment dat je het gebruikt. Na de trainingsfase, waarin het model heeft geleerd, komt de inferentiefase: het model ontvangt nieuwe data en genereert output op basis van wat het heeft geleerd.
Elke keer dat je een vraag stelt aan ChatGPT, een document laat samenvatten of een AI-agent een taak laat uitvoeren, vindt er inferentie plaats. Inferentie is het draaiende gebruik van het model, in tegenstelling tot training, dat eenmalig of periodiek plaatsvindt.
Waarom het ertoe doet voor het MKB
Voor het MKB is inferentie de fase die direct zichtbaar is in kosten en snelheid. Hoe efficiënter een model inferentie uitvoert, hoe sneller en goedkoper je AI-toepassingen draaien.
- Elke API-aanroep naar een taalmodel is een inferentie-aanroep: de kosten per gebruik, de latency en de schaalbaarheid van je AI-oplossing hangen direct samen met hoe inferentie is ingericht.
- De keuze tussen modellen draait deels op inferentiekosten: een kleiner model dat snel en goedkoop infereert kan voor routinetaken betere economie bieden dan een groot model.
- Bij hoog volume, zoals duizenden documenten verwerken, bepaalt inferentiesnelheid of een proces praktisch haalbaar is of niet.
Begrijpen wat inferentie is, helpt bij het vergelijken van AI-diensten op prijs en snelheid, en bij het bouwen van schaalbare workflows.
Hoe het werkt
Bij inferentie verwerkt het model de invoer via zijn geleerde parameters en genereert stap voor stap output. Voor taalmodellen betekent dat het token voor token voorspellen van de meest waarschijnlijke tekst. Dit proces vindt plaats op servers bij de aanbieder of, voor kleinere modellen, lokaal.
- Input ontvangen: de prompt, het document of de data wordt aangeboden aan het model.
- Verwerking via parameters: het model verwerkt de input door zijn lagen van geleerde gewichten.
- Tokenpredicties: voor taalmodellen genereert het model het antwoord token voor token.
- Output retourneren: het resultaat wordt teruggestuurd naar de aanroepende applicatie.
- Kosten en latency: de omvang van het model en het aantal tokens bepalen hoe snel en duur de inferentie is.
Inferentie is in principe stateless: elk verzoek wordt onafhankelijk behandeld. Geheugen en context voor langere gesprekken worden extern beheerd, niet in het model zelf.
Voorbeeld uit de praktijk
Stel, een uitzendbureau verwerkt dagelijks honderden cv's via een AI-systeem dat automatisch relevante ervaringen en vaardigheden markeert. Elke keer dat het systeem een cv verwerkt, voert het model inferentie uit: het leest de tekst, past zijn geleerde kennis toe en genereert een gestructureerde samenvatting. Bij honderd cv's per dag zijn dat honderd inferentie-aanroepen; bij duizend is dat tien keer zo duur en tien keer zo langzaam, tenzij het systeem is gebouwd om dat volume te dragen.
Vergelijking en misvattingen
Training is het leerproces waarbij het model zijn parameters instelt op basis van data: dat gebeurt eenmalig of periodiek en kost veel rekenkracht. Inferentie is het gebruik van het getrainde model op nieuwe data: dat gebeurt bij elke aanroep en is beduidend goedkoper en sneller dan training.

