Inference

Wat er onder de motorkap gebeurt elke keer dat je een AI-model iets vraagt: het model redeneert van input naar output.

Inferentie, model inference

Definitie

Inferentie is het proces waarbij een getraind AI-model nieuwe invoergegevens verwerkt en op basis daarvan output genereert, zoals een antwoord, een classificatie of een beslissing.

Wat is het?

Inferentie is wat een AI-model doet op het moment dat je het gebruikt. Na de trainingsfase, waarin het model heeft geleerd, komt de inferentiefase: het model ontvangt nieuwe data en genereert output op basis van wat het heeft geleerd.

Elke keer dat je een vraag stelt aan ChatGPT, een document laat samenvatten of een AI-agent een taak laat uitvoeren, vindt er inferentie plaats. Inferentie is het draaiende gebruik van het model, in tegenstelling tot training, dat eenmalig of periodiek plaatsvindt.

Waarom het ertoe doet voor het MKB

Voor het MKB is inferentie de fase die direct zichtbaar is in kosten en snelheid. Hoe efficiënter een model inferentie uitvoert, hoe sneller en goedkoper je AI-toepassingen draaien.

  • Elke API-aanroep naar een taalmodel is een inferentie-aanroep: de kosten per gebruik, de latency en de schaalbaarheid van je AI-oplossing hangen direct samen met hoe inferentie is ingericht.
  • De keuze tussen modellen draait deels op inferentiekosten: een kleiner model dat snel en goedkoop infereert kan voor routinetaken betere economie bieden dan een groot model.
  • Bij hoog volume, zoals duizenden documenten verwerken, bepaalt inferentiesnelheid of een proces praktisch haalbaar is of niet.

Begrijpen wat inferentie is, helpt bij het vergelijken van AI-diensten op prijs en snelheid, en bij het bouwen van schaalbare workflows.

Hoe het werkt

Bij inferentie verwerkt het model de invoer via zijn geleerde parameters en genereert stap voor stap output. Voor taalmodellen betekent dat het token voor token voorspellen van de meest waarschijnlijke tekst. Dit proces vindt plaats op servers bij de aanbieder of, voor kleinere modellen, lokaal.

  1. Input ontvangen: de prompt, het document of de data wordt aangeboden aan het model.
  2. Verwerking via parameters: het model verwerkt de input door zijn lagen van geleerde gewichten.
  3. Tokenpredicties: voor taalmodellen genereert het model het antwoord token voor token.
  4. Output retourneren: het resultaat wordt teruggestuurd naar de aanroepende applicatie.
  5. Kosten en latency: de omvang van het model en het aantal tokens bepalen hoe snel en duur de inferentie is.

Inferentie is in principe stateless: elk verzoek wordt onafhankelijk behandeld. Geheugen en context voor langere gesprekken worden extern beheerd, niet in het model zelf.

Voorbeeld uit de praktijk

Stel, een uitzendbureau verwerkt dagelijks honderden cv's via een AI-systeem dat automatisch relevante ervaringen en vaardigheden markeert. Elke keer dat het systeem een cv verwerkt, voert het model inferentie uit: het leest de tekst, past zijn geleerde kennis toe en genereert een gestructureerde samenvatting. Bij honderd cv's per dag zijn dat honderd inferentie-aanroepen; bij duizend is dat tien keer zo duur en tien keer zo langzaam, tenzij het systeem is gebouwd om dat volume te dragen.

Vergelijking en misvattingen

Training is het leerproces waarbij het model zijn parameters instelt op basis van data: dat gebeurt eenmalig of periodiek en kost veel rekenkracht. Inferentie is het gebruik van het getrainde model op nieuwe data: dat gebeurt bij elke aanroep en is beduidend goedkoper en sneller dan training.

Veelgestelde vragen

Wat is inference in de context van AI?
Inference is het moment waarop een getraind AI-model een voorspelling of antwoord genereert op basis van nieuwe input. Het is het tegenovergestelde van training: in plaats van leren uit data, past het model zijn kennis toe. Elke keer dat je een vraag stelt aan ChatGPT of een AI-stap een document verwerkt, is dat inference.
Kost inference veel geld en rekenkracht?
Dat hangt af van het model en de hoeveelheid verzoeken. Kleine, geoptimaliseerde modellen zijn goedkoop en snel. Grote modellen zoals GPT-4o kosten meer per verzoek. Bij API-gebruik betaal je per token; bij hoge volumes lonen kleinere modellen of lokale inference. Voor de meeste MKB-toepassingen zijn de kosten goed te overzien.
Wat is het verschil tussen inference en training?
Training is het proces waarbij een model patronen leert uit grote hoeveelheden data; dat gebeurt eenmalig of periodiek en is computationeel duur. Inference is het toepassen van dat geleerde model op nieuwe input; dat gebeurt snel en herhaaldelijk bij elk gebruik. Als je een AI-tool gebruikt, doe je altijd inference, nooit training.
Van inzicht naar impact

Benieuwd wat AI
in jouw processen oplevert?

In een gratis kennismaking kijken we waar AI bij jou het meeste tijd bespaart, en hoe een verbonden opzet eruitziet.