Training

Het proces waarmee een AI-model leert: niet geprogrammeerd door regels, maar gevormd door data.

Training, modeltraining, trainen

Definitie

Training is het proces waarbij een AI-model patronen leert door herhaaldelijk te worden blootgesteld aan grote datasets, zodat het daarna in staat is om taken als tekstgeneratie, classificatie of redeneren uit te voeren.

Wat is het?

Training is het proces waarbij een AI-model wordt gevormd door blootstelling aan grote hoeveelheden data. Het model past daarbij zijn interne parameters aan om patronen te herkennen en voorspellingen te doen. Bij een taalmodel als GPT of Claude bestaat die data voornamelijk uit tekst: boeken, websites, documenten en code.

Training is niet hetzelfde als programmeren. Een traditioneel softwareprogramma werkt op basis van regels die iemand heeft geschreven; een getraind AI-model werkt op basis van patronen die het zelf heeft afgeleid uit de voorbeelden in zijn trainingsdata. Dat verschil bepaalt wat AI kan en wat niet.

Waarom het ertoe doet voor het MKB

Voor een MKB-eigenaar is training relevant om te begrijpen wat een AI-model wel en niet weet, en waarom het soms tekortschiet op specifieke of recente informatie.

  • De kennis van een model reikt tot aan zijn trainingsperiode: gebeurtenissen, wetgeving of productwijzigingen van daarna zijn het model niet bekend tenzij ze via de context worden aangeleverd.
  • Een model dat getraind is op algemene Engelstalige tekst presteert minder goed op specifieke Nederlandse terminologie, brancheprocessen of interne procedures, tenzij het via fine-tuning of promptinstructies wordt bijgestuurd.
  • De kwaliteit en diversiteit van de trainingsdata bepalen mede hoe betrouwbaar en evenwichtig het model is: een model dat getraind is op eenzijdige bronnen heeft een overeenkomstige vertekening in zijn output.

Weten dat een model leert via training in plaats van via regels helpt bij het realistisch inschatten van wat het kan leveren en waar menselijke controle blijft gelden.

Hoe het werkt

Training verloopt in iteraties: het model maakt een voorspelling op basis van de huidige data, vergelijkt die met het gewenste resultaat en past zijn interne parameters aan om de fout te verkleinen. Dat proces herhaalt zich miljarden keren over de trainingsdata.

  1. De trainingsdata wordt voorbereid en gesplitst in invoer-uitvoer-paren of opeenvolgende tekst.
  2. Het model maakt op basis van de invoer een voorspelling voor de volgende stap of token.
  3. Het verschil tussen de voorspelling en de werkelijke waarde wordt berekend als verliesfunctie.
  4. Via terugpropagatie worden de interne parameters van het model bijgesteld om de fout te verkleinen.
  5. Dit proces herhaalt zich over de volledige dataset, meerdere keren als nodig, totdat het model goed genoeg presteert.

Na training wordt het model getest op data die het nog niet heeft gezien, om te controleren of het generaliseert en niet alleen de trainingsexamples heeft onthouden. Grote modellen als GPT-4 of Claude doorlopen dit proces op servers van provider-schaal, niet op de eigen hardware van een bedrijf.

Voorbeeld uit de praktijk

Stel, een recruitmentbureau wil een AI-tool die vacatureteksten schrijft in de huishoudensstijl van het bedrijf. Het bureau verzamelt honderd goed beoordeelde vacatureteksten uit de afgelopen jaren en gebruikt die als finetuning-data bovenop een bestaand taalmodel. Na het trainingsproces schrijft het model automatisch in de juiste toon, met de gebruikelijke opbouw en de terminologie die klanten van het bureau herkennen. De training heeft het generieke model omgevormd tot een tool die past bij de eigen identiteit.

Vergelijking en misvattingen

Training vormt het model op basis van historische data en bepaalt wat het generiek weet; fine-tuning is een gerichte vervolgtraining op specifieke data om het model te specialiseren. RAG (retrieval-augmented generation) voegt actuele informatie toe via de context in plaats van het model opnieuw te trainen. Voor de meeste MKB-toepassingen is RAG de praktische keuze; training en fine-tuning zijn voor specialistische situaties.

Veelgestelde vragen

Wat is AI-training?
Training is het proces waarbij een AI-model leert van grote hoeveelheden data. Het model past zijn interne parameters iteratief aan totdat het de patronen in de data goed kan voorspellen of reproduceren. Training is eenmalig of periodiek en vraagt veel rekenkracht. Na de training is het model klaar voor gebruik via inference.
Moeten MKB-bedrijven hun eigen modellen trainen?
Nee, bijna nooit. Foundation models van OpenAI, Anthropic en Google zijn al getraind op enorme hoeveelheden data. MKB-bedrijven gebruiken die modellen via een API en passen het gedrag aan via instructies of context. Zelf trainen is kostbaar, tijdrovend en vereist specialistische kennis.
Wat is het verschil tussen training en fine-tuning?
Training bouwt het model van de grond af op basis van een breed dataset. Fine-tuning neemt een bestaand getraind model en past het aan op een kleiner, specifieker dataset om het gedrag te verfijnen voor een bepaald domein. Fine-tuning is sneller en goedkoper dan training, maar bouwt altijd voort op een al bestaand model.
Van inzicht naar impact

Benieuwd wat AI
in jouw processen oplevert?

In een gratis kennismaking kijken we waar AI bij jou het meeste tijd bespaart, en hoe een verbonden opzet eruitziet.