Wat is het?
Training is het proces waarbij een AI-model wordt gevormd door blootstelling aan grote hoeveelheden data. Het model past daarbij zijn interne parameters aan om patronen te herkennen en voorspellingen te doen. Bij een taalmodel als GPT of Claude bestaat die data voornamelijk uit tekst: boeken, websites, documenten en code.
Training is niet hetzelfde als programmeren. Een traditioneel softwareprogramma werkt op basis van regels die iemand heeft geschreven; een getraind AI-model werkt op basis van patronen die het zelf heeft afgeleid uit de voorbeelden in zijn trainingsdata. Dat verschil bepaalt wat AI kan en wat niet.
Waarom het ertoe doet voor het MKB
Voor een MKB-eigenaar is training relevant om te begrijpen wat een AI-model wel en niet weet, en waarom het soms tekortschiet op specifieke of recente informatie.
- De kennis van een model reikt tot aan zijn trainingsperiode: gebeurtenissen, wetgeving of productwijzigingen van daarna zijn het model niet bekend tenzij ze via de context worden aangeleverd.
- Een model dat getraind is op algemene Engelstalige tekst presteert minder goed op specifieke Nederlandse terminologie, brancheprocessen of interne procedures, tenzij het via fine-tuning of promptinstructies wordt bijgestuurd.
- De kwaliteit en diversiteit van de trainingsdata bepalen mede hoe betrouwbaar en evenwichtig het model is: een model dat getraind is op eenzijdige bronnen heeft een overeenkomstige vertekening in zijn output.
Weten dat een model leert via training in plaats van via regels helpt bij het realistisch inschatten van wat het kan leveren en waar menselijke controle blijft gelden.
Hoe het werkt
Training verloopt in iteraties: het model maakt een voorspelling op basis van de huidige data, vergelijkt die met het gewenste resultaat en past zijn interne parameters aan om de fout te verkleinen. Dat proces herhaalt zich miljarden keren over de trainingsdata.
- De trainingsdata wordt voorbereid en gesplitst in invoer-uitvoer-paren of opeenvolgende tekst.
- Het model maakt op basis van de invoer een voorspelling voor de volgende stap of token.
- Het verschil tussen de voorspelling en de werkelijke waarde wordt berekend als verliesfunctie.
- Via terugpropagatie worden de interne parameters van het model bijgesteld om de fout te verkleinen.
- Dit proces herhaalt zich over de volledige dataset, meerdere keren als nodig, totdat het model goed genoeg presteert.
Na training wordt het model getest op data die het nog niet heeft gezien, om te controleren of het generaliseert en niet alleen de trainingsexamples heeft onthouden. Grote modellen als GPT-4 of Claude doorlopen dit proces op servers van provider-schaal, niet op de eigen hardware van een bedrijf.
Voorbeeld uit de praktijk
Stel, een recruitmentbureau wil een AI-tool die vacatureteksten schrijft in de huishoudensstijl van het bedrijf. Het bureau verzamelt honderd goed beoordeelde vacatureteksten uit de afgelopen jaren en gebruikt die als finetuning-data bovenop een bestaand taalmodel. Na het trainingsproces schrijft het model automatisch in de juiste toon, met de gebruikelijke opbouw en de terminologie die klanten van het bureau herkennen. De training heeft het generieke model omgevormd tot een tool die past bij de eigen identiteit.
Vergelijking en misvattingen
Training vormt het model op basis van historische data en bepaalt wat het generiek weet; fine-tuning is een gerichte vervolgtraining op specifieke data om het model te specialiseren. RAG (retrieval-augmented generation) voegt actuele informatie toe via de context in plaats van het model opnieuw te trainen. Voor de meeste MKB-toepassingen is RAG de praktische keuze; training en fine-tuning zijn voor specialistische situaties.

