Wat is het?
Het context window is de werkruimte van een taalmodel: alles wat het model op een gegeven moment kan 'zien' bij het formuleren van een antwoord. Dat omvat de systeeminstructies, de gespreksgeschiedenis, de documenten die je meegeeft en de vraag zelf. Zodra de inhoud groter is dan het venster, valt het oudste materiaal weg.
Context windows worden gemeten in tokens, waarbij een token ruwweg overeenkomt met drie tot vier tekens. Moderne modellen zoals GPT-4o of Gemini 1.5 Pro bieden vensters van honderdduizenden tokens, genoeg voor een volledig contract of dossier. Oudere of kleinere modellen werken met een fractie daarvan, wat bepaalt hoeveel je in een enkel gesprek kunt verwerken.
Waarom het ertoe doet voor het MKB
Voor het MKB is de grootte van het context window direct voelbaar in de praktijk. Wie een AI vraagt een lang contract samen te vatten, een volledig dossier te doorzoeken of een uitgebreide e-mailwisseling te beoordelen, loopt tegen de grens aan als het venster te klein is. Dan moet je zelf knippen en plakken, wat het voordeel van automatisering deels tenietdoet.
- Meer context geeft betere antwoorden. Het model hoeft niet te gissen over eerder besproken details als die nog steeds in het venster staan, waardoor de uitkomst consistenter en nauwkeuriger is.
- Minder handmatig gesegmenteer. Een groter venster betekent dat je een heel contract, rapport of klantenhistorie in een keer kunt insturen zonder het zelf op te splitsen.
- Snellere verwerking van complexe dossiers. Accountants, makelaars en recruiters die met uitgebreide klantdossiers werken, profiteren direct van modellen met een ruimer venster.
De praktische les: stem de grootte van het context window af op de omvang van je documenten. Wie met lange of complexe stukken werkt, kiest een model dat dat volume aankan.
Hoe het werkt
Het context window werkt als een schuifvenster over de conversatie. Alles wat je inbrengt, inclusief instructies, gesprekshistorie en meegestuurde bestanden, wordt omgezet in tokens. Zolang het totaal onder de limiet blijft, ziet het model het geheel. Zodra je de grens overschrijdt, verdwijnt het oudste materiaal automatisch.
- Elk stuk tekst, instructie of document wordt opgesplitst in tokens.
- Het model telt alle tokens op tot de maximale limiet van het gekozen model.
- Bij het genereren van het antwoord kijkt het model alleen naar de tokens die nog in het venster passen.
- Oudere tokens die de limiet overschrijden worden stilzwijgend afgekapt, tenzij je het gesprek opnieuw opzet.
- Bij RAG-toepassingen worden alleen de meest relevante fragmenten in het venster geladen om ruimte te besparen.
Dat afkappen is de reden dat lange gesprekken na verloop van tijd inconsistent kunnen worden. Wie dat wil voorkomen, vat tussentijds samen of werkt met een model met een groter venster.
Voorbeeld uit de praktijk
Stel, een administratiekantoor wil een AI-assistent inzetten die vragen beantwoordt over een compleet klantdossier met btw-aangifte, jaarrekening en correspondentie van het afgelopen jaar. Dat dossier beslaat tientallen pagina's. Met een klein context window kan de assistent maar een deel van de stukken tegelijk verwerken en mist hij verbanden tussen vroege en latere stukken. Met een ruimer venster past het volledige dossier in een keer, zodat de assistent verbanden legt over het gehele jaar en zonder extra tussenkomst antwoord kan geven.
Vergelijking en misvattingen
Het context window bepaalt hoeveel tekst het model nu ziet; het geheugen van een AI-agent bepaalt wat het model tussen sessies onthoudt. Het venster is vluchtig en wordt bij elke nieuwe sessie gereset, terwijl agentgeheugen bewust wordt opgeslagen en teruggeladen.

