Context Window

Hoe groter het venster, hoe meer context het model meeneemt en hoe minder je handmatig hoeft op te knippen.

context window, contextlengte, tokenvenster

Definitie

De maximale hoeveelheid informatie, uitgedrukt in tokens, die een AI-model tegelijk kan meenemen bij het genereren van een antwoord.

Wat is het?

Het context window is de werkruimte van een taalmodel: alles wat het model op een gegeven moment kan 'zien' bij het formuleren van een antwoord. Dat omvat de systeeminstructies, de gespreksgeschiedenis, de documenten die je meegeeft en de vraag zelf. Zodra de inhoud groter is dan het venster, valt het oudste materiaal weg.

Context windows worden gemeten in tokens, waarbij een token ruwweg overeenkomt met drie tot vier tekens. Moderne modellen zoals GPT-4o of Gemini 1.5 Pro bieden vensters van honderdduizenden tokens, genoeg voor een volledig contract of dossier. Oudere of kleinere modellen werken met een fractie daarvan, wat bepaalt hoeveel je in een enkel gesprek kunt verwerken.

Waarom het ertoe doet voor het MKB

Voor het MKB is de grootte van het context window direct voelbaar in de praktijk. Wie een AI vraagt een lang contract samen te vatten, een volledig dossier te doorzoeken of een uitgebreide e-mailwisseling te beoordelen, loopt tegen de grens aan als het venster te klein is. Dan moet je zelf knippen en plakken, wat het voordeel van automatisering deels tenietdoet.

  • Meer context geeft betere antwoorden. Het model hoeft niet te gissen over eerder besproken details als die nog steeds in het venster staan, waardoor de uitkomst consistenter en nauwkeuriger is.
  • Minder handmatig gesegmenteer. Een groter venster betekent dat je een heel contract, rapport of klantenhistorie in een keer kunt insturen zonder het zelf op te splitsen.
  • Snellere verwerking van complexe dossiers. Accountants, makelaars en recruiters die met uitgebreide klantdossiers werken, profiteren direct van modellen met een ruimer venster.

De praktische les: stem de grootte van het context window af op de omvang van je documenten. Wie met lange of complexe stukken werkt, kiest een model dat dat volume aankan.

Hoe het werkt

Het context window werkt als een schuifvenster over de conversatie. Alles wat je inbrengt, inclusief instructies, gesprekshistorie en meegestuurde bestanden, wordt omgezet in tokens. Zolang het totaal onder de limiet blijft, ziet het model het geheel. Zodra je de grens overschrijdt, verdwijnt het oudste materiaal automatisch.

  1. Elk stuk tekst, instructie of document wordt opgesplitst in tokens.
  2. Het model telt alle tokens op tot de maximale limiet van het gekozen model.
  3. Bij het genereren van het antwoord kijkt het model alleen naar de tokens die nog in het venster passen.
  4. Oudere tokens die de limiet overschrijden worden stilzwijgend afgekapt, tenzij je het gesprek opnieuw opzet.
  5. Bij RAG-toepassingen worden alleen de meest relevante fragmenten in het venster geladen om ruimte te besparen.

Dat afkappen is de reden dat lange gesprekken na verloop van tijd inconsistent kunnen worden. Wie dat wil voorkomen, vat tussentijds samen of werkt met een model met een groter venster.

Voorbeeld uit de praktijk

Stel, een administratiekantoor wil een AI-assistent inzetten die vragen beantwoordt over een compleet klantdossier met btw-aangifte, jaarrekening en correspondentie van het afgelopen jaar. Dat dossier beslaat tientallen pagina's. Met een klein context window kan de assistent maar een deel van de stukken tegelijk verwerken en mist hij verbanden tussen vroege en latere stukken. Met een ruimer venster past het volledige dossier in een keer, zodat de assistent verbanden legt over het gehele jaar en zonder extra tussenkomst antwoord kan geven.

Vergelijking en misvattingen

Het context window bepaalt hoeveel tekst het model nu ziet; het geheugen van een AI-agent bepaalt wat het model tussen sessies onthoudt. Het venster is vluchtig en wordt bij elke nieuwe sessie gereset, terwijl agentgeheugen bewust wordt opgeslagen en teruggeladen.

Veelgestelde vragen

Wat is een context window en waarom is het beperkt?
Het context window is de hoeveelheid tekst die een AI-model tegelijk kan verwerken: de huidige vraag, eerdere berichten en eventueel meegestuurde documenten samen. Het is beperkt omdat het model al die tekst actief in zijn werkgeheugen houdt. Hoe groter het window, hoe meer rekenkracht nodig.
Wat gebeurt er als je het context window overschrijdt?
Oudere informatie valt buiten het bereik van het model. Het vergeet wat er eerder in het gesprek is gezegd, of het begin van een lang document. In praktische toepassingen los je dat op met technieken als samenvatten, RAG of context-injectie: je geeft het model alleen de meest relevante stukken mee.
Hoe groot moet een context window zijn voor zakelijke toepassingen?
Dat hangt af van de taak. Voor korte e-mails of eenvoudige vragen is een klein window voldoende. Voor toepassingen waarbij het model lange contracten, rapporten of gesprekken in één keer moet overzien, heb je meer ruimte nodig. Modellen als GPT-4o en Claude ondersteunen inmiddels windows van 128.000 tot meer dan een miljoen tokens.
Van inzicht naar impact

Benieuwd wat AI
in jouw processen oplevert?

In een gratis kennismaking kijken we waar AI bij jou het meeste tijd bespaart, en hoe een verbonden opzet eruitziet.