Wat is het?
Retrieval-Augmented Generation (RAG) is een techniek waarbij een taalmodel, voordat het een antwoord genereert, relevante passages ophaalt uit een externe kennisbron. Die opgehaalde passages worden als context meegegeven in de prompt, zodat het model zijn antwoord baseert op jouw specifieke documenten in plaats van uitsluitend op zijn training.
RAG is de meest gebruikte aanpak om taalmodellen te koppelen aan bedrijfsspecifieke kennis: contracten, procedures, klantdossiers, wet- en regelgeving. Zonder RAG antwoordt een model op basis van algemene trainingsdata die verouderd kan zijn of jouw context niet kent. Met RAG antwoordt het op basis van wat jij het aanreikt.
Waarom het ertoe doet voor het MKB
Voor het MKB maakt RAG het verschil tussen een generiek AI-antwoord en een antwoord dat past bij jouw bedrijfscontext. De meeste praktische AI-toepassingen in het MKB vereisen toegang tot interne documenten: contracten, tarieven, beleid, klanthistorie. RAG is de manier om die koppeling te maken zonder het model opnieuw te trainen.
- Actuele en nauwkeurige output: het model baseert zijn antwoord op documenten die jij aanlevert, niet op verouderde trainingsdata. Dat is essentieel bij regelgeving, tarieven of klantspecifieke informatie die regelmatig verandert.
- Minder hallucinaties: doordat het model zijn antwoord verankert in aangeleverde tekst, is de kans op gefabriceerde informatie aanzienlijk kleiner dan bij een model zonder context.
- Geen hertraining vereist: je koppelt nieuwe of bijgewerkte documenten aan het systeem zonder het model opnieuw te trainen. Updates in je kennisbasis zijn direct beschikbaar.
RAG is inmiddels de standaardbenadering voor kennisgestuurde AI-toepassingen in het MKB: van klantenservicebots die antwoorden op basis van de huidige prijslijst, tot interne assistenten die medewerkers helpen met contracten of HR-beleid.
Hoe het werkt
RAG werkt in twee fasen: een retrieval-fase die de relevante informatie ophaalt, en een generation-fase waarbij het taalmodel die informatie gebruikt om een antwoord samen te stellen.
- Documenten opslaan als embeddings: alle relevante bronnen, zoals pdf's, handleidingen of contracten, worden omgezet naar numerieke representaties en opgeslagen in een vectordatabase zoals Pinecone, Weaviate of Chroma.
- Vraag omzetten: de vraag van de gebruiker wordt ook omgezet naar een embedding en vergeleken met de opgeslagen documenten.
- Relevante passages ophalen: de meest gelijkende passages worden geselecteerd op basis van semantische gelijkenis, niet op exacte woordmatch.
- Context meegeven: de opgehaalde passages worden samen met de vraag als context in de prompt gestopt.
- Antwoord genereren: het taalmodel genereert een antwoord op basis van de aangeleverde context, gebonden aan wat er in die documenten staat.
De kwaliteit van RAG staat of valt met de kwaliteit van de kennisbron. Verouderde, inconsistente of slecht gestructureerde documenten leiden tot onbetrouwbare output, ook als het model zelf uitstekend functioneert.
Voorbeeld uit de praktijk
Stel, een administratiekantoor beheert de jaarstukken, belastingaangiften en correspondentie van honderd klanten in een documentopslag. Met RAG kan een medewerker vragen stellen zoals "Wat was de btw-afdracht van dit bedrijf in het derde kwartaal?" of "Staan er nog openstaande afspraken in het klantdossier van deze opdrachtgever?" Het systeem zoekt de relevante passages op uit de juiste klantdossiers en geeft een antwoord op basis van die specifieke documenten. De medewerker hoeft geen dossiers handmatig door te zoeken en krijgt het antwoord direct, gebonden aan de werkelijke inhoud van de stukken.
Vergelijking en misvattingen
Fine-tuning past het model zelf aan op nieuwe data en is kostbaar en tijdrovend; RAG koppelt het model aan actuele documenten zonder het te herscholen. RAG is de juiste keuze voor bedrijfsspecifieke kennis die regelmatig verandert. Fine-tuning heeft meerwaarde als je een consistent andere schrijf- of redeneerwijze nodig hebt die je niet via prompts kunt sturen.

