Wat is het?
Een multimodaal model is een AI-model dat meerdere typen informatie tegelijk kan verwerken. Waar een taalmodel alleen tekst begrijpt en genereert, kan een multimodaal model een foto analyseren, een gesproken vraag begrijpen, een document met tabellen lezen en op al die input gecombineerd reageren.
Bekende multimodale modellen zijn GPT-4o van OpenAI en Gemini 1.5 van Google. Ze worden ingezet voor taken waarbij informatie uit verschillende bronnen samenkomt: een factuur met tekst en tabel, een bouwtekening met annotaties, of een opname van een klantgesprek gecombineerd met aantekeningen.
Waarom het ertoe doet voor het MKB
Voor het MKB openen multimodale modellen toepassingen die met alleen tekst niet mogelijk zijn. Veel bedrijfsinformatie bestaat niet alleen uit tekst: facturen, bestekken, foto's van schade of voortgang, gescande contracten. Een multimodaal model kan al die vormen verwerken en er betekenis uit halen.
- Documentverwerking wordt breder: een model kan niet alleen de tekst in een PDF lezen, maar ook tabellen, handgeschreven aantekeningen of afbeeldingen daarin begrijpen en verwerken.
- Kwaliteitscontrole met beeld wordt mogelijk: in de bouw of industrie kan een model foto's van voortgang of schade analyseren en vergelijken met een referentie, zonder handmatige beoordeling voor elk item.
- Combinatie van kanalen: gesproken klantfeedback, e-mails en formulieren kunnen samen worden verwerkt, waardoor je een completer beeld krijgt zonder alles handmatig samen te voegen.
De inzetbaarheid groeit snel: wat twee jaar geleden alleen beschikbaar was in research-omgevingen, is nu via API's direct beschikbaar voor integratie in bestaande workflows.
Hoe het werkt
Een multimodaal model is getraind op gecombineerde datasets van tekst, afbeeldingen, audio en soms video, waarbij de verbanden tussen die modaliteiten zijn geleerd. Tijdens inferentie verwerkt het alle ontvangen inputs samen en genereert output op basis van de gecombineerde context.
- Invoer wordt aangeboden: tekst, afbeelding, audio of een combinatie ervan.
- Elke modaliteit wordt omgezet naar een interne representatie die het model begrijpt.
- Het model combineert die representaties in zijn redenering.
- Op basis van de gecombineerde context genereert het model een antwoord, samenvatting of analyse.
De kracht zit in stap drie: een multimodaal model trekt verbanden tussen wat er staat, wat er te zien is en wat er klinkt, op een manier die aparte modellen per modaliteit niet kunnen.
Voorbeeld uit de praktijk
Stel, een vastgoedkantoor ontvangt regelmatig schaderapportages van huurders met bijgevoegde foto's. Een multimodaal model leest de beschrijving van de schade, analyseert de bijgevoegde foto's en bepaalt automatisch de categorie van de schade, de urgentie en welk type aannemer of vakman nodig is. De medewerker krijgt een voorbereide samenvatting en taakverdeling, in plaats van elke melding handmatig te moeten doorzetten.
Vergelijking en misvattingen
Een LLM verwerkt alleen tekst. Een multimodaal model verwerkt tekst, beeld, audio en soms video in een gecombineerde redenering. Voor taken waarbij informatie uitsluitend in tekstvorm beschikbaar is, volstaat een LLM. Zodra beeld of andere modaliteiten een rol spelen, is een multimodaal model de aangewezen keuze.

