LLM-verkeer monitoren: de drie signalen (training, citaten, verwijzingen)

Published: May 1, 2026

De drie signalen van LLM-verkeer: trainingscrawls, gespreks-citaten en echte gebruikersverwijzingen, met contentdekking als upstream poort

Wat LLM-verkeer eigenlijk is

LLM-verkeer wordt vaak besproken als een enkel getal, en die framing laat veel op tafel liggen. Op je eigen site verschijnt AI-activiteit eigenlijk als drie verschillende signalen die je direct kunt meten, elk geproduceerd door een ander type AI-gedrag en elk wijzend op verschillend werk. Een vierde signaal, Share of Voice, wordt off-site gemeten. Het is een minder betrouwbare prestatiedimensie, maar het is de aanpak die de meeste teams momenteel gebruiken voor de off-site weergave. Naarmate teams zich richten op AI-kanaalgroei, geloven we dat merken zich rond dit drie-signaal-model moeten orienteren voor het meten van prestaties.

3 signalen

Trainingscrawls, gespreks-citaten en echte gebruikersverwijzingen, elk afzonderlijk meetbaar

WISLR AI Channel Analytics

Signaal 1 · Trainingstijd

LLM-training

OpenAI, Anthropic, Google en Common Crawl halen je pagina's op om modeltraining te voeden. Geen live gebruiker. Het model leert wat het moet weten over je merk en content.

Signaal 2 · Live gesprek

Gespreks-citaten

ChatGPT, Claude en Perplexity halen je pagina midden in het gesprek op om een vraag te beantwoorden die iemand op dit moment stelt. Elke fetch is een live moment van intentie.

Signaal 3 · Hoge intentie

Echte gebruikers

Iemand klikt op een citaat van ChatGPT, Claude, Perplexity of Copilot en landt op je site. Ze kwamen aan na het onderzoeken van de vraag, dus ze converteren tegen hogere tarieven dan andere kanalen.

Elk signaal is het waard om afzonderlijk te volgen, geordend op waar de gebruiker is wanneer elk signaal plaatsvindt: trainingstijd voordat een gebruiker betrokken is, een live gesprek waarin een gebruiker op dit moment een vraag stelt, en een doorklik waarbij een gebruiker op je site is. Dit drie-signaal-model legt vast hoe AI daadwerkelijk omgaat met een site, wat uitgevers en e-commerce-operators nodig hebben om beslissingen tegen te nemen. We hebben AI Channel Analytics gebouwd rond hetzelfde model.

Zodra je in drie signalen denkt in plaats van een enkel getal, worden de vragen die teams het vaakst stellen, hoe LLM-verkeer te monitoren, wat thuishoort op het dashboard en welke getallen het nuttigst zijn, een stuk gemakkelijker te beantwoorden.

Waarom GA4 en andere client-side analytics-tools hier moeite mee hebben

Voordat we ingaan op de signalen, een snel woord over wat bestaande analytics-tools wel en niet kunnen tonen. GA4 is de dominante tool en heeft welbekende beperkingen als het gaat om AI-verkeer. Dezelfde beperkingen gelden voor Adobe Analytics, Mixpanel, Amplitude, Heap, Plausible, Fathom, Matomo en elke andere tool die afhankelijk is van een JavaScript-tag die in een echte browser wordt geactiveerd. De reden is architecturaal in plaats van configureerbaar, dus het proberen van een andere tool brengt je meestal op dezelfde plek.

We hebben het volledige beeld voor GA4 specifiek behandeld in LLM-verkeer is een blinde vlek in je analytics, dus hier is de korte versie. Elk signaal werkt anders met client-side analytics.

Trainingscrawls zijn niet zichtbaar omdat de bots geen JavaScript uitvoeren. OpenAI-, Anthropic- en Google AI-trainingsfetches activeren client-side tags niet door ontwerp. GA4, Adobe, Mixpanel, Amplitude, Heap en de privacy-eerst-tools zoals Plausible en Fathom delen allemaal deze lacune omdat geen van hen een aanvraag registreert tenzij een browser hun tag uitvoert.
Gespreks-citaten vinden volledig buiten je site plaats. De AI haalt je pagina server-side op namens een gebruiker en rendert het antwoord in de chat. Geen browser opent, geen analytics-event wordt geactiveerd, dus deze activiteit verschijnt niet in een client-side tool.
Echte gebruikersverwijzingen zijn gedeeltelijk zichtbaar in elk client-side tool, maar typisch ondergeteld met een factor van 2,5x tot 5x. Mobiele LLM-apps renderen uitgaande links in geisoleerde WebViews die de referrer verwijderen. Gemini en Claude geven op de meeste geteste platforms helemaal geen attributiesignaal door. Google AI Overviews worden gebundeld onder organische zoekopdrachten, wat ze moeilijk te scheiden maakt. Dezelfde bundeling verschijnt op dezelfde manier of het rapport dat je leest in GA4, Adobe of een privacy-eerst alternatief is.

2,5 tot 5x

GA4 ondertelling van LLM-verwezen sessies versus server-side grondwaarheid, gebaseerd op hands-on tests in mobiele en desktop scenario's.

WISLR apparaat-voor-apparaat tests

De oplossing is geen betere tag, een schonere UTM-strategie of een overstap naar een andere client-side tool. De oplossing is server-side capture aan de rand, geclassificeerd op user agent, geverifieerd IP-bereik en reverse DNS, en aan elkaar genaaid per AI-oppervlak. Dat is de enige manier om alle drie de signalen tegelijk te zien, en het is onafhankelijk van welk client-side analytics-tool je ook draait voor de rest van je verkeer.

Signaal 1: LLM-training

LLM-training is AI die je merk en content leest om de volgende versie van zijn modellen te voeden. Trainingscrawlers van OpenAI, Anthropic, Google, Common Crawl en ByteDance halen je pagina’s op een continu schema op, nemen de inhoud op en rollen deze in de volgende trainingscyclus. Dit is de basis van elke latere interactie. Als een model je pagina niet heeft opgenomen, kan het je niet citeren, kan het je product niet aanbevelen en kan het geen gebruiker naar je toe sturen.

Dit is ook het signaal waar GA4 en elk ander client-side analytics-tool nul zichtbaarheid in hebben. Trainingscrawls zijn alleen zichtbaar in je server-side aanvraaglogs.

AI-trainingscrawls zijn nu op zoekmachineschaal

De volumecontext die de meeste teams missen: AI-trainingscrawl-volume op een typische content-rijke site rivaliseert nu met het volume van crawls van toonaangevende zoekmachines. OpenAI-, Anthropic-, Google-, Common Crawl- en ByteDance-trainingscrawlers produceren samen aanvraagvolumes in dezelfde orde van grootte als Google Search en Bing gecombineerd. Op veel sites overtreffen AI-trainingsfetches al de zoekmachine-fetches in frequentie.

~1:1

Verhouding van AI-trainingscrawl-volume tot toonaangevend zoekmachine-crawl-volume op een typische content-rijke site. AI komt aan met dezelfde intensiteit als Google Search de afgelopen twintig jaar.

WISLR client server logs

Dit is geen klein of nevenkanaal-signaal meer. De crawlers die beslissen wat AI-tools weten over je merk arriveren met dezelfde intensiteit als de crawlers die de afgelopen twintig jaar beslisten wat Google Search wist over je merk.

Wat te bekijken

Met de juiste tracking op zijn plaats wordt het trainingssignaal opgesplitst in verschillende dimensies die belangrijk zijn voor actie:

Dagelijks volume per AI-engine over rollende vensters van 30 dagen en alle tijden.
Trainingsdekking als percentage van de hoogwaardige pagina’s op je site, uitgesplitst per sectie.
Top opgehaalde pagina’s met link-out, verfrissingsfrequentie en welke AI-oppervlakken ze trekken.
Pagina-type-overzicht zodat je in een oogopslag kunt zien of de AI je productpagina’s, je categoriepagina’s, je artikelen of alle drie leest.
AI-engine-uitsplitsing. OpenAI kan domineren terwijl Google’s AI-training stil is; Anthropic kan vasthouden aan je blog terwijl Common Crawl de catalogus afdekt.
Mediatypen. Dit is de dimensie die de meeste teams vergeten. Daarover hierna meer.

Media als trainingsdata: voorbij het artikellichaam

De grootste lacune in het denken van de meeste teams is dat training niet alleen tekst is. AI-bots halen ook je afbeeldingen, video en audio op. Elk is een afzonderlijk trainingsoppervlak en elk draagt verschillende signaalwaarde.

Met betere tracking op zijn plaats kun je pagina’s onderscheiden van niet-pagina-media om te zien wat elke AI-engine daadwerkelijk consumeert:

Type content	Wat wordt opgenomen	Waarom het belangrijk is
Pagina's	Bodytekst, koppen, interne links, schema op de pagina	Veruit het grootste aandeel van het trainingsvolume op de meeste sites.
Afbeeldingen	Het afbeeldingsbestand zelf	Beinvloedt of je producten verschijnen in visuele antwoorden. Alt-tekst en bijschriften worden opgenomen via de pagina-fetch, niet de afbeeldings-fetch.
Video	Het videobestand zelf	Steeds meer opgehaald naarmate multimodale modellen gebruikelijk worden. Transcripties en ondertitels worden opgenomen via de pagina-fetch, niet de video-fetch.
Audio	Het audiobestand zelf	Een blinde vlek voor de meeste uitgevers; rijk trainingsmateriaal. Show notes en transcripties worden opgenomen via de pagina-fetch, niet de audio-fetch.

De praktische implicatie: je alt-tekst, transcripties en schema op de pagina zijn niet langer alleen SEO-hygiene. Ze zijn trainingsinputs. Hoe duidelijker ze zijn, hoe nauwkeuriger een model je merk en content vertegenwoordigt aan een toekomstige gebruiker. De Shopify-kant van dit verhaal, waar productfeeds en gestructureerde data het trainingsoppervlak worden, wordt behandeld in Shopify Agentic Plan: productdata buiten je controle.

KPI’s die ertoe doen

Volg dit in plaats daarvan

Geverifieerd trainingscrawl-volume per AI-engine

Voorbeeld

OpenAI248K Anthropic142K Google91K

Laatste 30 dagen

Volg dit in plaats daarvan

Werkelijke ophaalfrequentie op je top-URL's

Voorbeeld

/guides/wide-feet-running412 / wk /products/widefeet-pro184 / wk /guides/best-trail-runners96 / wk

Volg dit in plaats daarvan

Re-crawl cadans en dekkingspercentage per sectie

Voorbeeld

/articles/ Sectiedekking94% Opnieuw gecrawld elke4 dagen /products/ Sectiedekking78% Opnieuw gecrawld elke11 dagen

Volg dit in plaats daarvan

Pagina-type prioritering (welke secties AI het meest leest)

Voorbeeld

Artikelen48% van crawls Producten31% van crawls Categorieen21% van crawls

De juiste vraag voor het trainingssignaal is niet “hoeveel worden we gecrawld” maar “wordt de juiste content vaak genoeg gecrawld door de AI-engines die ertoe doen”. De methodologie om van ruwe logs naar die vraag te komen staat in AI-bot-gedrag: een logs-analyse-methodologie.

Signaal 2: Gespreks-citaten, de real-time laag

Gespreks-citaten zijn AI die je pagina midden in de chat ophaalt om de live vraag van een gebruiker te beantwoorden. Dit zijn de live fetches van ChatGPT, Claude en Perplexity. Elke fetch is per definitie een moment waarop iemand een vraag stelde en het model besliste dat jouw pagina het beste antwoord was. Dit is het signaal met de hoogste intentie van de drie signalen omdat de vraag op dit moment wordt beantwoord.

Het is ook het signaal dat bewijst welke content daadwerkelijk referentiekwaliteit heeft in de visie van de AI. Training vertelt je wat is opgenomen. Citaten vertellen je wat wordt gebruikt.

Wat te bekijken

Het citaatsignaal wordt opgesplitst langs dezelfde dimensies als het trainingssignaal, maar de betekenis van elk verschuift:

Dagelijks volume van live fetches per assistent. Een piek op een specifieke pagina correleert vaak met een actuele nieuwscyclus of een nieuwe vergelijkingsvraag die op grote schaal wordt gesteld.
Citaatdekking, het aandeel van je referentiekwaliteit-content dat in het laatste venster ten minste eenmaal is opgehaald.
Top opgehaalde pagina’s met de assistent die ze ophaalde. Verrassingen hier zijn de regel, niet de uitzondering. De pagina’s die AI citeert zijn zelden de pagina’s die je zou verwachten.
AI-oppervlak-uitsplitsing. Verschillende assistenten geven prioriteit aan verschillende content. ChatGPT en Perplexity neigen ertoe gestructureerde product- en referentie-content te bevoordelen; Claude neigt ertoe lange-vorm exposerend schrijven te bevoordelen.
Mediatypen. Live citaat-fetches zijn meestal pagina’s; afbeeldingen en video worden minder vaak geciteerd, maar groeien naarmate multimodale antwoorden gebruikelijk worden.

Waarom dit signaal uniek waardevol is

Een live citaat is het dichtst bij een vertrouwensstem die het AI-ecosysteem produceert. Het is het model dat zegt, voor een echte gebruiker: “deze pagina is de juiste bron voor deze vraag”. Als je slechts een signaal volgde, zou dit het zijn.

Het probleem is dat geen daarvan zichtbaar is voor GA4 of een client-side tool, omdat de fetch server-side gebeurt en de gebruiker nooit op je pagina landt. De enige manier om citaten te zien is aan de rand.

Share of Voice is het off-site alternatief dat de meeste teams momenteel gebruiken wanneer ze server-side citaten niet kunnen zien. Het is een meting van hoe vaak je merk verschijnt in AI-antwoorden in een mandje van representatieve prompts. Een groeiende categorie tools, waaronder Profound, Otterly, Peec, Evertune, AthenaHQ, BrandRank.AI, Ahrefs Brand Radar en de AI-modules in Semrush en BrightEdge, bevragen ChatGPT, Claude, Gemini en Perplexity op schaal, tellen merkvermeldingen en rapporteren een aandeel ten opzichte van een concurrentieset.

Het is een nuttig richtingssignaal, maar onze voorkeur voor het meten van AI-kanaalprestaties is het citaatsignaal hierboven, omdat het werkelijke fetches op pagina-niveau door het oppervlak dat de fetch deed vastlegt. SOV heeft structurele blinde vlekken die citaten niet hebben.

SOV is probabilistisch, citaten worden waargenomen. AI-modellen geven verschillende antwoorden op dezelfde prompt afhankelijk van temperatuurinstellingen, gesprekscontext en tijd van de dag. Voer dezelfde query tweemaal uit en je kunt twee verschillende sets merkvermeldingen krijgen. SOV-tools mitigeren dit door bemonstering en middeling, maar de onderliggende volatiliteit is reeel, en de precisie van een enkel getal is lager dan de meeste rapporten suggereren. Citaatdata daarentegen zijn een serverlog van werkelijke fetches: elk gebeurde, en elk is telbaar.

SOV bemonstert prompts; citaten zijn verankerd aan echte gesprekken. Een SOV-tool voert een mandje prompts uit dat de analist heeft gekozen. Echte gebruikers stellen verschillende vragen, op verschillende manieren, met verschillende voorgaande context. De steekproef kan al dan niet overeenkomen met wat je klanten daadwerkelijk vragen, en de meeste tools maken hun promptset niet transparant. Een live citaat kwam per definitie van een echte gebruiker die een echte vraag stelde, dus er is geen bemonsteringsbias.

Modellen veranderen. Elke nieuwe modelrelease, systeem-prompt-aanpassing of retrieval-wijziging verschuift wat wordt geciteerd. Een SOV-figuur gemeten tegen de modellen van vorig kwartaal is een andere meting dan een genomen tegen die van dit kwartaal, en de meeste tools zijn niet transparant over modelversiebeheer in hun rapporten. Citaatactiviteit past zich in real-time aan omdat het direct vanuit de fetch wordt vastgelegd, zonder inferentielaag ertussen.

De schoonste manier om SOV te gebruiken is naast het citaatsignaal, niet als vervanging. SOV is een richtinggevende, off-site benchmark van hoe vaak je merk verschijnt in antwoorden. Citaten zijn het geverifieerde, on-site record van welke pagina’s AI daadwerkelijk gebruikte om ze te produceren. Samen gebruikt geven de off-site simulatie en de on-site waarheid een vollediger beeld dan elk afzonderlijk.

KPI’s die ertoe doen

Volg dit in plaats daarvan

Geverifieerde citaat-fetches per pagina, per assistent

Voorbeeld

Pagina /guides/wide-feet

ChatGPT184 Perplexity92

Laatste 30 dagen

Volg dit in plaats daarvan

Citaatfrequentie op je top referentiepagina's

Voorbeeld

/guides/agentic-commerce-10162 / wk /guides/wide-feet-running38 / wk /compare/perplexity-vs-chatgpt26 / wk

Volg dit in plaats daarvan

Citaataandeel per assistent, week-over-week trend

Voorbeeld

ChatGPT62%+4 pt Perplexity24%-1 pt Claude14%vlak

Week over week

Volg dit in plaats daarvan

Citaatconcentratie per pagina-type

Voorbeeld

Vergelijkingsgidsen52% van citaten Artikelen28% van citaten Reviews14% van citaten Overige6% van citaten

Een typisch patroon, getrokken uit echte uitgever- en e-commerce-implementaties: een kleine set evergreen pagina’s produceert het grootste deel van de citaten, terwijl de homepage zelden in de top 50 komt. Als het model heeft besloten dat je diepgaande vergelijkingsgids het juiste antwoord op een vraag is, zal het die pagina honderden keren per week ophalen en niet je homepage. Dat is het operationele signaal dat je wilt.

Signaal 3: Echte gebruikers, de hoge-intentie verwijzing

AI-engines zijn onderzoeksengines, geen onderbrekingskanalen. Een gebruiker die op een citaat in ChatGPT, Claude, Perplexity of Copilot klikt heeft al zijn vraag gesteld, het antwoord geevalueerd en jouw pagina als volgende stap gekozen. Tegen de tijd dat ze op je site landen zijn ze verder in de overwegingscurve dan een gebruiker van elk kanaal dat hen onderbrak. In onze implementaties vertaalt zich dat in hogere conversiepercentages en kortere overwegingsvensters dan sociaal, display en vaak zelfs betaalde zoekopdrachten. De framing is belangrijk omdat door AI verwezen gebruikers vooraf gekwalificeerd zijn tegen de tijd dat ze aankomen; voor de bredere koperstraject-context, zie AI is een onderzoeksengine, geen verkoopkanaal.

Dit is ook het enige signaal dat een traditioneel analytics-tool uberhaupt kan zien, en het signaal waar de meeste teams op terugvallen wanneer ze “LLM-verkeer” horen. Het is ook het signaal waar de WebView-gap en de Gemini/Claude no-referrer-gap GA4 doen onderrapporteren met een factor van 2,5 tot 5, dus de hoge intentie blijft meer ongeteld dan elk ander kanaal op je site.

Wat te bekijken

Sessies per bron-assistent, server-side geclassificeerd in plaats van te vertrouwen op referrer-headers.
Landingspagina-distributie. Door AI verwezen gebruikers neigen ertoe op diepe pagina’s te landen, niet op de homepage.
Conversiepercentage per bron, gebenchmarkt tegen je organische baseline. In onze implementaties loopt door AI verwezen conversie typisch hoger dan sociaal op een per-sessie basis.
Tijd-tot-aankoop-vensters. ChatGPT-gebruikers neigen ertoe op dezelfde dag te converteren; Perplexity-gebruikers nemen vaak drie tot vijf dagen; Gemini zit ertussenin.
Omzetattributie. Geverifieerde IP-naar-bestelling-matching voor de schoonste gevallen, probabilistische matching voor de rest.

Hoe verwijzingsverkeer van LLMs te meten in Google Analytics (het eerlijke antwoord)

Het korte antwoord is: dat kan niet, niet volledig. UTM’s zijn aanwezig vanuit ChatGPT maar niet vanuit Gemini of Claude. Referrers zijn aanwezig vanuit desktop-browsers maar verwijderd op mobiele apps. AI Overviews verschijnen onder organische zoekopdrachten zonder scheidingscapaciteit. Je kunt een gedeeltelijk beeld bouwen door te filteren op utm_source=chatgpt.com en op de referrers chatgpt.com, claude.ai, perplexity.ai, gemini.google.com en copilot.microsoft.com, maar je kijkt dan naar ongeveer een kwart van het werkelijke verkeer.

Het eerlijke antwoord is om dit signaal server-side vast te leggen. De volledige attributiekaart, met elke apparaat-voor-apparaat-test die we uitvoerden, staat in LLM-verkeer is een blinde vlek in je analytics.

Mobiel is waar de LLM-attributie-gap het grootst is

Hier is het deel van de verwijzings-ondertelling dat het meest telt: het apparaat dat het grootste deel van je publiek gebruikt is ook het apparaat waar AI-attributie het moeilijkst duidelijk te zien is. Mobiel drijft 70 tot 90 procent van de consumentgerichte sitesessies, en het is waar de LLM-apps wonen. Op de platforms die we testten is mobiel het minst gevolgde oppervlak voor elke LLM die ertoe doet.

Platform	Oppervlak	UTM	Referrer	Volgbaar in GA4
ChatGPT	Mobiele app	Ja utm_source=chatgpt.com	Nee	Gedeeltelijk
ChatGPT	Mobiele browser	Ja	Ja	Ja
Gemini	Mobiele app	Nee	Nee	Nee
Gemini	Mobiele browser	Nee	Nee	Nee
Claude	Mobiele app	Nee	Nee	Nee
Claude	Mobiele browser	Nee	Nee	Nee

De structurele reden is dat mobiele LLM-apps uitgaande links renderen in geisoleerde WebViews, die de referrer verwijderen en de sessie loskoppelen van elke voorgaande browsercontext. iOS WebKit’s Intelligent Tracking Prevention verergert het probleem op iPhone, waar de WebView onderhevig is aan cookie-beperkingen, zelfs wanneer de conversie binnenin gebeurt.

Het resultaat is dat een alleen-verwijzings-weergave van LLM-verkeer er meestal uitziet als een desktop-weergave, ook al is het werkelijke publiek meestal mobiel. Cross-platform vergelijkingen getrokken uit GA4-getallen zijn gemakkelijker te interpreteren zodra die mobiele gap in aanmerking is genomen. De volledige apparaat-voor-apparaat matrix, inclusief de desktop-scenario’s, staat in LLM-verkeer is een blinde vlek in je analytics.

KPI’s die ertoe doen

Volg dit in plaats daarvan

Server-side door AI verwezen sessietelling

Voorbeeld

Server-side capture6.420 sessies Zelfde periode in GA41.840 sessies

Laatste 30 dagen

Volg dit in plaats daarvan

Conversiepercentage versus je organische baseline

Voorbeeld

AI4,8% Organisch2,9% Sociaal1,6%

Conversiepercentage per sessie

Volg dit in plaats daarvan

Tijd-tot-aankoop-distributie per bron

Voorbeeld

ChatGPTZelfde dag Gemini2 tot 3 dagen Perplexity4 tot 5 dagen

Volg dit in plaats daarvan

Omzet per sessie, per assistent

Voorbeeld

ChatGPT$4,20 Perplexity$7,10 Gemini$3,40

Omzet per sessie

Voor een diepere blik op hoe dit past in het bredere kopertraject, zie AI is een onderzoeksengine, geen verkoopkanaal. De framing is belangrijk omdat door AI verwezen gebruikers vaak onderzoekers zijn in mid-funnel, en het beoordelen van het kanaal alleen op zelfde-sessie-conversie zal het ondergewaarderen.

Van signaal naar actie: hoe LLM-verkeersdata impact aansturen

Meting verdient zijn waarde alleen wanneer het tot actie leidt. Met de drie signalen samen gevolgd komen twee aanbevelingspatronen betrouwbaar naar voren uit de cross-signal-data, plus een doorlopend log dat een team kan bijhouden van wat er is gewerkt.

Content versheid

De top training-gecrawlde URL’s over de afgelopen 30 dagen, gerangschikt op ophaalfrequentie. De aanbeveling is direct: houd ze nauwkeurig, omdat modellen leren wat er nu op de pagina staat en je merk dienovereenkomstig zullen vertegenwoordigen aan toekomstige gebruikers. Een verouderde pagina waarop OpenAI ’s nachts traint is een verouderde pagina die ChatGPT verkeerd zal vertegenwoordigen voor de volgende trainingscyclus.

Actie: bekijk elke top-gecrawlde pagina in een terugkerende cadans, repareer alles wat verouderd is en houd een record bij van wat er is herzien en wanneer, zodat versheid een gevolgde workflow wordt in plaats van een eenmalige audit.

Pagina’s gecrawld maar niet geciteerd

Pagina’s die AI-trainingsbots ophalen maar die nul citaten en nul verwijzingen hebben geproduceerd in hetzelfde venster. Verdeeld in producten en categorieen voor e-commerce, in artikeltypen voor uitgevers. Dit is de citaat-gap, en het is meestal het patroon met de hoogste hefboomwerking om op te handelen.

De bots hebben de pagina gelezen. Het model heeft niet gekozen om het te citeren. De fix is bijna altijd dezelfde familie van wijzigingen: duidelijkere titels, betere beschrijvingen, FAQ-stijl tekst en JSON-LD die het product, het publiek en het antwoord op de voor de hand liggende vraag noemt.

Actie: herschrijf de pagina om citeerbaarder te zijn, volg vervolgens het citaatsignaal op die URL gedurende de volgende twee weken om de fix te verifieren.

De cross-signal actie-kaart

Zodra je alle drie de signalen hebt vastgelegd, komen er vier patronen naar voren en elk wijst op specifiek werk. Elke cel toont of dat signaal actief is (de pagina verschijnt daar), ontbreekt (het signaal is afwezig), zwak (het signaal is er maar onderpresterend) of n.v.t. wanneer de vraag niet van toepassing is voor het patroon.

Training	Citaten	Verwijzingen	Patroon	Actie
Actief	Actief	Actief	AI Superster	Bescherm de pagina. Houd titel en tekst stabiel, monitor op drift, vergrendel de JSON-LD.
Actief	Ontbreekt	Ontbreekt	Citaat-gap	Herschrijf voor AI-consumptie: duidelijkere titels, betere beschrijvingen, FAQ-stijl tekst, rijkere JSON-LD.
Actief	Actief	Zwak	Klik-probleem	Citaat-framing of pagina-laden verliest de gebruiker. Audit pagina-snelheid, hero-helderheid en het snippet dat AI citeert.
Ontbreekt	n.v.t.	n.v.t.	Dekkings-gap	Repareer ontdekbaarheid: robots.txt, sitemaps, interne linking en per-engine toegangscontroles.

Dit is wat we bedoelen met “LLM-verkeersdata sturen actie aan”. Wanneer de drie signalen naast elkaar liggen, wijst elk patroon op een specifiek soort werk, zodat een team een wijziging kan prioriteren om deze week te leveren en de impact volgende week te controleren.

Hoe je je content-dekking voor training en citaten kunt benchmarken

In het Google Search-tijdperk was indexering de fundamentele gezondheidsmetriek. Voordat een pagina kon ranken, klikken kon verdienen of kon converteren, moest het in de index staan. Dekking is dezelfde metriek voor het LLM-tijdperk, en het verdient om als eigen ding gevolgd te worden, niet gevouwen in een van de signalen.

De noordster-vergelijking

Google Search-tijdperk

LLM-tijdperk

Indexering (upstream poort)

Dekking (upstream poort)

Ranking

Citaten

Klikken

Verwijzingen

Dekking is het percentage van de content die voor jou belangrijk is dat AI daadwerkelijk leest en gebruikt. Het is het dichtst bij een noordster-getal voor het AI-kanaal omdat het upstream zit van elk ander signaal. Als een model je pagina niet heeft opgenomen, kan AI het niet citeren. Als een pagina nooit wordt geciteerd, kan AI geen gebruiker ernaar sturen. Dekking is de poort die beslist of de rest van de funnel zelfs mogelijk is.

Dekking als eigen metriek behandelen, los van een van de drie signalen, is wat het AI-kanaal meetbaar maakt op een manier die teams die bekend zijn met organisch zoeken al begrijpen. De vraag verschuift van “worden we gecrawld” naar “bereikt genoeg van de juiste content het antwoord”. Dekking splitst zich netjes langs de eerste twee signalen.

Trainingsdekking-benchmark

Definieer eerst je content-universum van record. Voor een e-commerce-team is dit typisch alle actieve productpagina’s, alle categoriepagina’s en alle evergreen gidsen. Voor een uitgever is het het artikelarchief plus referentie- en onderwerpslandingspagina’s. Het universum is de noemer.

Vraag dan: in de afgelopen 30 dagen, welk percentage van die URL’s werd ten minste eenmaal opgehaald door een geverifieerde trainingscrawler van een van de grote AI-engines? Dat is je 30-dagen trainingsdekking. Een gezonde site met redelijke interne linking en een schone sitemap zou 90 procent of hoger moeten draaien. Daaronder heb je een ontdekbaarheidsprobleem: de bots kunnen een betekenisvol deel van je inventaris niet vinden of keren er niet naar terug.

Splits dan hetzelfde getal per AI-engine. Per-engine dekking is waar de hefboom leeft. OpenAI kan 95 procent dekken terwijl Google 40 procent dekt en Anthropic 70 procent dekt. Die spreiding vertelt je precies waar te investeren in oppervlak-specifieke toegang (robots.txt-review, sitemap-indiening, gestructureerde data-verbeteringen) en welke modellen je merk nauwkeurig versus slecht zullen vertegenwoordigen wanneer een toekomstige gebruiker vraagt.

Citaatdekking-benchmark

Citaatdekking wordt op dezelfde manier gebouwd maar tegen een nauwere noemer: je referentiekwaliteit-content, de pagina’s die je zou verwachten dat AI citeert als het je site correct begreep. Voor een e-commerce-team is dit typisch de gidsen, vergelijkingen en FAQ-stijl content, niet de productpagina’s zelf. Voor een uitgever zijn het je evergreen en referentie-artikelen.

Vraag: in de afgelopen 30 dagen, welk percentage van die referentie-URL’s ontving ten minste een live fetch van ChatGPT, Claude of Perplexity? Dat is je 30-dagen citaatdekking. Een site waarvan de referentie-content goed gestructureerd, goed getiteld en JSON-LD-verrijkt is, zou 60 tot 80 procent moeten draaien. Onder 40 procent is een citeerbaarheidsprobleem, bijna altijd oplosbaar met duidelijkere titels, betere beschrijvingen, FAQ-stijl tekst en meer gestructureerde data.

Splits dan per assistent. ChatGPT zal het volume domineren op de meeste sites; Claude zal ondervertegenwoordigd zijn in elke tool die niet-verifieerbaar bot-verkeer niet correct verwerkt; Perplexity zal over-indexeren op gestructureerde product- en referentie-content.

Hoe gezond eruit ziet over het geheel

Exacte drempels varieren per archiefdiepte, content-mix en publiek, maar het patroon van een gezond profiel is consistent genoeg om te publiceren:

Trainingsdekking van je top 100 pagina’s: op of bijna 100 procent in een venster van 30 dagen, met ten minste drie tot vier AI-engines die actief ophalen.
Citaatdekking van je referentiekwaliteit-content: 60 tot 80 procent in een venster van 30 dagen. Onder 40 procent wijst op citeerbaarheidsgaten in titels, beschrijvingen en gestructureerde data.
Top citaatpagina’s: evergreen, diepgaande, referentiekwaliteit-content. De homepage zou niet in de top 20 moeten staan.
Citaatconcentratie: 60 tot 80 procent van alle citaten op je top 30 pagina’s is normaal. Concentratie op alleen je top 5 betekent dat je referentie-oppervlak te smal is. Als je getallen scherp afwijken van dit patroon, is de diagnose meestal gestructureerde-data-gaten, content die het model niet als citeerbaar beschouwt of een dekkingsprobleem dat interne linking en sitemaps kunnen oplossen.

Voor de fundamentele primer over AI-zichtbaarheid voorafgaand aan een van deze, zie AI-zichtbaarheid begrijpen. Voor het zeven-KPI-framework dat netjes mapt op het drie-signaal-model, zie AI-prestatiemetrics: zeven KPI’s die elk merk moet volgen.

Stop met schatten, begin met activeren

Wanneer LLM-verkeer wordt gerapporteerd als een enkel getal, gaat veel nuttige context verloren. Sterke content kan rustiger lijken dan het werkelijk is omdat het grootste deel van zijn impact buiten het analytics-tool valt. Veelbelovende prestaties zijn moeilijk terug te traceren naar de upstream-activiteit die ze verdiende. Teams leunen uiteindelijk op indirecte signalen omdat de directe nog niet zichtbaar zijn.

Drie signalen op je site vullen dat beeld in. Training toont je wat AI absorbeert over je merk en content. Citaten tonen je welke pagina’s AI bereikt om echte vragen in real-time te beantwoorden. Verwijzingen tonen je de hoge-intentie gebruikers die AI doorstuurt. Upstream van alle drie zit dekking, het LLM-tijdperk-equivalent van indexering, en de poort die beslist of de rest van de funnel zelfs mogelijk is.

Samen gelezen geven de drie signalen een team een duidelijk cross-signal patroon om elke week op te handelen. AI-supersterren zijn pagina’s om te beschermen, citaat-gaps zijn pagina’s om te herschrijven, klik-problemen wijzen op laadsnelheid en snippet-framing, en dekkings-gaps wijzen op ontdekbaarheid. Off-site is Share of Voice een nuttige richtinggevende benchmark voor de gesprekken die plaatsvinden in AI-antwoorden, maar voor het meten van werkelijke prestatie-impact is het on-site drie-signaal-model waar we geloven dat merken zich rond moeten orienteren naarmate ze investeren in AI-kanaalgroei.

Samen transformeren ze het AI-kanaal van iets om in te schatten naar iets waarop je team kan plannen, meten en handelen met vertrouwen.

Alle drie signalen in een dashboard

Het dashboard hieronder bundelt de drie on-site signalen in een enkele weergave, met content-dekking parallel gevolgd als upstream-poort. Training-crawls landen per pagina, citaties worden uitgesplitst per engine en referrals worden end-to-end toegewezen tot aan de omzet.

Bekijk de dashboard-demo

Veelgestelde vragen

Wat is het verschil tussen AI-trainingscrawls en AI-citaat-fetches?

Trainingscrawls vinden op de achtergrond plaats en voeden modeltrainingsdata. AI-engines zoals OpenAI, Anthropic, Google en Common Crawl voeren ze volgens een schema uit. Citaat-fetches gebeuren in real-time, wanneer een gebruiker een vraag stelt en een AI-assistent een pagina ophaalt namens de gebruiker om te antwoorden. De agents om naar te zoeken in je logs zijn ChatGPT-User, Claude-User en Perplexity-User. Training vormt wat AI weet over je merk; citaten tonen wat AI op dit moment actief gebruikt om vragen te beantwoorden.

Hoe weet ik of mijn content wordt geciteerd door ChatGPT, Claude of Perplexity?

De volledige manier is om server-side aanvraaglogs aan de rand vast te leggen en deze te classificeren op user agent en geverifieerd IP-bereik. ChatGPT-User, Claude-User en Perplexity-User identificeren zichzelf in de aanvraag, dus server-side capture geeft je een per-pagina, per-assistent record van wanneer elke AI een pagina ophaalde om een live vraag te beantwoorden. Client-side analytics-tools zoals GA4, Adobe, Mixpanel, Amplitude, Heap, Plausible, Fathom en Matomo kunnen dit signaal niet zien omdat de fetch nooit een browser opent en nooit een JavaScript-tag activeert.

Wat is contentdekking voor LLMs en waarom is het belangrijk?

Contentdekking is het percentage van de content die voor jou belangrijk is dat AI-engines daadwerkelijk lezen en gebruiken. Het werkt zoals indexering deed voor Google Search: het zit upstream van elk ander signaal. Als AI je pagina niet heeft opgenomen, kan het deze niet citeren. Als het de pagina niet heeft geciteerd, kan het geen gebruiker ernaar sturen. Dekking is de fundamentele gezondheidsmetriek voor AI-kanaalmeting en het dichtst bij een noordster-getal voor het AI-kanaal.

Wat is Share of Voice in AI-zoekopdrachten en hoe verhoudt het zich tot citaat-tracking?

Share of Voice is een off-site meting van hoe vaak je merk verschijnt in AI-gegenereerde antwoorden in een steekproefmandje van prompts. Tools zoals Profound, Otterly, Peec, Evertune, AthenaHQ, BrandRank.AI, Ahrefs Brand Radar en de AI-modules binnen Semrush en BrightEdge bevragen AI-engines op schaal en rapporteren een relatief aandeel. Het is nuttig voor concurrentiebenchmarking, maar probabilistisch en onvolledig omdat AI-antwoorden niet deterministisch zijn en de prompt-steekproef wordt gekozen door de analist. Citaat-tracking daarentegen is het geverifieerde server-side record van welke pagina's AI daadwerkelijk ophaalde om echte vragen te beantwoorden. Gebruik Share of Voice voor richtingsgevoelige benchmarking en citaten voor prestatiemeting.

Waarom rapporteert Google Analytics 4 AI-verwijzingsverkeer ondergerapporteerd?

GA4 onderrapporteert AI-verwezen sessies typisch met een factor van 2,5 tot 5. De oorzaak is structureel in plaats van configureerbaar. Mobiele LLM-apps renderen uitgaande links in geisoleerde WebViews die de referrer verwijderen. Gemini en Claude geven op de meeste geteste platforms helemaal geen attributiesignaal door. Google AI Overviews worden gebundeld onder organische zoekopdrachten zonder manier om ze te scheiden. Dezelfde lacunes gelden voor elk ander client-side analytics-tool, omdat het probleem het JavaScript-tag-meetmodel zelf is, niet de tool.

Hoe gedragen door AI verwezen gebruikers zich anders dan organisch of sociaal verkeer?

Door AI verwezen gebruikers neigen ertoe te converteren tegen hogere per-sessie tarieven dan sociaal en vaak hoger dan organisch zodra AI Overviews worden gescheiden van organisch. Ze arriveren nadat ze de vraag met de AI hebben onderzocht, het antwoord hebben geevalueerd en jouw pagina hebben gekozen als volgende stap, dus ze zijn verder in de overwegingscurve dan gebruikers van kanalen die hen onderbraken. De tijd tot aankoop varieert per AI-engine. ChatGPT-gebruikers neigen ertoe op dezelfde dag te converteren, Gemini-gebruikers nemen meerdere dagen, Perplexity-gebruikers nemen vaak drie tot vijf dagen. Het kort houden van het attributievenster voor allen onderrapporteert het kanaal.

Waar begin ik wanneer AI-kanaalmeting nieuw is voor mijn team?

Begin met contentdekking. Bevestig dat de belangrijkste AI-engines, OpenAI, Anthropic, Google, Perplexity en Common Crawl, de content die belangrijk is kunnen bereiken en actief lezen. Zodra het upstream beeld duidelijk is, voeg citaat-tracking toe om te zien welke pagina's AI daadwerkelijk gebruikt om vragen te beantwoorden. Voeg verwijzingsattributie als laatste toe, omdat een verwijzingsnummer zonder dekkings- en citaatcontext onmogelijk is om op te handelen. Dekking is de poort waarop elk ander signaal rust, en daar beginnen bouwt een basis waarop de rest van het framework kan groeien.

LLM Traffic Is a Blind Spot in Your Analytics. Here's Why.

LLM-verkeer monitoren: de drie signalen (training, citaten, verwijzingen)

Wat LLM-verkeer eigenlijk is

Waarom GA4 en andere client-side analytics-tools hier moeite mee hebben

Signaal 1: LLM-training

AI-trainingscrawls zijn nu op zoekmachineschaal

Wat te bekijken

Media als trainingsdata: voorbij het artikellichaam

KPI’s die ertoe doen

Signaal 2: Gespreks-citaten, de real-time laag

Wat te bekijken

Waarom dit signaal uniek waardevol is

Citaten vs. Share of Voice (SOV)

KPI’s die ertoe doen

Signaal 3: Echte gebruikers, de hoge-intentie verwijzing

Wat te bekijken

Hoe verwijzingsverkeer van LLMs te meten in Google Analytics (het eerlijke antwoord)

Mobiel is waar de LLM-attributie-gap het grootst is

KPI’s die ertoe doen

Van signaal naar actie: hoe LLM-verkeersdata impact aansturen

Content versheid

Pagina’s gecrawld maar niet geciteerd

De cross-signal actie-kaart

Hoe je je content-dekking voor training en citaten kunt benchmarken

Trainingsdekking-benchmark

Citaatdekking-benchmark

Hoe gezond eruit ziet over het geheel

Stop met schatten, begin met activeren

Alle drie signalen in een dashboard

Veelgestelde vragen

Wat is het verschil tussen AI-trainingscrawls en AI-citaat-fetches?

Hoe weet ik of mijn content wordt geciteerd door ChatGPT, Claude of Perplexity?

Wat is contentdekking voor LLMs en waarom is het belangrijk?

Wat is Share of Voice in AI-zoekopdrachten en hoe verhoudt het zich tot citaat-tracking?

Waarom rapporteert Google Analytics 4 AI-verwijzingsverkeer ondergerapporteerd?

Hoe gedragen door AI verwezen gebruikers zich anders dan organisch of sociaal verkeer?

Waar begin ik wanneer AI-kanaalmeting nieuw is voor mijn team?