← All Articles

Surveillance du trafic LLM : les trois signaux (entrainement, citations, references)

Les trois signaux du trafic LLM : crawls d'entrainement, citations en conversation et references d'utilisateurs reels, avec la couverture de contenu comme porte d'entree en amont

Ce qu’est reellement le trafic LLM

Le trafic LLM est souvent discute comme un seul nombre, et ce cadrage laisse beaucoup de cote. Sur votre propre site, l’activite IA apparait en realite sous forme de trois signaux distincts que vous pouvez mesurer directement, chacun produit par un type different de comportement IA et chacun pointant vers un travail different. Un quatrieme signal, la part de voix, est mesure hors site. C’est une dimension de performance moins fiable, mais c’est l’approche que la plupart des equipes utilisent actuellement pour la vue hors site. A mesure que les equipes se concentrent sur la croissance du canal IA, nous croyons que les marques devraient s’orienter autour de ce modele a trois signaux pour mesurer la performance.

3 signaux
Crawls d'entrainement, citations en conversation et references d'utilisateurs reels, chacun mesurable individuellement
WISLR AI Channel Analytics
Signal 1 · Temps d'entrainement
Entrainement LLM
OpenAI, Anthropic, Google et Common Crawl recuperent vos pages pour alimenter l'entrainement des modeles. Pas d'utilisateur en direct. Le modele apprend ce qu'il faut savoir sur votre marque et votre contenu.
Signal 2 · Conversation en direct
Citations en conversation
ChatGPT, Claude et Perplexity recuperent votre page en pleine conversation pour repondre a une question que quelqu'un pose en ce moment. Chaque recuperation est un moment d'intention en direct.
Signal 3 · Forte intention
Utilisateurs reels
Quelqu'un clique sur une citation de ChatGPT, Claude, Perplexity ou Copilot et atterrit sur votre site. Ils sont arrives apres avoir recherche la question, donc ils convertissent a des taux plus eleves que les autres canaux.

Chaque signal merite d’etre suivi separement, ordonne selon ou se trouve l’utilisateur lorsque chacun se produit : temps d’entrainement avant qu’aucun utilisateur ne soit implique, une conversation en direct ou un utilisateur pose une question en ce moment, et un clic ou un utilisateur est sur votre site. Ce modele a trois signaux capture comment l’IA interagit reellement avec un site, ce dont les editeurs et les operateurs e-commerce ont besoin pour prendre des decisions. Nous avons construit AI Channel Analytics autour du meme modele.

Une fois que vous pensez en trois signaux au lieu d’un seul nombre, les questions que les equipes posent le plus souvent, comment surveiller le trafic LLM, ce qui appartient au tableau de bord et quels nombres sont les plus utiles, deviennent beaucoup plus faciles a repondre.


Pourquoi GA4 et les autres outils d’analyse cote client ont du mal avec cela

Avant d’entrer dans les signaux, un mot rapide sur ce que les outils d’analyse existants peuvent et ne peuvent pas montrer. GA4 est l’outil dominant, et il a des limites bien connues quand il s’agit du trafic IA. Les memes limites s’appliquent a Adobe Analytics, Mixpanel, Amplitude, Heap, Plausible, Fathom, Matomo et tout autre outil qui depend du declenchement d’un tag JavaScript dans un vrai navigateur. La raison est architecturale plutot que configurable, donc essayer un outil different vous mene generalement au meme endroit.

Nous avons couvert l’image complete pour GA4 specifiquement dans Le trafic LLM est un angle mort dans votre analyse, voici donc la version courte. Chaque signal interagit differemment avec l’analyse cote client.

  • Les crawls d’entrainement ne sont pas visibles car les bots n’executent pas JavaScript. Les recuperations d’entrainement OpenAI, Anthropic et Google IA ne declenchent pas les tags cote client par conception. GA4, Adobe, Mixpanel, Amplitude, Heap et les outils respectueux de la vie privee comme Plausible et Fathom partagent tous cette lacune car aucun d’entre eux ne enregistre une requete a moins qu’un navigateur n’execute son tag.
  • Les citations en conversation se produisent entierement hors de votre site. L’IA recupere votre page cote serveur au nom d’un utilisateur et rend la reponse a l’interieur du chat. Aucun navigateur ne s’ouvre, aucun evenement d’analyse ne se declenche, donc cette activite n’apparait dans aucun outil cote client.
  • Les references d’utilisateurs reels sont partiellement visibles dans chaque outil cote client, mais generalement sous-comptees d’un facteur de 2,5x a 5x. Les applications mobiles LLM affichent les liens sortants dans des WebViews isoles qui suppriment le referent. Gemini et Claude ne transmettent aucun signal d’attribution sur la plupart des plateformes testees. Les apercus IA de Google sont regroupes sous la recherche organique, ce qui rend difficile leur separation. Le meme regroupement apparait de la meme facon que le rapport que vous lisez soit dans GA4, Adobe ou une alternative respectueuse de la vie privee.
2,5 a 5x
Sous-comptage GA4 des sessions referees par LLM par rapport a la verite terrain cote serveur, base sur des tests pratiques dans des scenarios mobiles et desktop.
Tests appareil par appareil WISLR

La solution n’est pas un meilleur tag, une strategie UTM plus propre ou un changement vers un autre outil cote client. La solution est la capture cote serveur a la peripherie, classifiee par user-agent, plage d’IP verifiee et DNS inverse, et cousue ensemble par surface IA. C’est la seule facon de voir les trois signaux en meme temps, et c’est independant de l’outil d’analyse cote client que vous continuez a utiliser pour le reste de votre trafic.


Signal 1 : Entrainement LLM

L’entrainement LLM est l’IA qui lit votre marque et votre contenu pour alimenter la prochaine version de ses modeles. Les crawlers d’entrainement d’OpenAI, Anthropic, Google, Common Crawl et ByteDance recuperent vos pages selon un calendrier continu, ingerent le contenu et le roulent dans le prochain cycle d’entrainement. C’est la base de toute interaction ulterieure. Si un modele n’a pas absorbe votre page, il ne peut pas vous citer, ne peut pas recommander votre produit et ne peut pas vous envoyer d’utilisateur.

C’est aussi le signal sur lequel GA4 et tout autre outil d’analyse cote client ont zero visibilite. Les crawls d’entrainement ne sont visibles que dans vos journaux de requetes cote serveur.

Les crawls d’entrainement IA sont maintenant a l’echelle des moteurs de recherche

Le contexte de volume que la plupart des equipes manquent : Le volume de crawls d’entrainement IA sur un site typique riche en contenu rivalise maintenant avec le volume de crawls des principaux moteurs de recherche. Les crawlers d’entrainement OpenAI, Anthropic, Google, Common Crawl et ByteDance produisent ensemble des volumes de requetes du meme ordre de grandeur que Google Search et Bing combines. Sur de nombreux sites, les recuperations d’entrainement IA depassent deja les recuperations des moteurs de recherche en frequence.

~1:1
Ratio entre le volume de crawl d'entrainement IA et le volume de crawl des principaux moteurs de recherche sur un site typique riche en contenu. L'IA arrive a la meme intensite que Google Search au cours des vingt dernieres annees.
Journaux serveurs clients WISLR

Ce n’est plus un signal mineur ou de canal annexe. Les crawlers qui decident de ce que les outils IA savent sur votre marque arrivent a la meme intensite que les crawlers qui ont decide de ce que Google Search savait sur votre marque pendant les vingt dernieres annees.

Quoi regarder

Avec le bon suivi en place, le signal d’entrainement se decompose en plusieurs dimensions qui comptent pour l’action :

  • Volume quotidien par moteur IA sur des fenetres glissantes de 30 jours et all-time.
  • Couverture d’entrainement en pourcentage des pages a haute valeur de votre site, ventilee par section.
  • Pages les plus recuperees avec lien sortant, frequence d’actualisation et quelles surfaces IA les tirent.
  • Synthese par type de page afin de voir d’un coup d’oeil si l’IA lit vos pages produit, vos pages categorie, vos articles ou les trois.
  • Decomposition par moteur IA. OpenAI peut dominer tandis que l’entrainement IA de Google est silencieux ; Anthropic peut s’en tenir a votre blog tandis que Common Crawl couvre le catalogue.
  • Types de medias. C’est la dimension que la plupart des equipes oublient. Plus a ce sujet ensuite.

Les medias comme donnees d’entrainement : au-dela du corps de l’article

La plus grande lacune dans la pensee de la plupart des equipes est que l’entrainement n’est pas seulement du texte. Les bots IA recuperent aussi vos images, videos et audio. Chacun est une surface d’entrainement separee, et chacun porte une valeur de signal differente.

Avec un meilleur suivi en place, vous pouvez distinguer les pages des medias hors page pour voir ce que chaque moteur IA consomme reellement :

Type de contenu Ce qui est absorbe Pourquoi c'est important
Pages Texte du corps, en-tetes, liens internes, schema sur la page De loin la plus grande part du volume d'entrainement sur la plupart des sites.
Images Le fichier image lui-meme Affecte si vos produits apparaissent dans les reponses visuelles. Le texte alternatif et les legendes sont absorbes via la recuperation de la page, pas la recuperation de l'image.
Video Le fichier video lui-meme De plus en plus recupere a mesure que les modeles multimodaux deviennent communs. Les transcriptions et sous-titres sont absorbes via la recuperation de la page, pas la recuperation de la video.
Audio Le fichier audio lui-meme Un angle mort pour la plupart des editeurs ; materiel d'entrainement riche. Les notes d'emission et transcriptions sont absorbees via la recuperation de la page, pas la recuperation de l'audio.

L’implication pratique : votre texte alternatif, vos transcriptions et votre schema sur la page ne sont plus seulement de l’hygiene SEO. Ce sont des entrees d’entrainement. Plus ils sont clairs, plus precisement un modele represente votre marque et votre contenu a un futur utilisateur. Le cote Shopify de cette histoire, ou les flux produits et les donnees structurees deviennent la surface d’entrainement, est couvert dans Plan agentique Shopify : donnees produits hors de votre controle.

KPI qui comptent

Suivez ceci a la place
Volume verifie de crawl d'entrainement par moteur IA
Exemple
OpenAI248K Anthropic142K Google91K
30 derniers jours
Suivez ceci a la place
Frequence reelle de recuperation sur vos URL principales
Exemple
/guides/wide-feet-running412 / sem /products/widefeet-pro184 / sem /guides/best-trail-runners96 / sem
Suivez ceci a la place
Cadence de re-crawl et pourcentage de couverture par section
Exemple
/articles/ Couverture de section94% Re-crawle tous les4 jours /products/ Couverture de section78% Re-crawle tous les11 jours
Suivez ceci a la place
Priorisation par type de page (quelles sections l'IA lit le plus)
Exemple
Articles48% des crawls Produits31% des crawls Categories21% des crawls

La bonne question pour le signal d’entrainement n’est pas “combien sommes-nous crawles” mais “le bon contenu est-il crawle, assez souvent, par les moteurs IA qui comptent”. La methodologie pour passer des journaux bruts a cette question est dans Comportement des bots IA : une methodologie d’analyse de journaux.


Signal 2 : Citations en conversation, la couche en temps reel

Les citations en conversation sont l’IA recuperant votre page en plein chat pour repondre a la question en direct d’un utilisateur. Ce sont les recuperations en direct de ChatGPT, Claude et Perplexity. Chaque recuperation est, par definition, un moment ou quelqu’un a pose une question et le modele a decide que votre page etait la meilleure reponse. C’est le signal a la plus haute intention des trois signaux car la question est en train d’etre repondue maintenant.

C’est aussi le signal qui prouve quel contenu est reellement de qualite reference dans la vue de l’IA. L’entrainement vous dit ce qui a ete absorbe. Les citations vous disent ce qui est utilise.

Quoi regarder

Le signal de citation se decompose selon les memes dimensions que le signal d’entrainement, mais le sens de chacun change :

  • Volume quotidien des recuperations en direct par assistant. Un pic sur une page specifique est souvent correle a un cycle d’actualite topique ou a une nouvelle question de comparaison largement posee.
  • Couverture des citations, la part de votre contenu de qualite reference qui a ete recuperee au moins une fois dans la derniere fenetre.
  • Pages les plus recuperees avec l’assistant qui les a recuperees. Les surprises ici sont la regle, pas l’exception. Les pages que l’IA cite sont rarement les pages que vous attendriez.
  • Decomposition par surface IA. Differents assistants priorisent differents contenus. ChatGPT et Perplexity tendent a favoriser le contenu produit et reference structure ; Claude tend a favoriser l’ecriture explicative longue forme.
  • Types de medias. Les recuperations de citation en direct sont principalement des pages ; les images et videos sont citees moins souvent mais croissent a mesure que les reponses multimodales deviennent communes.

Pourquoi ce signal est uniquement precieux

Une citation en direct est ce qui se rapproche le plus d’un vote de confiance que produit l’ecosysteme IA. C’est le modele qui dit, devant un utilisateur reel, “cette page est la bonne source pour cette question”. Si vous suiviez un seul signal, ce serait celui-ci.

Le hic est que rien de tout cela n’est visible pour GA4 ou tout outil cote client, car la recuperation se fait cote serveur et l’utilisateur n’atterrit jamais sur votre page. La seule facon de voir les citations est a la peripherie.

Citations vs. part de voix (SOV)

La part de voix est l’alternative hors site que la plupart des equipes utilisent actuellement quand elles ne peuvent pas voir les citations cote serveur. C’est une mesure de la frequence avec laquelle votre marque apparait dans les reponses IA dans un panier de prompts representatifs. Une categorie croissante d’outils, dont Profound, Otterly, Peec, Evertune, AthenaHQ, BrandRank.AI, Ahrefs Brand Radar et les modules IA dans Semrush et BrightEdge, interrogent ChatGPT, Claude, Gemini et Perplexity a grande echelle, comptent les mentions de marque et signalent une part par rapport a un ensemble concurrentiel.

C’est un signal directionnel utile, mais notre preference pour mesurer la performance du canal IA est le signal de citation ci-dessus, car il capture les recuperations reelles au niveau de la page par la surface qui a fait la recuperation. SOV a des angles morts structurels que les citations n’ont pas.

SOV est probabiliste, les citations sont observees. Les modeles IA donnent des reponses differentes au meme prompt selon les parametres de temperature, le contexte de conversation et l’heure du jour. Executez la meme requete deux fois et vous pouvez obtenir deux ensembles differents de mentions de marque. Les outils SOV attenuent cela par echantillonnage et moyenne, mais la volatilite sous-jacente est reelle, et la precision de tout chiffre unique est plus faible que ce que la plupart des rapports suggerent. Les donnees de citation, en revanche, sont un journal serveur de recuperations reelles : chacune s’est produite, et chacune est comptable.

SOV echantillonne les prompts ; les citations sont ancrees dans des conversations reelles. Un outil SOV execute un panier de prompts choisis par l’analyste. Les utilisateurs reels posent des questions differentes, de differentes manieres, avec un contexte prealable different. L’echantillon peut ou non correspondre a ce que vos clients demandent reellement, et la plupart des outils ne rendent pas leur ensemble de prompts transparent. Une citation en direct, par definition, est venue d’un utilisateur reel posant une vraie question, donc il n’y a pas de biais d’echantillonnage.

Les modeles changent. Chaque nouvelle version de modele, ajustement de prompt systeme ou changement de recuperation modifie ce qui est cite. Un chiffre SOV mesure par rapport aux modeles du trimestre dernier est une mesure differente de celle prise par rapport a ceux de ce trimestre, et la plupart des outils ne sont pas transparents sur le versioning des modeles dans leurs rapports. L’activite de citation s’ajuste en temps reel car elle est capturee directement de la recuperation, sans couche d’inference entre les deux.

La facon la plus propre d’utiliser SOV est aux cotes du signal de citation, pas comme remplacement. SOV est un benchmark directionnel hors site de la frequence avec laquelle votre marque apparait dans les reponses. Les citations sont l’enregistrement verifie sur site des pages que l’IA a reellement utilisees pour les produire. Utilises ensemble, la simulation hors site et la verite sur site donnent une image plus complete que l’un ou l’autre seul.

KPI qui comptent

Suivez ceci a la place
Recuperations de citation verifiees par page, par assistant
Exemple
Page /guides/wide-feet
ChatGPT184 Perplexity92
30 derniers jours
Suivez ceci a la place
Frequence de citation sur vos principales pages de reference
Exemple
/guides/agentic-commerce-10162 / sem /guides/wide-feet-running38 / sem /compare/perplexity-vs-chatgpt26 / sem
Suivez ceci a la place
Part de citation par assistant, tendance hebdomadaire
Exemple
ChatGPT62%+4 pts Perplexity24%-1 pt Claude14%stable
Semaine sur semaine
Suivez ceci a la place
Concentration de citations par type de page
Exemple
Guides de comparaison52% des citations Articles28% des citations Avis14% des citations Autres6% des citations

Un schema typique, tire de deploiements reels d’editeurs et e-commerce : un petit ensemble de pages evergreen produit la majeure partie des citations, tandis que la page d’accueil entre rarement dans le top 50. Si le modele a decide que votre guide de comparaison approfondi est la bonne reponse a une question, il recuperera cette page des centaines de fois par semaine et pas du tout votre page d’accueil. C’est le signal operationnel que vous voulez.


Signal 3 : Utilisateurs reels, la reference a forte intention

Les moteurs IA sont des moteurs de recherche, pas des canaux d’interruption. Un utilisateur cliquant sur une citation dans ChatGPT, Claude, Perplexity ou Copilot a deja pose sa question, evalue la reponse et choisi votre page comme prochaine etape. Au moment ou il atterrit sur votre site, il est plus avance dans la courbe de consideration qu’un utilisateur de tout canal qui l’a interrompu. Dans nos deploiements, cela se traduit par des taux de conversion plus eleves et des fenetres de consideration plus courtes que le social, l’affichage et souvent meme la recherche payante. Le cadrage compte parce que les utilisateurs referes par IA sont prequalifies au moment de leur arrivee ; pour le contexte plus large du parcours acheteur, voir L’IA est un moteur de recherche, pas un canal de vente.

C’est aussi le seul signal qu’un outil d’analyse traditionnel peut voir du tout, et le signal vers lequel la plupart des equipes se tournent quand elles entendent “trafic LLM”. C’est aussi le signal ou la lacune WebView et la lacune sans referent Gemini/Claude font sous-rapporter GA4 par un facteur de 2,5 a 5, donc la haute intention est plus non comptee que tout autre canal sur votre site.

Quoi regarder

  • Sessions par assistant source, classifiees cote serveur plutot qu’en s’appuyant sur les en-tetes de referent.
  • Distribution des pages d’atterrissage. Les utilisateurs referes par IA tendent a atterrir sur des pages profondes, pas sur la page d’accueil.
  • Taux de conversion par source, compare a votre ligne de base organique. Dans nos deploiements, la conversion referee par IA s’execute generalement plus haut que le social par session.
  • Fenetres de delai d’achat. Les utilisateurs ChatGPT tendent a convertir le meme jour ; les utilisateurs Perplexity prennent souvent trois a cinq jours ; Gemini se situe entre les deux.
  • Attribution des revenus. Correspondance IP-vers-commande verifiee pour les cas les plus propres, correspondance probabiliste pour le reste.

Comment mesurer le trafic de reference des LLM dans Google Analytics (la reponse honnete)

La reponse courte est : vous ne pouvez pas, completement. Les UTM sont presents depuis ChatGPT mais pas depuis Gemini ou Claude. Les referents sont presents depuis les navigateurs desktop mais supprimes sur les applications mobiles. Les apercus IA apparaissent sous la recherche organique sans capacite de separation. Vous pouvez construire une image partielle en filtrant sur utm_source=chatgpt.com et sur les referents chatgpt.com, claude.ai, perplexity.ai, gemini.google.com et copilot.microsoft.com, mais vous regarderez environ un quart du trafic reel.

La reponse honnete est de capturer ce signal cote serveur. La carte d’attribution complete, avec chaque test appareil par appareil que nous avons execute, est dans Le trafic LLM est un angle mort dans votre analyse.

Le mobile est ou la lacune d’attribution LLM est la plus grande

Voici la partie du sous-comptage de references qui compte le plus : l’appareil que la plupart de votre audience utilise est aussi l’appareil ou l’attribution IA est la plus difficile a voir clairement. Le mobile genere 70 a 90 pour cent des sessions de sites grand public, et c’est la ou vivent les applications LLM. Sur les plateformes que nous avons testees, le mobile est la surface la moins suivie pour chaque LLM qui compte.

Plateforme Surface UTM Referent Tracable dans GA4
ChatGPT App mobile Oui
utm_source=chatgpt.com
Non Partiel
ChatGPT Navigateur mobile Oui Oui Oui
Gemini App mobile Non Non Non
Gemini Navigateur mobile Non Non Non
Claude App mobile Non Non Non
Claude Navigateur mobile Non Non Non

La raison structurelle est que les applications mobiles LLM affichent les liens sortants dans des WebViews isoles, qui suppriment le referent et detachent la session de tout contexte de navigateur prealable. La prevention intelligente du suivi d’iOS WebKit aggrave le probleme sur iPhone, ou le WebView est soumis aux restrictions de cookies meme lorsque la conversion se produit a l’interieur.

Le resultat est qu’une vue uniquement reference du trafic LLM finit par ressembler principalement a une vue desktop, meme si l’audience reelle est principalement mobile. Les comparaisons entre plateformes tirees des chiffres GA4 sont plus faciles a interpreter une fois cette lacune mobile prise en compte. La matrice complete appareil par appareil, y compris les scenarios desktop, est dans Le trafic LLM est un angle mort dans votre analyse.

KPI qui comptent

Suivez ceci a la place
Nombre de sessions referees par IA cote serveur
Exemple
Capture cote serveur6 420 sessions Meme periode dans GA41 840 sessions
30 derniers jours
Suivez ceci a la place
Taux de conversion par rapport a votre ligne de base organique
Exemple
IA4,8% Organique2,9% Social1,6%
Taux de conversion par session
Suivez ceci a la place
Distribution du delai d'achat par source
Exemple
ChatGPTMeme jour Gemini2 a 3 jours Perplexity4 a 5 jours
Suivez ceci a la place
Revenu par session, par assistant
Exemple
ChatGPT$4,20 Perplexity$7,10 Gemini$3,40
Revenu par session

Pour un regard plus approfondi sur la facon dont cela s’inscrit dans le parcours d’achat plus large, voir L’IA est un moteur de recherche, pas un canal de vente. Le cadrage compte parce que les utilisateurs referes par IA sont souvent des chercheurs en milieu d’entonnoir, et juger le canal uniquement sur la conversion de la meme session le sous-evaluera.


Du signal a l’action : comment les donnees de trafic LLM generent l’impact

La mesure ne gagne sa valeur que lorsqu’elle conduit a l’action. Avec les trois signaux suivis ensemble, deux modeles de recommandation emergent de maniere fiable des donnees inter-signaux, plus un journal continu qu’une equipe peut tenir de ce qui a ete travaille.

Fraicheur du contenu

Les principales URL crawles pour l’entrainement au cours des 30 derniers jours, classees par frequence de recuperation. La recommandation est directe : les garder precises, parce que les modeles apprendront ce qui est sur la page maintenant et representeront votre marque en consequence aux futurs utilisateurs. Une page obsolete sur laquelle OpenAI s’entraine la nuit est une page obsolete que ChatGPT representera mal pour le prochain cycle d’entrainement.

Action : examinez chaque page principalement crawlee a une cadence recurrente, corrigez tout ce qui est obsolete et tenez un registre de ce qui a ete examine et quand afin que la fraicheur devienne un flux de travail suivi plutot qu’un audit ponctuel.

Pages crawles mais non citees

Pages que les bots d’entrainement IA recuperent mais qui ont produit zero citation et zero reference dans la meme fenetre. Divisees en produits et categories pour l’e-commerce, en types d’articles pour les editeurs. C’est la lacune de citation, et c’est generalement le modele a effet de levier le plus eleve sur lequel agir.

Les bots ont lu la page. Le modele n’a pas decide de la citer. La solution est presque toujours la meme famille de changements : titres plus clairs, meilleures descriptions, texte de style FAQ et JSON-LD qui nomme le produit, l’audience et la reponse a la question evidente.

Action : reecrivez la page pour qu’elle soit plus citable, puis suivez le signal de citation sur cette URL au cours des deux prochaines semaines pour verifier la solution.

La carte d’action inter-signaux

Une fois les trois signaux captures, quatre modeles emergent et chacun pointe vers un travail specifique. Chaque cellule montre si ce signal est actif (la page apparait la), manquant (le signal est absent), faible (le signal est la mais sous-performant) ou n/a quand la question ne s’applique pas au modele.

Entrainement Citations References Modele Action
Actif Actif Actif Superstar IA Protegez la page. Maintenez le titre et le texte stables, surveillez la derive, verrouillez le JSON-LD.
Actif Manquant Manquant Lacune de citation Reecrivez pour la consommation IA : titres plus clairs, meilleures descriptions, texte de style FAQ, JSON-LD plus riche.
Actif Actif Faible Probleme de clic Le cadrage de citation ou le chargement de page perd l'utilisateur. Auditez la vitesse de page, la clarte du hero et l'extrait que l'IA cite.
Manquant n/a n/a Lacune de couverture Corrigez la decouvrabilite : robots.txt, sitemaps, liens internes et verifications d'acces par moteur.

C’est ce que nous voulons dire par “les donnees de trafic LLM generent l’action”. Lorsque les trois signaux sont cote a cote, chaque modele pointe vers un type specifique de travail, donc une equipe peut prioriser un changement a expedier cette semaine et verifier l’impact la semaine prochaine.


Comment benchmarker votre couverture de contenu pour l’entrainement et les citations

A l’ere de Google Search, l’indexation etait la metrique de sante fondamentale. Avant qu’une page puisse se classer, gagner des clics ou convertir, elle devait etre dans l’index. La couverture est la meme metrique pour l’ere LLM, et merite d’etre suivie comme sa propre chose, pas pliee dans un seul signal.

La comparaison etoile polaire
Ere Google Search
Ere LLM
Indexation (porte en amont)
Couverture (porte en amont)
Classement
Citations
Clics
References

La couverture est le pourcentage du contenu qui vous importe que l’IA lit et utilise reellement. C’est ce qui se rapproche le plus d’un nombre etoile polaire pour le canal IA car elle se situe en amont de tout autre signal. Si un modele n’a pas absorbe votre page, l’IA ne peut pas la citer. Si une page n’est jamais citee, l’IA ne peut pas envoyer un utilisateur dessus. La couverture est la porte qui decide si le reste de l’entonnoir est meme possible.

Traiter la couverture comme sa propre metrique, distincte de l’un des trois signaux, est ce qui rend le canal IA mesurable d’une maniere que les equipes familieres avec la recherche organique comprennent deja. La question passe de “sommes-nous crawles” a “assez du bon contenu atteint-il la reponse”. La couverture se divise proprement le long des deux premiers signaux.

Benchmark de couverture d’entrainement

Definissez d’abord votre univers de contenu de reference. Pour une equipe e-commerce, ce sont generalement toutes les pages produit actives, toutes les pages categorie et tous les guides evergreen. Pour un editeur, c’est les archives d’articles plus les pages de destination de reference et de sujet. L’univers est le denominateur.

Puis demandez : au cours des 30 derniers jours, quel pourcentage de ces URL ont ete recuperees au moins une fois par un crawler d’entrainement verifie de l’un des principaux moteurs IA ? C’est votre couverture d’entrainement de 30 jours. Un site sain avec un maillage interne raisonnable et un sitemap propre devrait fonctionner a 90 pour cent ou plus. En dessous de cela, vous avez un probleme de decouvrabilite : les bots ne peuvent pas trouver ou ne reviennent pas a une part significative de votre inventaire.

Puis divisez le meme nombre par moteur IA. La couverture par moteur est ou vit l’effet de levier. OpenAI peut couvrir 95 pour cent tandis que Google couvre 40 pour cent et Anthropic couvre 70 pour cent. Cette dispersion vous dit exactement ou investir dans un acces specifique a la surface (revision robots.txt, soumission sitemap, ameliorations de donnees structurees) et quels modeles representeront votre marque avec precision ou mal lorsqu’un futur utilisateur demandera.

Benchmark de couverture de citation

La couverture de citation se construit de la meme maniere mais contre un denominateur plus etroit : votre contenu de qualite reference, les pages que vous attendriez que l’IA cite si elle comprenait correctement votre site. Pour une equipe e-commerce, ce sont generalement les guides, comparaisons et contenu de style FAQ, pas les pages produit elles-memes. Pour un editeur, ce sont vos articles evergreen et de reference.

Demandez : au cours des 30 derniers jours, quel pourcentage de ces URL de reference ont recu au moins une recuperation en direct de ChatGPT, Claude ou Perplexity ? C’est votre couverture de citation de 30 jours. Un site dont le contenu de reference est bien structure, bien titre et enrichi en JSON-LD devrait fonctionner a 60 a 80 pour cent. En dessous de 40 pour cent, c’est un probleme de citabilite, presque toujours resolvable par des titres plus clairs, de meilleures descriptions, du texte de style FAQ et plus de donnees structurees.

Puis divisez par assistant. ChatGPT dominera le volume sur la plupart des sites ; Claude sera sous-represente dans tout outil qui ne gere pas correctement le trafic de bots non verifiable ; Perplexity sera sur-indexe sur le contenu produit et reference structure.

A quoi ressemble la sante globale

Les seuils exacts varient selon la profondeur des archives, le mix de contenu et l’audience, mais le modele d’un profil sain est suffisamment coherent pour etre publie :

  • Couverture d’entrainement de vos 100 pages principales : a ou pres de 100 pour cent sur une fenetre de 30 jours, avec au moins trois a quatre moteurs IA recuperant activement.
  • Couverture de citation de votre contenu de qualite reference : 60 a 80 pour cent sur une fenetre de 30 jours. En dessous de 40 pour cent indique des lacunes de citabilite dans les titres, descriptions et donnees structurees.
  • Pages de citation principales : contenu evergreen, approfondi, de qualite reference. La page d’accueil ne devrait pas etre dans le top 20.
  • Concentration de citation : 60 a 80 pour cent de toutes les citations sur vos 30 pages principales est normal. Une concentration uniquement sur vos 5 principales signifie que votre surface de reference est trop etroite. Si vos chiffres divergent fortement de ce modele, le diagnostic est generalement des lacunes de donnees structurees, du contenu que le modele ne considere pas comme citable ou un probleme de couverture que les liens internes et les sitemaps peuvent resoudre.

Pour la primer fondamentale sur la visibilite IA avant tout cela, voir Comprendre la visibilite IA. Pour le cadre a sept KPI qui se mappe proprement au modele a trois signaux, voir Metriques de performance IA : sept KPI que chaque marque devrait suivre.


Arretez d’estimer, commencez a activer

Lorsque le trafic LLM est rapporte comme un seul nombre, beaucoup de contexte utile manque. Un contenu fort peut sembler plus calme qu’il ne l’est reellement parce que la majeure partie de son impact tombe en dehors de l’outil d’analyse. La performance prometteuse est difficile a retracer jusqu’a l’activite en amont qui l’a gagnee. Les equipes finissent par s’appuyer sur des signaux indirects parce que les directs ne sont pas encore visibles.

Trois signaux sur votre site remplissent cette image. L’entrainement vous montre ce que l’IA absorbe sur votre marque et votre contenu. Les citations vous montrent quelles pages l’IA atteint pour repondre a de vraies questions en temps reel. Les references vous montrent les utilisateurs a forte intention que l’IA envoie. En amont des trois se trouve la couverture, l’equivalent de l’ere LLM a l’indexation, et la porte qui decide si le reste de l’entonnoir est meme possible.

Lus ensemble, les trois signaux donnent a une equipe un modele inter-signaux clair sur lequel agir chaque semaine. Les superstars IA sont des pages a proteger, les lacunes de citation sont des pages a reecrire, les problemes de clic pointent vers la vitesse de chargement et le cadrage de l’extrait, et les lacunes de couverture pointent vers la decouvrabilite. Hors site, la part de voix est un benchmark directionnel utile pour les conversations qui ont lieu dans les reponses IA, mais pour mesurer l’impact reel de la performance, le modele a trois signaux sur site est ce que nous croyons que les marques devraient orienter a mesure qu’elles investissent dans la croissance du canal IA.

Ensemble, ils transforment le canal IA de quelque chose a estimer en quelque chose que votre equipe peut planifier, mesurer et sur lequel agir avec confiance.

Configurer AI Channel Analytics

Les trois signaux dans un seul tableau de bord

Le tableau de bord ci-dessous regroupe les trois signaux on-site dans une seule vue, avec la couverture de contenu suivie en parallele comme porte d’entree upstream. Les crawls d’entrainement arrivent par page, les citations sont ventilees par moteur et les referrals sont attribues de bout en bout jusqu’au chiffre d’affaires.

Voir la demo du tableau de bord

Questions frequemment posees

Quelle est la difference entre les crawls d'entrainement IA et les recuperations de citation IA ?

Les crawls d'entrainement se font en arriere-plan et alimentent les donnees d'entrainement des modeles. Des moteurs IA comme OpenAI, Anthropic, Google et Common Crawl les executent selon un calendrier. Les recuperations de citation se font en temps reel, lorsqu'un utilisateur pose une question et qu'un assistant IA recupere une page au nom de l'utilisateur pour repondre. Les agents a rechercher dans vos journaux sont ChatGPT-User, Claude-User et Perplexity-User. L'entrainement faconne ce que l'IA sait sur votre marque ; les citations montrent ce que l'IA utilise activement pour repondre aux questions en ce moment.

Comment savoir si mon contenu est cite par ChatGPT, Claude ou Perplexity ?

La methode complete consiste a capturer les journaux de requetes cote serveur a la peripherie et a les classer par user-agent et plage d'IP verifiee. ChatGPT-User, Claude-User et Perplexity-User s'identifient dans la requete, donc la capture cote serveur vous donne un enregistrement par-page et par-assistant de chaque fois qu'une IA a recupere une page pour repondre a une question en direct. Les outils d'analyse cote client comme GA4, Adobe, Mixpanel, Amplitude, Heap, Plausible, Fathom et Matomo ne peuvent pas voir ce signal car la recuperation n'ouvre jamais de navigateur et ne declenche jamais de tag JavaScript.

Qu'est-ce que la couverture de contenu pour les LLM et pourquoi est-elle importante ?

La couverture de contenu est le pourcentage du contenu qui vous importe que les moteurs IA lisent et utilisent reellement. Elle fonctionne comme l'indexation pour Google Search : elle se situe en amont de tout autre signal. Si l'IA n'a pas absorbe votre page, elle ne peut pas la citer. Si elle n'a pas cite la page, elle ne peut pas envoyer un utilisateur dessus. La couverture est la metrique de sante fondamentale pour la mesure du canal IA et ce qui se rapproche le plus d'une etoile polaire pour le canal IA.

Qu'est-ce que la part de voix dans la recherche IA et comment se compare-t-elle au suivi des citations ?

La part de voix est une mesure hors site de la frequence avec laquelle votre marque apparait dans les reponses generees par IA dans un panier d'echantillon de prompts. Des outils comme Profound, Otterly, Peec, Evertune, AthenaHQ, BrandRank.AI, Ahrefs Brand Radar et les modules IA dans Semrush et BrightEdge interrogent les moteurs IA a grande echelle et signalent une part relative. C'est utile pour le benchmarking concurrentiel mais probabiliste et incomplet car les reponses IA ne sont pas deterministes et l'echantillon de prompts est choisi par l'analyste. Le suivi des citations, en revanche, est l'enregistrement verifie cote serveur des pages que l'IA a reellement recuperees pour repondre a de vraies questions. Utilisez la part de voix pour le benchmarking directionnel et les citations pour la mesure de performance.

Pourquoi Google Analytics 4 sous-rapporte-t-il le trafic de reference IA ?

GA4 sous-rapporte generalement les sessions referees par IA d'un facteur de 2,5 a 5. La cause est structurelle plutot que configurable. Les applications mobiles LLM affichent les liens sortants dans des WebViews isoles qui suppriment le referent. Gemini et Claude ne transmettent aucun signal d'attribution sur la plupart des plateformes testees. Les apercus IA de Google sont regroupes sous la recherche organique sans moyen de les separer. Les memes lacunes s'appliquent a tout autre outil d'analyse cote client, car le probleme est le modele de mesure par tag JavaScript lui-meme, pas l'outil.

Comment les utilisateurs referes par IA se comportent-ils differemment du trafic organique ou social ?

Les utilisateurs referes par IA ont tendance a convertir a des taux par session plus eleves que les reseaux sociaux et souvent plus eleves que l'organique une fois que les apercus IA sont separes de l'organique. Ils arrivent apres avoir recherche la question avec l'IA, evalue la reponse et choisi votre page comme prochaine etape, ils sont donc plus avances dans la courbe de consideration que les utilisateurs des canaux qui les ont interrompus. Le delai d'achat varie selon le moteur IA. Les utilisateurs ChatGPT ont tendance a convertir le meme jour, les utilisateurs Gemini prennent plusieurs jours, les utilisateurs Perplexity prennent souvent trois a cinq jours. Raccourcir la fenetre d'attribution pour tous sous-rapporte le canal.

Par ou commencer quand la mesure du canal IA est nouvelle pour mon equipe ?

Commencez par la couverture de contenu. Confirmez que les principaux moteurs IA, OpenAI, Anthropic, Google, Perplexity et Common Crawl, peuvent atteindre et lisent activement le contenu qui compte. Une fois l'image en amont claire, ajoutez le suivi des citations pour voir quelles pages l'IA utilise reellement pour repondre aux questions. Ajoutez l'attribution des references en dernier, car un nombre de references sans contexte de couverture et de citations est impossible a actionner. La couverture est la porte sur laquelle repose tout autre signal, et commencer la construit une base sur laquelle le reste du cadre peut grandir.