← All Articles

Le trafic des bots IA s'accélère rapidement. 48 jours de logs serveur révèlent ce que font GPTBot, ChatGPT, ClaudeBot et 16 autres.

Analyse du trafic des bots IA sur 48 jours de logs serveur montrant GPTBot, ChatGPT-User, ClaudeBot et 16 autres bots

Le trafic des bots IA n’est plus un filet

Entre février et mi-mars 2026, l’activité des bots IA sur wislr.com n’a pas simplement augmenté. Elle a changé de forme.

  • Le trafic ChatGPT-User a été multiplié par 5 en sept semaines
  • GPTBot, totalement absent jusqu’au 12 mars, a exécuté 187 requêtes en une seule semaine, dont 152 en une rafale de 3 minutes
    • GPTBot n’est pas un nouveau bot. C’est le crawler d’entraînement principal d’OpenAI, actif sur le web depuis des années. Mais il ne semble pas crawler chaque site en continu. Les données suggèrent qu’il s’active sur un site une fois que le contenu de ce site gagne en traction dans l’écosystème d’OpenAI. Les référencements ChatGPT-User vers wislr.com avaient déjà été multipliés par 5 avant que GPTBot n’apparaisse.
  • Le volume d’OAI-SearchBot a été multiplié par 4
  • Les 18 et 19 mars, ClaudeBot et GPTBot ont commencé à demander sitemap.xml pour la première fois, le même jour, depuis des entreprises différentes

C’est un changement dans la façon dont les plateformes IA découvrent et indexent le contenu.


20 enseignements pour votre propre site web

  1. Google Analytics ne peut rien voir de tout cela. Les bots IA n’exécutent pas le JavaScript. Si vous comptez sur les analyses côté client, votre trafic de bots IA est invisible. La journalisation côté serveur est le seul moyen de le mesurer.
  2. Votre sitemap.xml vient de gagner en importance. GPTBot et ClaudeBot ont tous deux commencé à consommer les sitemaps en mars 2026 pour la première fois. Si votre sitemap est obsolète, incomplet ou ne contient pas les variantes linguistiques, les crawlers IA manqueront du contenu.
  3. robots.txt n’est pas universellement respecté. GPTBot et Meta-WebIndexer ne le vérifient jamais. Si votre stratégie de contenu IA dépend des directives robots.txt, sachez que deux des crawlers les plus actifs les ignorent complètement.
  4. Le contenu multilingue reçoit une attention disproportionnée de crawl. Des bots comme Meta-WebIndexer (80 %), GPTBot (62 %) et Bingbot (60 %) consacrent la majorité de leur budget aux variantes linguistiques. Si vous publiez du contenu traduit, les plateformes IA l’indexent agressivement.
  5. Le trafic ChatGPT-User est un signal direct de citation de marque dans les conversations IA. Chaque requête représente une personne réelle collant votre URL dans ChatGPT. C’est du bouche-à-oreille mesurable, et il croît rapidement.
  6. Les bots IA crawlent par rafales, pas en flux continus. GPTBot a atteint 114 req/min dans une fenêtre de 3 minutes. Si votre serveur ne peut pas gérer le trafic en rafales, les crawlers IA peuvent être limités ou rencontrer des erreurs lors de leurs sessions d’indexation.
  7. OpenAI et Anthropic opèrent chacun 3 bots distincts. Un pour l’entraînement/indexation, un pour la recherche, un pour les sessions utilisateur en direct. En bloquer un ne bloque pas les autres. Votre robots.txt nécessite des directives séparées pour chacun.
  8. OAI-SearchBot et Googlebot sont les seuls bots qui récupèrent des images en volume. Si les images de vos articles portent un contenu significatif (graphiques, diagrammes, visualisations de données), ce sont les bots qui les utiliseront dans les résultats de recherche.
  9. ChatGPT-User n’extrait que le texte. Zéro image, zéro CSS, zéro JS. Votre contenu HTML est ce qui est intégré dans les conversations IA. Un texte structuré et clair compte plus que le design visuel pour la visibilité IA.
  10. Les crawlers IA atteignent leur pic à des heures différentes. GPTBot frappe à 04:00 UTC. Claude-SearchBot culmine durant la nuit. PerplexityBot fait des rafales à 23:00, 05:00 et 09:00. Si vous déployez des modifications de site hors des heures de pointe US, les bots IA peuvent être les premiers à les voir.
  11. Meta est le crawler IA le plus agressif en volume. Meta-WebIndexer a envoyé plus de requêtes que tout autre bot dans ce jeu de données, avec zéro vérification de robots.txt. Si vous ne suivez pas les crawlers de Meta, vous passez à côté du plus gros acteur.
  12. L’adoption de llms.txt est encore théorique. Zéro bot IA n’a demandé /llms.txt en 48 jours. Cela pourrait devenir un standard à terme, mais aucun crawler ne le recherche actuellement.
  13. Applebot effectue un rendu complet de vos pages. Il récupère le CSS, le JS et les images (47 % de son trafic). Si votre contenu nécessite un rendu JavaScript pour être complet, Applebot le verra, mais la plupart des bots IA ne le verront pas.
  14. Le trafic ChatGPT-User est distribué mondialement. 15 pays, 584 IPs uniques. Votre contenu est référencé dans des conversations IA à travers le monde, pas seulement aux États-Unis.
  15. Le contenu technique et les guides pratiques sont les plus référencés dans les conversations IA. Les pages ChatGPT-User les plus consultées étaient toutes des guides d’implémentation et des explications techniques. Un contenu approfondi et spécifique génère des citations IA.
  16. Bytespider et CCBot ne vérifient que robots.txt et ne crawlent jamais. Ils consomment vos directives robots.txt sans y donner suite. Cela peut changer, mais actuellement ils génèrent une charge de conformité sans aucune indexation de contenu.
  17. Le volume de crawl IA peut changer du jour au lendemain. GPTBot est passé de 0 à 187 requêtes en une seule semaine. Vos projections de budget de crawl doivent prendre en compte des changements brusques, pas une croissance progressive.
  18. L’analyse des IPs révèle l’identité des bots. Le rapport quasi 1:1 entre IPs et requêtes de ChatGPT-User prouve des sessions utilisateur individuelles. Les 2 IPs de GPTBot prouvent une infrastructure centralisée. Les schémas d’IPs aident à distinguer les récupérations déclenchées par de vrais utilisateurs du crawl automatisé.
  19. Des événements de crawl coordonnés se produisent entre familles de bots. GPTBot et OAI-SearchBot se sont déclenchés simultanément le 19 mars depuis la même infrastructure Microsoft. Quand un bot OpenAI monte en charge, attendez-vous à ce que les autres suivent.
  20. Les bots dont vous n’avez jamais entendu parler visitent déjà votre site. PromptingBot, LinkupBot, Brightbot, Observer et d’autres crawlent activement du contenu. Le paysage des bots IA est plus vaste que ne le suggèrent les noms les plus connus.

Les données

Source : 288 566 fichiers de logs provenant de la journalisation des requêtes CDN sur wislr.com
Période : du 1er février au 20 mars 2026
Total des requêtes : 71 603
Requêtes de bots IA/crawlers analysées : 12 099 (16,9 % de tout le trafic)

Chaque requête HTTP vers wislr.com passe par un script CDN qui capture les métadonnées complètes de la requête (user agent, géolocalisation, en-têtes, timing). Cela nous donne une vérité terrain sur ce que font exactement les bots IA, à quelle fréquence et ce qu’ils lisent.

Vous voulez ce niveau de visibilité sur votre propre trafic de bots IA ?

Planifier un appel

Classement des bots par volume

Rang Bot Total requêtes Fév Mar (partiel) Tendance
1 Meta-WebIndexer 1 833 707 1 126 +59 %
2 Bingbot 1 221 547 674 +23 %
3 ChatGPT-User 923 230 693 +201 %
4 Googlebot 816 386 430 +11 %
5 Claude-SearchBot 549 216 333 +54 %
6 Applebot 495 257 238 -7 %
7 PerplexityBot 456 244 212 -13 %
8 OAI-SearchBot 330 117 213 +82 %
9 ClaudeBot 206 69 137 +99 %
10 GPTBot* 187 0 187 Nouveau en mars
11 Amazonbot 71 27 44 +63 %
12 Bytespider 68 33 35 +6 %
13 Claude-User 18 6 12 +100 %
14 CCBot 5 2 3 Minimal
15 Meta-ExternalAgent 4 0 4 Nouveau
16 DuckAssistBot 4 0 4 Nouveau
17 Perplexity-User 3 3 0 Minimal
18 YouBot 2 0 2 Nouveau
19 GoogleOther 2 1 1 Minimal

*GPTBot n’est pas un nouveau bot. C’est le crawler d’entraînement principal d’OpenAI, actif sur le web depuis des années. “Nouveau en mars” signifie nouveau sur ce site. Les données suggèrent que GPTBot s’active sur un site une fois que son contenu gagne en traction dans l’écosystème d’OpenAI : les référencements ChatGPT-User avaient déjà été multipliés par 5 avant que GPTBot n’apparaisse.


Tendances hebdomadaires des volumes

Bot Fév S1 Fév S2 Fév S3 Fév S4 Mar S1 Mar S2 Mar S3
GPTBot 0 0 0 0 0 4 183
ChatGPT-User 39 66 65 60 72 304 317
OAI-SearchBot 28 34 29 26 28 46 139
ClaudeBot 10 14 9 36 51 24 62
Claude-SearchBot 31 51 47 87 121 68 144
PerplexityBot 22 132 62 28 37 77 98
Bingbot 132 163 136 116 151 248 275
Meta-WebIndexer 63 35 271 338 396 541 189
Amazonbot 8 6 7 6 2 2 40

La semaine 3 de mars (15-20 mars) a été une semaine de rupture. GPTBot est passé de quasi zéro à 183 requêtes. ChatGPT-User a maintenu plus de 300/semaine (5x sa base de février). OAI-SearchBot a atteint 139, un bond de 4x. Quelque chose de coordonné s’est produit au sein de la flotte de bots d’OpenAI.


Profils individuels des bots


GPTBot (crawler d’entraînement/indexation d’OpenAI)

Total : 187 requêtes | Actif depuis : 12 mars | IPs : 2 (très concentrées)

GPTBot n’est pas un nouveau bot. OpenAI le définit comme le crawler utilisé pour « rendre nos modèles de fondation IA générative plus utiles et sûrs », crawlant du contenu potentiellement utilisé pour l’entraînement de leurs modèles de fondation. Il opère sur le web depuis des années. Ce qui est notable ici, c’est que GPTBot était totalement absent de wislr.com jusqu’au 12 mars, puis s’est activé avec une rafale massive de crawl le 19 mars à 04:38 UTC : 152 requêtes en 3 minutes (pic de 114 req/min). Il a systématiquement crawlé chaque article dans chaque variante linguistique.

Cela suggère que GPTBot ne crawle pas chaque site en continu. Il semble s’activer et monter en charge sur un site une fois que le contenu de ce site gagne en traction dans l’écosystème d’OpenAI, les référencements ChatGPT-User vers wislr.com ayant déjà été multipliés par 5 avant l’apparition de GPTBot.

Ce qu’il crawle :

  • Articles : 67 % des requêtes
  • Variantes linguistiques : 61,5 %, crawle les 11 versions linguistiques (de, fr, pl, hi, nl, uk, pt, ms, tr, it, es)
  • Images : 28 requêtes (en-têtes d’articles, photos d’auteurs)
  • Sitemap.xml : 2 requêtes (débuté le 19 mars, comportement tout nouveau)
  • robots.txt : Zéro. Ne le vérifie jamais.

Timing de crawl : 81 % de toutes les requêtes à 04:00 UTC. Schéma de rafale extrême, quasi tout le trafic dans une seule fenêtre de 3 minutes.

Infrastructure : Fonctionne depuis le réseau Microsoft Limited ASN, uniquement aux États-Unis. 97,9 % du trafic provient d’une seule IP.

La rafale de GPTBot le 19 mars était concomitante avec une rafale d’OAI-SearchBot depuis la même infrastructure Microsoft : 50 req/min au même horodatage. Cela semble coordonné.


OAI-SearchBot (crawler de recherche d’OpenAI)

Total : 330 requêtes | Tendance : +82 % de fév à mar | IPs : 81

OAI-SearchBot est le crawler de recherche dédié d’OpenAI, distinct de GPTBot. C’est le vérificateur de robots.txt le plus assidu de tous les bots IA, le consultant 3 à 6 fois chaque jour sans exception.

Ce qu’il crawle :

  • robots.txt : 54,5 % de tout le trafic (180 occurrences, 3,8/jour en moyenne)
  • Articles : 52 requêtes
  • Images : 55 requêtes, télécharge activement les images d’articles, photos d’auteurs, captures d’écran de pages
  • Page d’accueil : 9 requêtes

Timing de crawl : Réparti sur la journée avec de légers pics à 04:00 et 20:00 UTC.

Infrastructure : Microsoft Limited (87 %) + Microsoft Corp (13 %), uniquement aux États-Unis.

Le seul bot OpenAI qui respecte robots.txt (le vérifie de manière obsessionnelle). Également le seul bot IA, avec Googlebot, qui récupère activement des images en volume, probablement pour les cartes de résultats de recherche.


ChatGPT-User (récupérateur de session utilisateur en direct)

Total : 923 requêtes | Tendance : +201 % de fév à mar | IPs : 584

Ce n’est pas un crawler. Il se déclenche quand une personne réelle colle une URL wislr.com dans une conversation ChatGPT. Les 584 IPs uniques (rapport quasi 1:1 avec les requêtes) confirment qu’il s’agit de sessions utilisateur individuelles. C’est le signal le plus clair de la fréquence à laquelle le contenu wislr.com est cité dans les conversations IA.

Contenu le plus référencé :

Requêtes Article
225 Shopify Same-Domain Checkout Analytics
112 Cloudflare Crawl Endpoint Pros and Cons
103 Cloudflare Crawl Best Settings
91 Cloudflare CDN Request Logging for Shopify
81 6 Core Tasks for Better 301 Redirects
50 AI Performance Metrics: Seven KPIs
37 Homepage
30 Essential Tools for Site Migrations
29 OpenAI KPIs and Success Metrics 2026
23 AEO Readiness Comparison

Ce qu’il ne récupère pas : Zéro image, zéro CSS, zéro JS. Extraction pure de contenu HTML, il ne veut que le texte.

Timing de crawl : Réparti uniformément sur les 24 heures, suit les schémas d’utilisation humaine.

Distribution géographique : États-Unis (50 %), Pologne (16 %), Australie (5 %), Espagne (5 %), Japon (5 %), Brésil (4 %), 15 pays au total. Villes principales : Varsovie (149), Phoenix (145), San Antonio (126), Des Moines (91).


ClaudeBot (crawler d’entraînement/indexation d’Anthropic)

Total : 206 requêtes | Tendance : +99 % de fév à mar | IPs : 22

ClaudeBot est massivement concentré sur la vérification de conformité : 85 % de son trafic est robots.txt.

Ce qu’il crawle :

  • robots.txt : 175 requêtes (85 %), passant de 1-2/jour début février à 6-12/jour en mars
  • Sitemap.xml : 14 requêtes, débuté le 18 mars (jamais consulté auparavant)
  • Images : 10 requêtes (toutes le 18 mars)
  • Pages de contenu : très peu

ClaudeBot vérifie robots.txt de plus en plus agressivement au fil du temps. Son intérêt soudain pour sitemap.xml le 18 mars (5 occurrences ce jour-là, 8 le 19 mars) suggère le déploiement d’une nouvelle stratégie de crawl par Anthropic.

Infrastructure : Anthropic, PBC ASN (97 %), uniquement aux États-Unis.


Claude-SearchBot (crawler de recherche web d’Anthropic)

Total : 549 requêtes | Tendance : +54 % de fév à mar | IPs : 8

Un bot Anthropic distinct de ClaudeBot et Claude-User. Il alimente la fonctionnalité de recherche web de Claude. Plus agressif que ClaudeBot, il crawle réellement du contenu.

Ce qu’il crawle :

  • robots.txt : 164 requêtes (30 %), quotidiennement, passant de 1-3 à 7-10/jour
  • Sitemap.xml : 135 requêtes, débuté le 25 février, rapidement devenu le deuxième consommateur de sitemap le plus actif après Bingbot
  • Articles : 142 requêtes (26 %)
  • Variantes linguistiques : 23,3 % du trafic
  • Page d’accueil : 45 requêtes

Timing de crawl : Pondéré vers la nuit, pics à 22:00, 01:00, 00:00 UTC.

Au total, Anthropic opère 3 bots distincts (ClaudeBot, Claude-SearchBot, Claude-User) totalisant 773 requêtes, faisant d’Anthropic la troisième plus grande présence de bots IA après Meta-WebIndexer et ChatGPT-User.


Claude-User (récupérateur de session en direct d’Anthropic)

Total : 18 requêtes | IPs : 8

L’équivalent Anthropic de ChatGPT-User. Se déclenche quand quelqu’un partage une URL dans une conversation Claude. Volume bien inférieur à ChatGPT-User (18 contre 923).

Ce qu’il crawle : robots.txt (9), puis des articles sur Cloudflare et une étude de cas de cabinet d’avocats.

Infrastructure : Google LLC ASN (100 %), uniquement aux États-Unis. Passe par Google Cloud, pas par l’infrastructure propre d’Anthropic.


PerplexityBot (crawler d’indexation de Perplexity)

Total : 456 requêtes | Tendance : -13 % de fév à mar | IPs : 13

Schéma de crawl par rafales : 132 requêtes en fév S2, chute à 28 en fév S4, remonte à 98 en mar S3.

Ce qu’il crawle :

  • Articles : 77 % du trafic, cible fortement le contenu sur les métriques de performance IA
  • robots.txt : 71 requêtes (régulier, 1-4/jour)
  • Images : 18 requêtes (images spécifiques aux articles)
  • Sitemap.xml : Zéro. Ne le demande jamais.
  • Variantes linguistiques : 52,9 %, large couverture multilingue

Timing de crawl : Trois fenêtres de rafale distinctes à 23:00, 05:00 et 09:00 UTC.

Infrastructure : Amazon Technologies Inc. (96 %), uniquement aux États-Unis. 13 IPs, concentration modérée.


Googlebot

Total : 816 requêtes | IPs : 72

Axé sur la page d’accueil (27 % du trafic) et le crawler effectuant le plus de « rendu complet ». Récupère images, CSS, JS en plus du contenu.

Ce qu’il crawle :

  • Page d’accueil : 220 requêtes (27 %)
  • Images : 152 requêtes
  • CSS : 132 requêtes
  • JS : 54 requêtes
  • Articles : 141 requêtes
  • robots.txt : 68 requêtes
  • Sitemap.xml : 5 requêtes (occasionnel)

Variantes linguistiques : Seulement 10,4 %, nettement moins multilingue que les autres bots.

Infrastructure : Google LLC (91 %), une partie depuis la Suède (8 %). Schéma de crawl uniforme sur 24 heures.


Bingbot

Total : 1 221 requêtes | Tendance : +23 % de fév à mar | IPs : 258

Le crawler le plus régulier et le plus large. Également le consommateur de sitemap dominant.

Ce qu’il crawle :

  • Articles : 68 % (avec une forte couverture des variantes linguistiques)
  • Sitemap.xml : 139 requêtes (2-8/jour, tous les jours), de loin le crawler de sitemap le plus actif
  • Images : 78 requêtes (icônes sociales, PNGs de tableau de bord, images d’articles)
  • robots.txt : 36 requêtes

Variantes linguistiques : 60,3 %, forte concentration sur les variantes néerlandaise (97) et allemande (98).

Timing de crawl : Couverture uniforme sur 24 heures, toujours actif.


Meta-WebIndexer

Total : 1 833 requêtes | Tendance : +59 % de fév à mar | IPs : 156

Le bot le plus actif en volume global. Massivement concentré sur le contenu, en particulier les variantes linguistiques.

Ce qu’il crawle :

  • Articles : 88 % du trafic
  • Variantes linguistiques : 79,8 %, de loin le crawler multilingue le plus agressif
  • Sitemap.xml : 30 requêtes
  • robots.txt : Zéro. Ne vérifie jamais robots.txt.

Timing de crawl : Forte activité en soirée/nuit, pics à 20:00-21:00 et 00:00-01:00 UTC.

Infrastructure : Meta Platforms Ireland Ltd ASN, uniquement aux États-Unis.

Comme GPTBot, Meta-WebIndexer ne vérifie pas robots.txt. Contrairement à GPTBot, il a été actif de manière constante durant toute la période.


Schémas comportementaux

Conformité robots.txt

Comportement Bots
Vérificateurs obsessionnels (plusieurs fois par jour) OAI-SearchBot (3,8/jour), ClaudeBot (4/jour), Claude-SearchBot (4/jour)
Vérificateurs réguliers (quotidiens ou quasi quotidiens) PerplexityBot, Googlebot, Applebot, Amazonbot, FacebookExternalHit (exactement 1/jour comme une horloge)
Ne vérifient que robots.txt, rien d’autre Bytespider (100 %), CCBot (100 %)
Ne vérifient jamais robots.txt GPTBot, Meta-WebIndexer, ChatGPT-User

GPTBot et Meta-WebIndexer sont les bots non conformes notables. Ils crawlent agressivement sans jamais vérifier les règles.

Découverte du sitemap

Bot Requêtes sitemap Première requête Schéma
Bingbot 139 1er fév Quotidien, 2-8/jour (le roi du sitemap)
Claude-SearchBot 135 25 fév Intensif, devenu 2e plus actif
Meta-WebIndexer 30 5 fév Régulier
ClaudeBot 14 18 mar Comportement tout nouveau
Googlebot 5 2 fév Occasionnel
GPTBot 2 19 mar Comportement tout nouveau
Applebot 1 17 mar Occurrence unique

Les 18 et 19 mars marquent un tournant. ClaudeBot et GPTBot ont tous deux commencé à demander sitemap.xml pour la première fois, suggérant de nouveaux déploiements de stratégies de crawl chez Anthropic et OpenAI simultanément.

Requêtes llms.txt / fichiers spécifiques IA

Aucun bot IA ne demande /llms.txt ou /llm.txt. Zéro occurrence de GPTBot, ClaudeBot, PerplexityBot ou tout autre crawler IA.

Le seul bot vérifiant llms.txt est Dataprovider.com (une société d’analyse web) : 3 requêtes entre février et mars.

Deux requêtes pour /.well-known/ai-plugin.json provenaient de navigateurs Firefox, pas de bots.

Crawl des variantes linguistiques

Bot % du trafic en variantes linguistiques Couverture
Meta-WebIndexer 79,8 % Les 11 langues, répartition uniforme
GPTBot 61,5 % Les 11 langues, 8-12 chacune
Bingbot 60,3 % Les 11, forte proportion néerlandais/allemand
PerplexityBot 52,9 % Les 11, allemand/espagnol en tête
Amazonbot 32,4 % Les 11
Claude-SearchBot 23,3 % Les 11, assez uniforme
Applebot 23,0 % Les 11
OAI-SearchBot 11,2 % Les 11
Googlebot 10,4 % Espagnol/portugais en tête
ChatGPT-User 4,7 % Français/espagnol/italien (piloté par les utilisateurs)

Meta-WebIndexer et GPTBot sont les crawlers multilingues les plus agressifs. Le faible pourcentage de ChatGPT-User est logique : il reflète les langues dans lesquelles les utilisateurs réels lisent.

Crawl d’images

Bot Requêtes d’images Ce qu’ils récupèrent
Googlebot 152 Icônes SVG, logos, favicons, ressources de rendu
Google-InspectionTool 108 Icônes sociales, images d’études de cas
Googlebot-Image 75 Favicon, variantes de logo, images d’articles
Bingbot 78 Icônes sociales, PNGs de tableau de bord, images d’articles
OAI-SearchBot 55 Images d’articles, photos d’auteurs, captures d’écran
Applebot 32 Images de couverture d’articles
GPTBot 28 En-têtes d’articles, photos d’auteurs (toutes le 19 mar)
PerplexityBot 18 Images d’articles
ClaudeBot 10 Photo d’auteur, captures d’écran (toutes le 18 mar)
ChatGPT-User 0 Ne récupère jamais d’images

Googlebot récupère des images pour le rendu. OAI-SearchBot les récupère probablement pour les cartes de résultats de recherche. GPTBot et ClaudeBot ont chacun effectué des rafales d’images concentrées sur un seul jour, suggérant des sessions d’indexation par lots.

ChatGPT-User ne récupère aucune image. Extraction de texte pure.

Autres bots notables découverts

PromptingBot/1.0.0 (104 requêtes)

  • Fonctionne sur l’infrastructure Google Cloud
  • Actif du 24 février au 13 mars
  • Effectue un rendu complet des pages (récupère CSS, JS, images, icônes sociales)
  • Cible le contenu sur les métriques de performance IA

LinkupBot/1.0 (47 requêtes)

  • De linkup.so, un service d’indexation web
  • Infrastructure Microsoft, origine : France
  • Vérifie robots.txt, puis se concentre sur le contenu migration/redirections

Brightbot 1.0 (46 requêtes)

  • De truview LLC, 41 IPs uniques
  • Se concentre sur les variantes en néerlandais

Observer/1.0 (36 requêtes)

  • De obsrvr.net, infrastructure allemande/finlandaise
  • Ne crawle que robots.txt et un seul article en français

Dataprovider.com (148 requêtes)

  • Société canadienne d’analyse web
  • Le seul bot qui vérifie /llms.txt (3 fois)
  • Vérifie également /ads.txt et /humans.txt

Méthodes HTTP

Chaque bot utilise exclusivement GET. Zéro HEAD, POST ou autre méthode sur l’ensemble des 12 099 requêtes de bots.


Données pays/ASN

Bot ASN principal Pays
GPTBot Microsoft Limited États-Unis uniquement
OAI-SearchBot Microsoft Limited (87 %) + Microsoft Corp (13 %) États-Unis uniquement
ChatGPT-User Microsoft Corporation (78 %) États-Unis (50 %), Pologne (16 %), Australie (5 %), Espagne (5 %), Japon (5 %), Brésil (4 %), 15 pays
ClaudeBot Anthropic, PBC (97 %) États-Unis uniquement
Claude-SearchBot Anthropic, PBC (100 %) États-Unis uniquement
Claude-User Google LLC (100 %) États-Unis uniquement
PerplexityBot Amazon Technologies Inc. (96 %) États-Unis uniquement
Amazonbot Amazon (100 %) États-Unis uniquement
Applebot Apple Inc. (100 %) États-Unis uniquement
Bingbot Microsoft Corporation (99,7 %) États-Unis uniquement
Googlebot Google LLC (91 %) États-Unis (92 %), Suède (8 %)
Meta-WebIndexer Meta Platforms Ireland Ltd (100 %) États-Unis uniquement
Bytespider Amazon Singapore (53 %), China Unicom (47 %) Singapour (53 %), Chine (47 %)

Tous les grands bots IA fonctionnent depuis une infrastructure américaine sauf Bytespider (Singapour/Chine). ChatGPT-User est le seul bot avec une distribution réellement mondiale, reflétant sa base d’utilisateurs humains.



Questions fréquemment posées

Quels bots IA visitent les sites web le plus fréquemment en 2026 ?

Sur la base de 48 jours de données de logs serveur de wislr.com, les bots IA les plus actifs sont Meta-WebIndexer (1 833 requêtes), ChatGPT-User (923 requêtes), Claude-SearchBot (549 requêtes), Applebot (495 requêtes), PerplexityBot (456 requêtes), OAI-SearchBot (330 requêtes), ClaudeBot (206 requêtes) et GPTBot (187 requêtes). ChatGPT-User a affiché la croissance la plus forte avec +201 % entre février et mars 2026.

Les bots IA vérifient-ils robots.txt avant de crawler ?

Cela varie considérablement. OAI-SearchBot vérifie robots.txt 3 à 6 fois par jour sans exception. ClaudeBot et Claude-SearchBot vérifient en moyenne 4 fois par jour. Bytespider et CCBot ne vérifient que robots.txt et ne crawlent jamais de contenu réel. Cependant, GPTBot et Meta-WebIndexer ne vérifient jamais robots.txt, bien qu’ils soient parmi les crawlers les plus actifs. ChatGPT-User ne vérifie jamais robots.txt non plus.

Un bot IA demande-t-il llms.txt ?

Non. Sur 12 099 requêtes de bots en 48 jours, zéro bot IA n’a demandé /llms.txt ou /llm.txt. Le seul bot ayant vérifié llms.txt était Dataprovider.com, une société d’analyse web, pas une plateforme IA. Malgré les discussions croissantes autour de llms.txt comme standard, aucun crawler IA ne le recherche actuellement en pratique.

Quelle est la différence entre GPTBot et ChatGPT-User ?

GPTBot est le crawler d’entraînement et d’indexation d’OpenAI qui crawle systématiquement les pages, les variantes linguistiques et les images par rafales concentrées, souvent sans vérifier robots.txt. ChatGPT-User se déclenche quand une personne réelle colle une URL dans une conversation ChatGPT. ChatGPT-User comptait 584 IPs uniques pour 923 requêtes (rapport quasi 1:1), confirmant des sessions utilisateur individuelles. ChatGPT-User ne récupère que le texte HTML, jamais les images, le CSS ou le JS. GPTBot récupère tous les types de ressources.

Comment détecter le trafic des bots IA sur votre site web ?

Le trafic des bots IA est invisible pour les outils d’analyse côté client comme Google Analytics car les bots n’exécutent pas le JavaScript. Vous avez besoin d’une journalisation des requêtes côté serveur qui capture les requêtes HTTP brutes atteignant votre domaine, y compris l’en-tête User-Agent qui identifie les bots comme GPTBot, ChatGPT-User, ClaudeBot et autres. Le tableau de bord WISLR AI Visibility offre ce niveau de visibilité nativement.

Quels bots IA crawlent le contenu multilingue le plus agressivement ?

Meta-WebIndexer consacre 79,8 % de son budget de crawl aux variantes linguistiques, ce qui en fait le crawler multilingue le plus agressif. GPTBot suit à 61,5 %, crawlant les 11 versions linguistiques des articles. Bingbot (60,3 %) et PerplexityBot (52,9 %) ciblent également fortement le contenu multilingue. Googlebot est nettement moins multilingue avec seulement 10,4 %. Le faible taux de 4,7 % de ChatGPT-User reflète le fait qu’il est piloté par des utilisateurs humains, pas par un crawl automatisé.