Monitorizacion de trafico LLM: las tres senales (entrenamiento, citas, referencias)

Trafico LLM dividido en tres senales en el sitio: rastreos de entrenamiento, citas en conversacion y referencias de usuarios reales. Medicion del lado del servidor, cobertura de contenido como la indexacion de la era LLM y como las citas se comparan con la cuota de voz.

Available in:

English Deutsch Français हिन्दी Italiano Bahasa Melayu Nederlands Polski Português Türkçe Українська

Author: Tony Castillo

Published May 1, 2026

← All articles

Las tres senales del trafico LLM: rastreos de entrenamiento, citas en conversacion y referencias de usuarios reales, con la cobertura de contenido como puerta previa

Que es realmente el trafico LLM

A menudo se discute el trafico LLM como un solo numero, y ese encuadre deja mucho sobre la mesa. En su propio sitio, la actividad de IA en realidad aparece como tres senales distintas que puede medir directamente, cada una producida por un tipo diferente de comportamiento de IA y cada una apuntando a un trabajo diferente. Una cuarta senal, la cuota de voz, se mide fuera del sitio. Es una dimension de rendimiento menos confiable, pero es el enfoque que la mayoria de los equipos usan actualmente para la vista fuera del sitio. A medida que los equipos se enfocan en el crecimiento del canal de IA, creemos que las marcas deberian orientarse en torno a este modelo de tres senales para medir el rendimiento.

3 senales

Rastreos de entrenamiento, citas en conversacion y referencias de usuarios reales, cada una medible por si misma

WISLR AI Channel Analytics

Senal 1 · Tiempo de entrenamiento

Entrenamiento LLM

OpenAI, Anthropic, Google y Common Crawl recuperan sus paginas para alimentar el entrenamiento del modelo. Sin usuario en vivo. El modelo esta aprendiendo lo que debe saber sobre su marca y contenido.

Senal 2 · Conversacion en vivo

Citas en conversacion

ChatGPT, Claude y Perplexity recuperan su pagina en medio de la conversacion para responder una pregunta que alguien esta haciendo en este momento. Cada recuperacion es un momento en vivo de intencion.

Senal 3 · Alta intencion

Usuarios reales

Alguien hace clic en una cita de ChatGPT, Claude, Perplexity o Copilot y aterriza en su sitio. Llegaron despues de investigar la pregunta, por lo que convierten a tasas mas altas que otros canales.

Cada senal vale la pena rastrearla por separado, ordenada por donde esta el usuario cuando ocurre cada una: tiempo de entrenamiento antes de que cualquier usuario este involucrado, una conversacion en vivo donde un usuario esta haciendo una pregunta en este momento, y un clic donde un usuario esta en su sitio. Este modelo de tres senales captura como la IA realmente interactua con un sitio, que es lo que los editores y operadores de comercio electronico necesitan para tomar decisiones. Hemos construido AI Channel Analytics en torno al mismo modelo.

Una vez que piensa en tres senales en lugar de un numero, las preguntas que los equipos hacen con mas frecuencia, como monitorear el trafico LLM, que pertenece al panel y que numeros son mas utiles, se vuelven mucho mas faciles de responder.

Por que GA4 y otras herramientas de analisis del lado del cliente tienen problemas con esto

Antes de entrar en las senales, una breve palabra sobre lo que las herramientas de analisis existentes pueden y no pueden mostrar. GA4 es la herramienta dominante, y tiene limites bien conocidos cuando se trata de trafico de IA. Los mismos limites se aplican a Adobe Analytics, Mixpanel, Amplitude, Heap, Plausible, Fathom, Matomo y cualquier otra herramienta que dependa de una etiqueta JavaScript que se active en un navegador real. La razon es arquitectonica en lugar de configurable, por lo que probar una herramienta diferente tiende a llevarlo al mismo lugar.

Cubrimos el panorama completo para GA4 especificamente en El trafico LLM es un punto ciego en su analisis, asi que aqui esta la version corta. Cada senal interactua con el analisis del lado del cliente de manera diferente.

Los rastreos de entrenamiento no son visibles porque los bots no ejecutan JavaScript. Las recuperaciones de entrenamiento de OpenAI, Anthropic y Google AI no activan etiquetas del lado del cliente por diseno. GA4, Adobe, Mixpanel, Amplitude, Heap y las herramientas centradas en la privacidad como Plausible y Fathom comparten esta brecha porque ninguna de ellas registra una solicitud a menos que un navegador ejecute su etiqueta.
Las citas en conversacion ocurren completamente fuera de su sitio. La IA recupera su pagina del lado del servidor en nombre de un usuario y renderiza la respuesta dentro del chat. No se abre ningun navegador, no se activa ningun evento de analisis, por lo que esta actividad no aparece en ninguna herramienta del lado del cliente.
Las referencias de usuarios reales son parcialmente visibles en cada herramienta del lado del cliente, pero normalmente subcontadas por un factor de 2,5x a 5x. Las aplicaciones moviles LLM renderizan los enlaces salientes en WebViews aislados que eliminan el referente. Gemini y Claude no transmiten ninguna senal de atribucion en la mayoria de las plataformas probadas. Las descripciones generales de IA de Google se agrupan bajo busqueda organica, lo que dificulta separarlas. La misma agrupacion aparece de la misma manera ya sea que el informe que esta leyendo este en GA4, Adobe o una alternativa centrada en la privacidad.

2,5 a 5x

Subconteo de GA4 de las sesiones referidas por LLM frente a la verdad fundamental del lado del servidor, basado en pruebas practicas en escenarios moviles y de escritorio.

Pruebas dispositivo por dispositivo de WISLR

La solucion no es una mejor etiqueta, una estrategia de UTM mas limpia o un cambio a una herramienta diferente del lado del cliente. La solucion es la captura del lado del servidor en el borde, clasificada por agente de usuario, rango de IP verificado y DNS inverso, y unida por superficie de IA. Esa es la unica forma de ver las tres senales a la vez, y es independiente de cualquier herramienta de analisis del lado del cliente que mantenga ejecutandose para el resto de su trafico.

Senal 1: Entrenamiento LLM

El entrenamiento LLM es la IA leyendo su marca y contenido para alimentar la siguiente version de sus modelos. Los rastreadores de entrenamiento de OpenAI, Anthropic, Google, Common Crawl y ByteDance recuperan sus paginas en un calendario continuo, ingieren el contenido y lo incorporan al siguiente ciclo de entrenamiento. Esta es la base de cada interaccion posterior. Si un modelo no ha absorbido su pagina, no puede citarlo, no puede recomendar su producto y no puede enviar un usuario a usted.

Esta es tambien la senal en la que GA4 y cualquier otra herramienta de analisis del lado del cliente tienen cero visibilidad. Los rastreos de entrenamiento solo son visibles en sus registros de solicitudes del lado del servidor.

Los rastreos de entrenamiento de IA ahora estan a escala de motor de busqueda

El contexto de volumen que la mayoria de los equipos pasan por alto: El volumen de rastreos de entrenamiento de IA en un sitio tipico rico en contenido ahora rivaliza con el volumen de rastreos de los principales motores de busqueda. Los rastreadores de entrenamiento de OpenAI, Anthropic, Google, Common Crawl y ByteDance juntos producen volumenes de solicitudes en el mismo orden de magnitud que Google Search y Bing combinados. En muchos sitios, las recuperaciones de entrenamiento de IA ya superan a las recuperaciones de motores de busqueda en frecuencia.

~1:1

Relacion del volumen de rastreo de entrenamiento de IA al volumen de rastreo de los principales motores de busqueda en un sitio tipico rico en contenido. La IA esta llegando con la misma intensidad que Google Search lo ha hecho durante los ultimos veinte anos.

Registros de servidor de clientes de WISLR

Esto ya no es una senal menor o de canal lateral. Los rastreadores que deciden lo que las herramientas de IA saben sobre su marca estan llegando con la misma intensidad que los rastreadores que decidieron lo que Google Search sabia sobre su marca durante los ultimos veinte anos.

Que mirar

Con el seguimiento adecuado en su lugar, la senal de entrenamiento se descompone en varias dimensiones que importan para la accion:

Volumen diario por motor de IA en ventanas continuas de 30 dias y de todos los tiempos.
Cobertura de entrenamiento como porcentaje de las paginas de alto valor en su sitio, desglosado por seccion.
Paginas mas recuperadas con enlace de salida, frecuencia de actualizacion y que superficies de IA las estan extrayendo.
Resumen por tipo de pagina para que pueda ver de un vistazo si la IA esta leyendo sus paginas de producto, sus paginas de categoria, sus articulos o los tres.
Desglose por motor de IA. OpenAI puede dominar mientras el entrenamiento de IA de Google esta en silencio; Anthropic puede limitarse a su blog mientras Common Crawl cubre el catalogo.
Tipos de medios. Esta es la dimension que la mayoria de los equipos olvidan. Mas sobre esto a continuacion.

Medios como datos de entrenamiento: mas alla del cuerpo del articulo

La mayor brecha en el pensamiento de la mayoria de los equipos es que el entrenamiento no es solo texto. Los bots de IA tambien recuperan sus imagenes, video y audio. Cada uno es una superficie de entrenamiento separada, y cada uno lleva un valor de senal diferente.

Con un mejor seguimiento en su lugar, puede distinguir las paginas de los medios que no son paginas para ver lo que cada motor de IA realmente consume:

Tipo de contenido	Que se absorbe	Por que importa
Paginas	Texto del cuerpo, encabezados, enlaces internos, esquema en la pagina	Por mucho la mayor parte del volumen de entrenamiento en la mayoria de los sitios.
Imagenes	El propio archivo de imagen	Afecta si sus productos aparecen en respuestas visuales. El texto alternativo y los pies de foto se absorben a traves de la recuperacion de la pagina, no de la recuperacion de la imagen.
Video	El propio archivo de video	Cada vez mas recuperado a medida que los modelos multimodales se vuelven comunes. Las transcripciones y los subtitulos se absorben a traves de la recuperacion de la pagina, no de la recuperacion del video.
Audio	El propio archivo de audio	Un punto ciego para la mayoria de los editores; material de entrenamiento rico. Las notas del programa y las transcripciones se absorben a traves de la recuperacion de la pagina, no de la recuperacion de audio.

La implicacion practica: su texto alternativo, transcripciones y esquema en la pagina ya no son solo higiene SEO. Son entradas de entrenamiento. Cuanto mas claros sean, con mas precision un modelo representa su marca y contenido a un futuro usuario. El lado de Shopify de esta historia, donde los feeds de productos y los datos estructurados se convierten en la superficie de entrenamiento, se cubre en Plan agentico de Shopify: datos de productos mas alla de su control.

KPI que importan

Rastree esto en su lugar

Volumen verificado de rastreo de entrenamiento por motor de IA

Ejemplo

OpenAI248K Anthropic142K Google91K

Ultimos 30 dias

Rastree esto en su lugar

Frecuencia real de recuperacion en sus URL principales

Ejemplo

/guides/wide-feet-running412 / sem /products/widefeet-pro184 / sem /guides/best-trail-runners96 / sem

Rastree esto en su lugar

Cadencia de re-rastreo y porcentaje de cobertura por seccion

Ejemplo

/articles/ Cobertura de seccion94% Re-rastreado cada4 dias /products/ Cobertura de seccion78% Re-rastreado cada11 dias

Rastree esto en su lugar

Priorizacion por tipo de pagina (que secciones lee mas la IA)

Ejemplo

Articulos48% de rastreos Productos31% de rastreos Categorias21% de rastreos

La pregunta correcta para la senal de entrenamiento no es “cuanto estamos siendo rastreados” sino “se esta rastreando el contenido correcto, con la frecuencia suficiente, por los motores de IA que importan.” La metodologia para pasar de los registros sin procesar a esa pregunta esta en Comportamiento de bots de IA: una metodologia de analisis de registros.

Senal 2: Citas en conversacion, la capa en tiempo real

Las citas en conversacion son la IA recuperando su pagina en medio del chat para responder la pregunta en vivo de un usuario. Estas son las recuperaciones en vivo de ChatGPT, Claude y Perplexity. Cada recuperacion es, por definicion, un momento en el que alguien hizo una pregunta y el modelo decidio que su pagina era la mejor respuesta. Esta es la senal con mayor intencion de las tres senales porque la pregunta se esta respondiendo en este momento.

Tambien es la senal que demuestra que contenido es realmente de calidad de referencia a la vista de la IA. El entrenamiento le dice lo que se absorbio. Las citas le dicen lo que se usa.

Que mirar

La senal de citas se descompone en las mismas dimensiones que la senal de entrenamiento, pero el significado de cada una cambia:

Volumen diario de recuperaciones en vivo por asistente. Un pico en una pagina especifica a menudo se correlaciona con un ciclo de noticias topical o una nueva pregunta de comparacion que se hace ampliamente.
Cobertura de citas, la cuota de su contenido de calidad de referencia que se ha recuperado al menos una vez en la ultima ventana.
Paginas mas recuperadas con el asistente que las recupero. Las sorpresas aqui son la regla, no la excepcion. Las paginas que la IA cita rara vez son las paginas que esperaria.
Desglose por superficie de IA. Diferentes asistentes priorizan diferente contenido. ChatGPT y Perplexity tienden a favorecer el contenido estructurado de productos y referencias; Claude tiende a favorecer la escritura expositiva de larga duracion.
Tipos de medios. Las recuperaciones de citas en vivo son principalmente paginas; las imagenes y los videos se citan con menos frecuencia, pero estan creciendo a medida que las respuestas multimodales se vuelven comunes.

Por que esta senal es unicamente valiosa

Una cita en vivo es lo mas cercano a un voto de confianza que el ecosistema de IA produce. Es el modelo diciendo, frente a un usuario real, “esta pagina es la fuente correcta para esta pregunta.” Si estuviera rastreando solo una senal, seria esta.

El truco es que nada de esto es visible para GA4 o cualquier herramienta del lado del cliente, porque la recuperacion ocurre del lado del servidor y el usuario nunca aterriza en su pagina. La unica forma de ver las citas es en el borde.

Citas vs. cuota de voz (SOV)

La cuota de voz es la alternativa fuera del sitio que la mayoria de los equipos usan actualmente cuando no pueden ver las citas del lado del servidor. Es una medicion de la frecuencia con la que su marca aparece en las respuestas de IA en una cesta de indicaciones representativas. Una categoria creciente de herramientas, incluidas Profound, Otterly, Peec, Evertune, AthenaHQ, BrandRank.AI, Ahrefs Brand Radar y los modulos de IA dentro de Semrush y BrightEdge, consultan ChatGPT, Claude, Gemini y Perplexity a escala, cuentan las menciones de marca e informan una cuota relativa a un conjunto competitivo.

Es una senal direccional util, pero nuestra preferencia para medir el rendimiento del canal de IA es la senal de citas anterior, porque captura las recuperaciones reales a nivel de pagina por la superficie que hizo la recuperacion. SOV tiene puntos ciegos estructurales que las citas no tienen.

SOV es probabilistico, las citas son observadas. Los modelos de IA dan respuestas diferentes a la misma indicacion dependiendo de la configuracion de temperatura, el contexto de la conversacion y la hora del dia. Ejecute la misma consulta dos veces y puede obtener dos conjuntos diferentes de menciones de marca. Las herramientas SOV mitigan esto mediante muestreo y promedio, pero la volatilidad subyacente es real, y la precision de cualquier numero individual es menor de lo que sugieren la mayoria de los informes. Los datos de citas, en contraste, son un registro del servidor de recuperaciones reales: cada una sucedio, y cada una es contable.

SOV muestrea las indicaciones; las citas estan ancladas a conversaciones reales. Una herramienta SOV ejecuta una cesta de indicaciones que el analista eligio. Los usuarios reales hacen preguntas diferentes, de diferentes maneras, con diferente contexto previo. La muestra puede o no coincidir con lo que sus clientes realmente preguntan, y la mayoria de las herramientas no hacen transparente su conjunto de indicaciones. Una cita en vivo, por definicion, vino de un usuario real haciendo una pregunta real, por lo que no hay sesgo de muestreo.

Los modelos cambian. Cada nueva version del modelo, ajuste de la indicacion del sistema o cambio de recuperacion cambia lo que se cita. Una cifra SOV medida contra los modelos del trimestre pasado es una medicion diferente de la tomada contra los de este trimestre, y la mayoria de las herramientas no son transparentes sobre el versionado del modelo en sus informes. La actividad de citas se ajusta en tiempo real porque se captura directamente de la recuperacion, sin capa de inferencia en el medio.

La forma mas limpia de usar SOV es junto a la senal de citas, no como un reemplazo. SOV es un benchmark direccional fuera del sitio de la frecuencia con la que su marca aparece en las respuestas. Las citas son el registro verificado en el sitio de que paginas la IA realmente uso para producirlas. Usadas juntas, la simulacion fuera del sitio y la verdad en el sitio dan una imagen mas completa que cualquiera por si sola.

KPI que importan

Rastree esto en su lugar

Recuperaciones de citas verificadas por pagina, por asistente

Ejemplo

Pagina /guides/wide-feet

ChatGPT184 Perplexity92

Ultimos 30 dias

Rastree esto en su lugar

Frecuencia de citas en sus paginas de referencia principales

Ejemplo

/guides/agentic-commerce-10162 / sem /guides/wide-feet-running38 / sem /compare/perplexity-vs-chatgpt26 / sem

Rastree esto en su lugar

Cuota de citas por asistente, tendencia semanal

Ejemplo

ChatGPT62%+4 pts Perplexity24%-1 pt Claude14%plano

Semana sobre semana

Rastree esto en su lugar

Concentracion de citas por tipo de pagina

Ejemplo

Guias de comparacion52% de citas Articulos28% de citas Resenas14% de citas Otros6% de citas

Un patron tipico, extraido de implementaciones reales de editores y comercio electronico: un pequeno conjunto de paginas perennes produce la mayor parte de las citas, mientras que la pagina de inicio rara vez entra en el top 50. Si el modelo ha decidido que su guia de comparacion en profundidad es la respuesta correcta a una pregunta, recuperara esa pagina cientos de veces a la semana y no su pagina de inicio en absoluto. Esa es la senal operativa que desea.

Senal 3: Usuarios reales, la referencia de alta intencion

Los motores de IA son motores de investigacion, no canales de interrupcion. Un usuario que hace clic en una cita en ChatGPT, Claude, Perplexity o Copilot ya ha hecho su pregunta, evaluado la respuesta y elegido su pagina como el siguiente paso. Cuando aterrizan en su sitio, estan mas avanzados en la curva de consideracion que un usuario de cualquier canal que los interrumpio. En nuestras implementaciones, eso se traduce en tasas de conversion mas altas y ventanas de consideracion mas cortas que las redes sociales, la visualizacion y, a menudo, incluso la busqueda de pago. El encuadre importa porque los usuarios referidos por IA estan precalificados cuando llegan; para el contexto mas amplio del recorrido del comprador, vea La IA es un motor de investigacion, no un canal de ventas.

Esta es tambien la unica senal que una herramienta de analisis tradicional puede ver en absoluto, y la senal a la que la mayoria de los equipos recurren cuando escuchan “trafico LLM”. Tambien es la senal donde la brecha de WebView y la brecha de no referente de Gemini/Claude hacen que GA4 reporte menos por un factor de 2,5 a 5, por lo que la alta intencion esta mas no contada que cualquier otro canal en su sitio.

Que mirar

Sesiones por asistente fuente, clasificadas del lado del servidor en lugar de depender de los encabezados de referente.
Distribucion de la pagina de aterrizaje. Los usuarios referidos por IA tienden a aterrizar en paginas profundas, no en la pagina de inicio.
Tasa de conversion por fuente, comparada con su linea de base organica. En nuestras implementaciones, la conversion referida por IA normalmente se ejecuta mas alta que las redes sociales por sesion.
Ventanas de tiempo hasta la compra. Los usuarios de ChatGPT tienden a convertir el mismo dia; los usuarios de Perplexity a menudo tardan de tres a cinco dias; Gemini se encuentra en el medio.
Atribucion de ingresos. Coincidencia de IP a pedido verificada para los casos mas limpios, coincidencia probabilistica para el resto.

Como medir el trafico de referencia de los LLM en Google Analytics (la respuesta honesta)

La respuesta corta es: no se puede, completamente. Los UTM estan presentes desde ChatGPT pero no desde Gemini o Claude. Los referentes estan presentes desde los navegadores de escritorio pero eliminados en las aplicaciones moviles. Las descripciones generales de IA aparecen bajo la busqueda organica sin capacidad de separacion. Puede construir una imagen parcial filtrando en utm_source=chatgpt.com y en los referentes chatgpt.com, claude.ai, perplexity.ai, gemini.google.com y copilot.microsoft.com, pero estara mirando aproximadamente una cuarta parte del trafico real.

La respuesta honesta es capturar esta senal del lado del servidor. El mapa completo de atribucion, con cada prueba dispositivo por dispositivo que ejecutamos, esta en El trafico LLM es un punto ciego en su analisis.

Mobil es donde la brecha de atribucion LLM es mas grande

Aqui esta la parte del subconteo de referencias que mas importa: el dispositivo que la mayoria de su audiencia usa es tambien el dispositivo donde la atribucion de IA es mas dificil de ver claramente. Mobil impulsa entre el 70 y el 90 por ciento de las sesiones de sitios orientados al consumidor, y es donde viven las aplicaciones LLM. En las plataformas que probamos, mobil es la superficie menos rastreada para cada LLM que importa.

Plataforma	Superficie	UTM	Referente	Rastreable en GA4
ChatGPT	App movil	Si utm_source=chatgpt.com	No	Parcial
ChatGPT	Navegador movil	Si	Si	Si
Gemini	App movil	No	No	No
Gemini	Navegador movil	No	No	No
Claude	App movil	No	No	No
Claude	Navegador movil	No	No	No

La razon estructural es que las aplicaciones moviles LLM renderizan los enlaces salientes en WebViews aislados, que eliminan el referente y desconectan la sesion de cualquier contexto previo del navegador. La prevencion de seguimiento inteligente de iOS WebKit agrava el problema en el iPhone, donde el WebView esta sujeto a restricciones de cookies incluso cuando la conversion ocurre dentro de el.

El resultado es que una vista solo de referencia del trafico LLM termina pareciendo principalmente una vista de escritorio, aunque la audiencia real es principalmente movil. Las comparaciones entre plataformas extraidas de los numeros de GA4 son mas faciles de interpretar una vez que se tiene en cuenta esa brecha movil. La matriz completa dispositivo por dispositivo, incluidos los escenarios de escritorio, esta en El trafico LLM es un punto ciego en su analisis.

KPI que importan

Rastree esto en su lugar

Conteo de sesiones referidas por IA del lado del servidor

Ejemplo

Captura del lado del servidor6.420 sesiones Mismo periodo en GA41.840 sesiones

Ultimos 30 dias

Rastree esto en su lugar

Tasa de conversion frente a su linea de base organica

Ejemplo

IA4,8% Organica2,9% Social1,6%

Tasa de conversion por sesion

Rastree esto en su lugar

Distribucion de tiempo hasta la compra por fuente

Ejemplo

ChatGPTMismo dia Gemini2 a 3 dias Perplexity4 a 5 dias

Rastree esto en su lugar

Ingresos por sesion, por asistente

Ejemplo

ChatGPT$4,20 Perplexity$7,10 Gemini$3,40

Ingresos por sesion

Para un analisis mas profundo de como esto encaja en el recorrido mas amplio del comprador, vea La IA es un motor de investigacion, no un canal de ventas. El encuadre importa porque los usuarios referidos por IA a menudo son investigadores en el embudo medio, y juzgar el canal solo por la conversion de la misma sesion lo subvalorara.

De la senal a la accion: como los datos de trafico LLM impulsan el impacto

La medicion solo se gana su valor cuando conduce a la accion. Con las tres senales rastreadas juntas, dos patrones de recomendacion surgen de manera confiable de los datos cruzados de senal, mas un registro continuo que un equipo puede mantener de lo que se ha trabajado.

Frescura del contenido

Las URL principales rastreadas para entrenamiento en los ultimos 30 dias, clasificadas por frecuencia de recuperacion. La recomendacion es directa: mantenerlas precisas, porque los modelos aprenderan lo que este en la pagina ahora mismo y representaran su marca en consecuencia a futuros usuarios. Una pagina obsoleta en la que OpenAI esta entrenando todas las noches es una pagina obsoleta que ChatGPT representara mal para el siguiente ciclo de entrenamiento.

Accion: revise cada pagina principalmente rastreada en una cadencia recurrente, corrija cualquier cosa desactualizada y mantenga un registro de lo que se reviso y cuando para que la frescura se convierta en un flujo de trabajo rastreado en lugar de una auditoria unica.

Paginas rastreadas pero no citadas

Paginas que los bots de entrenamiento de IA estan recuperando pero que han producido cero citas y cero referencias en la misma ventana. Divididas en productos y categorias para comercio electronico, en tipos de articulos para editores. Esta es la brecha de citas, y suele ser el patron de mayor apalancamiento sobre el que actuar.

Los bots han leido la pagina. El modelo no ha decidido citarla. La solucion es casi siempre la misma familia de cambios: titulos mas claros, mejores descripciones, texto de estilo FAQ y JSON-LD que nombra el producto, la audiencia y la respuesta a la pregunta obvia.

Accion: reescriba la pagina para que sea mas citable, luego rastree la senal de citas en esa URL durante las proximas dos semanas para verificar la solucion.

El mapa de accion entre senales

Una vez que tenga capturadas las tres senales, surgen cuatro patrones y cada uno apunta a un trabajo especifico. Cada celda muestra si esa senal esta activa (la pagina aparece alli), falta (la senal esta ausente), debil (la senal esta alli pero con bajo rendimiento) o n/d cuando la pregunta no se aplica al patron.

Entrenamiento	Citas	Referencias	Patron	Accion
Activa	Activa	Activa	Superestrella de IA	Proteja la pagina. Mantenga el titulo y el texto estables, monitoree la deriva, bloquee el JSON-LD.
Activa	Falta	Falta	Brecha de citas	Reescriba para el consumo de IA: titulos mas claros, mejores descripciones, texto de estilo FAQ, JSON-LD mas rico.
Activa	Activa	Debil	Problema de clic	El encuadre de citas o la carga de pagina esta perdiendo al usuario. Audite la velocidad de pagina, la claridad del hero y el fragmento que la IA esta citando.
Falta	n/d	n/d	Brecha de cobertura	Solucione la detectabilidad: robots.txt, sitemaps, enlaces internos y verificaciones de acceso por motor.

Esto es lo que queremos decir con “los datos de trafico LLM impulsan la accion.” Cuando las tres senales se sientan una al lado de la otra, cada patron apunta a un tipo especifico de trabajo, por lo que un equipo puede priorizar un cambio para enviar esta semana y verificar el impacto la proxima semana.

Como hacer benchmarking de su cobertura de contenido para entrenamiento y citas

En la era de Google Search, la indexacion era la metrica fundamental de salud. Antes de que una pagina pudiera clasificar, ganar clics o convertir, tenia que estar en el indice. La cobertura es la misma metrica para la era LLM, y merece ser rastreada como su propia cosa, no doblada en una sola senal.

La comparacion de norte estrella

Era de Google Search

Era LLM

Indexacion (puerta previa)

Cobertura (puerta previa)

Ranking

Citas

Clics

Referencias

La cobertura es el porcentaje del contenido que le importa que la IA realmente esta leyendo y usando. Es lo mas cercano a un numero de norte estrella para el canal de IA porque se ubica antes de cualquier otra senal. Si un modelo no ha absorbido su pagina, la IA no puede citarla. Si una pagina nunca se cita, la IA no puede enviar un usuario a ella. La cobertura es la puerta que decide si el resto del embudo es siquiera posible.

Tratar la cobertura como su propia metrica, distinta de cualquiera de las tres senales, es lo que hace que el canal de IA sea medible de una manera que los equipos familiarizados con la busqueda organica ya entienden. La pregunta cambia de “se nos esta rastreando” a “esta llegando suficiente del contenido correcto a la respuesta”. La cobertura se divide claramente a lo largo de las dos primeras senales.

Benchmark de cobertura de entrenamiento

Defina primero su universo de contenido de registro. Para un equipo de comercio electronico, esto suele ser todas las paginas de productos activas, todas las paginas de categoria y todas las guias perennes. Para un editor, es el archivo de articulos mas las paginas de aterrizaje de referencia y temas. El universo es el denominador.

Luego pregunte: en los ultimos 30 dias, ¿que porcentaje de esas URL fueron recuperadas al menos una vez por un rastreador de entrenamiento verificado de cualquiera de los principales motores de IA? Esa es su cobertura de entrenamiento de 30 dias. Un sitio saludable con enlaces internos razonables y un sitemap limpio deberia ejecutarse al 90 por ciento o mas. Por debajo de eso, tiene un problema de detectabilidad: los bots no pueden encontrar o no regresan a una porcion significativa de su inventario.

Luego divida el mismo numero por motor de IA. La cobertura por motor es donde vive el apalancamiento. OpenAI puede cubrir el 95 por ciento mientras Google cubre el 40 por ciento y Anthropic cubre el 70 por ciento. Esa diferencia le dice exactamente donde invertir en acceso especifico de superficie (revision de robots.txt, envio de sitemap, mejoras de datos estructurados) y que modelos representaran su marca con precision frente a mal cuando un futuro usuario pregunte.

Benchmark de cobertura de citas

La cobertura de citas se construye de la misma manera pero contra un denominador mas estrecho: su contenido de calidad de referencia, las paginas que esperaria que la IA citara si entendiera correctamente su sitio. Para un equipo de comercio electronico, esto suele ser las guias, comparaciones y contenido de estilo FAQ, no las paginas de productos en si. Para un editor, son sus articulos perennes y de referencia.

Pregunte: en los ultimos 30 dias, ¿que porcentaje de esas URL de referencia recibieron al menos una recuperacion en vivo de ChatGPT, Claude o Perplexity? Esa es su cobertura de citas de 30 dias. Un sitio cuyo contenido de referencia esta bien estructurado, bien titulado y enriquecido con JSON-LD deberia ejecutarse del 60 al 80 por ciento. Por debajo del 40 por ciento es un problema de citabilidad, casi siempre solucionable con titulos mas claros, mejores descripciones, texto de estilo FAQ y mas datos estructurados.

Luego divida por asistente. ChatGPT dominara el volumen en la mayoria de los sitios; Claude estara subrepresentado en cualquier herramienta que no maneje correctamente el trafico de bots no verificable; Perplexity sobreindexara en contenido estructurado de productos y referencias.

Como se ve saludable en general

Los umbrales exactos varian segun la profundidad del archivo, la mezcla de contenido y la audiencia, pero el patron de un perfil saludable es lo suficientemente consistente para publicar:

Cobertura de entrenamiento de sus 100 paginas principales: en o cerca del 100 por ciento en una ventana de 30 dias, con al menos tres a cuatro motores de IA recuperando activamente.
Cobertura de citas de su contenido de calidad de referencia: del 60 al 80 por ciento en una ventana de 30 dias. Por debajo del 40 por ciento apunta a brechas de citabilidad en titulos, descripciones y datos estructurados.
Paginas de citas principales: contenido perenne, en profundidad, de calidad de referencia. La pagina de inicio no deberia estar en el top 20.
Concentracion de citas: del 60 al 80 por ciento de todas las citas en sus 30 paginas principales es normal. La concentracion solo en sus 5 principales significa que su superficie de referencia es demasiado estrecha. Si sus numeros divergen agudamente de este patron, el diagnostico suele ser brechas de datos estructurados, contenido que el modelo no considera citable o un problema de cobertura que los enlaces internos y los sitemaps pueden solucionar.

Para la introduccion fundamental a la visibilidad de IA antes de cualquiera de esto, vea Comprendiendo la visibilidad de IA. Para el marco de siete KPI que se mapea limpiamente al modelo de tres senales, vea Metricas de rendimiento de IA: siete KPI que toda marca deberia rastrear.

Deje de estimar, comience a activar

Cuando el trafico LLM se reporta como un solo numero, se pierde mucho contexto util. El contenido fuerte puede parecer mas tranquilo de lo que realmente es porque la mayor parte de su impacto cae fuera de la herramienta de analisis. El rendimiento prometedor es dificil de rastrear hasta la actividad previa que lo gano. Los equipos terminan apoyandose en senales indirectas porque las directas aun no son visibles.

Tres senales en su sitio llenan ese cuadro. El entrenamiento le muestra lo que la IA esta absorbiendo sobre su marca y contenido. Las citas le muestran que paginas la IA esta alcanzando para responder preguntas reales en tiempo real. Las referencias le muestran los usuarios de alta intencion que la IA envia. Sentado antes de los tres esta la cobertura, el equivalente de la era LLM a la indexacion, y la puerta que decide si el resto del embudo es siquiera posible.

Leidas juntas, las tres senales le dan a un equipo un patron claro entre senales sobre el que actuar cada semana. Las superestrellas de IA son paginas para proteger, las brechas de citas son paginas para reescribir, los problemas de clic apuntan a la velocidad de carga y el encuadre del fragmento, y las brechas de cobertura apuntan a la detectabilidad. Fuera del sitio, la cuota de voz es un benchmark direccional util para las conversaciones que ocurren en las respuestas de IA, pero para medir el impacto real del rendimiento, el modelo de tres senales en el sitio es lo que creemos que las marcas deberian orientar a medida que invierten en el crecimiento del canal de IA.

Juntas, transforman el canal de IA de algo que estimar en algo que su equipo puede planificar, medir y actuar con confianza.

Las tres senales en un solo panel

El panel a continuacion reune las tres senales on-site en una sola vista, con la cobertura de contenido rastreada en paralelo como puerta de entrada upstream. Los rastreos de entrenamiento aterrizan por pagina, las citas se desglosan por motor y las referencias se atribuyen de extremo a extremo hasta los ingresos.

Vea la demo del panel

Preguntas frecuentes

Cual es la diferencia entre los rastreos de entrenamiento de IA y las recuperaciones de citas de IA?

Los rastreos de entrenamiento ocurren en segundo plano y alimentan los datos de entrenamiento del modelo. Motores de IA como OpenAI, Anthropic, Google y Common Crawl los ejecutan segun un calendario. Las recuperaciones de citas ocurren en tiempo real, cuando un usuario hace una pregunta y un asistente de IA recupera una pagina en nombre del usuario para responder. Los agentes que debe buscar en sus registros son ChatGPT-User, Claude-User y Perplexity-User. El entrenamiento moldea lo que la IA sabe sobre su marca; las citas muestran lo que la IA esta usando activamente para responder preguntas en este momento.

Como se si mi contenido esta siendo citado por ChatGPT, Claude o Perplexity?

La forma completa es capturar registros de solicitudes del lado del servidor en el borde y clasificarlos por agente de usuario y rango de IP verificado. ChatGPT-User, Claude-User y Perplexity-User se identifican en la solicitud, por lo que la captura del lado del servidor le proporciona un registro por pagina y por asistente de cuando cada IA recupero una pagina para responder una pregunta en vivo. Las herramientas de analisis del lado del cliente como GA4, Adobe, Mixpanel, Amplitude, Heap, Plausible, Fathom y Matomo no pueden ver esta senal porque la recuperacion nunca abre un navegador y nunca activa una etiqueta JavaScript.

Que es la cobertura de contenido para LLMs y por que importa?

La cobertura de contenido es el porcentaje del contenido que le importa que los motores de IA estan leyendo y usando realmente. Funciona como la indexacion para Google Search: se ubica antes de cualquier otra senal. Si la IA no ha absorbido su pagina, no puede citarla. Si no ha citado la pagina, no puede enviar un usuario a ella. La cobertura es la metrica fundamental de salud para la medicion del canal de IA y lo mas cercano a un numero de norte para el canal de IA.

Que es la cuota de voz en la busqueda de IA y como se compara con el seguimiento de citas?

La cuota de voz es una medicion fuera del sitio de la frecuencia con la que su marca aparece en respuestas generadas por IA en una cesta de muestra de indicaciones. Herramientas como Profound, Otterly, Peec, Evertune, AthenaHQ, BrandRank.AI, Ahrefs Brand Radar y los modulos de IA dentro de Semrush y BrightEdge consultan motores de IA a escala e informan una cuota relativa. Es util para el benchmarking competitivo, pero es probabilistico e incompleto porque las respuestas de IA no son deterministas y la muestra de indicaciones es elegida por el analista. El seguimiento de citas, en contraste, es el registro verificado del lado del servidor de que paginas la IA realmente recupero para responder preguntas reales. Use la cuota de voz para benchmarking direccional y las citas para la medicion del rendimiento.

Por que Google Analytics 4 reporta menos del trafico de referencia de IA?

GA4 normalmente subreporta las sesiones referidas por IA por un factor de 2,5 a 5. La causa es estructural en lugar de configurable. Las aplicaciones moviles LLM renderizan los enlaces salientes en WebViews aislados que eliminan el referente. Gemini y Claude no transmiten ninguna senal de atribucion en la mayoria de las plataformas probadas. Las descripciones generales de IA de Google se agrupan bajo busqueda organica sin forma de separarlas. Las mismas brechas se aplican a cualquier otra herramienta de analisis del lado del cliente, porque el problema es el modelo de medicion de etiqueta JavaScript en si, no la herramienta.

Como se comportan los usuarios referidos por IA de manera diferente al trafico organico o social?

Los usuarios referidos por IA tienden a convertir a tasas mas altas por sesion que las redes sociales y a menudo mas altas que las organicas una vez que las descripciones generales de IA se separan de las organicas. Llegan despues de investigar la pregunta con la IA, evaluar la respuesta y elegir su pagina como el siguiente paso, por lo que estan mas avanzados en la curva de consideracion que los usuarios de canales que los interrumpieron. El tiempo hasta la compra varia segun el motor de IA. Los usuarios de ChatGPT tienden a convertir el mismo dia, los usuarios de Gemini tardan varios dias, los usuarios de Perplexity a menudo tardan de tres a cinco dias. Acortar la ventana de atribucion para todos ellos subreporta el canal.

Por donde empiezo cuando la medicion del canal de IA es nueva para mi equipo?

Comience con la cobertura de contenido. Confirme que los principales motores de IA, OpenAI, Anthropic, Google, Perplexity y Common Crawl, pueden alcanzar y estan leyendo activamente el contenido que importa. Una vez que el panorama previo este claro, agregue el seguimiento de citas para ver que paginas la IA esta usando realmente para responder preguntas. Agregue la atribucion de referencia al final, porque un numero de referencia sin contexto de cobertura y citas es imposible de actuar. La cobertura es la puerta sobre la que se asienta cualquier otra senal, y comenzar alli construye una base sobre la que el resto del marco puede crecer.

It's Now Safer to Put Cloudflare in Front of Shopify: What O2O Fixed, and What the Warnings Still Mean

Monitorizacion de trafico LLM: las tres senales (entrenamiento, citas, referencias)

Que es realmente el trafico LLM

Por que GA4 y otras herramientas de analisis del lado del cliente tienen problemas con esto

Senal 1: Entrenamiento LLM

Los rastreos de entrenamiento de IA ahora estan a escala de motor de busqueda

Que mirar

Medios como datos de entrenamiento: mas alla del cuerpo del articulo

KPI que importan

Senal 2: Citas en conversacion, la capa en tiempo real

Que mirar

Por que esta senal es unicamente valiosa

Citas vs. cuota de voz (SOV)

KPI que importan

Senal 3: Usuarios reales, la referencia de alta intencion

Que mirar

Como medir el trafico de referencia de los LLM en Google Analytics (la respuesta honesta)

Mobil es donde la brecha de atribucion LLM es mas grande

KPI que importan

De la senal a la accion: como los datos de trafico LLM impulsan el impacto

Frescura del contenido

Paginas rastreadas pero no citadas

El mapa de accion entre senales

Como hacer benchmarking de su cobertura de contenido para entrenamiento y citas

Benchmark de cobertura de entrenamiento

Benchmark de cobertura de citas

Como se ve saludable en general

Deje de estimar, comience a activar

Las tres senales en un solo panel

Preguntas frecuentes

Cual es la diferencia entre los rastreos de entrenamiento de IA y las recuperaciones de citas de IA?

Como se si mi contenido esta siendo citado por ChatGPT, Claude o Perplexity?

Que es la cobertura de contenido para LLMs y por que importa?

Que es la cuota de voz en la busqueda de IA y como se compara con el seguimiento de citas?

Por que Google Analytics 4 reporta menos del trafico de referencia de IA?

Como se comportan los usuarios referidos por IA de manera diferente al trafico organico o social?

Por donde empiezo cuando la medicion del canal de IA es nueva para mi equipo?