LLM ट्रैफ़िक मॉनिटरिंग: तीन सिग्नल (ट्रेनिंग, उद्धरण, रेफ़रल)
LLM ट्रैफ़िक वास्तव में क्या है
LLM ट्रैफ़िक पर अक्सर एक एकल संख्या के रूप में चर्चा की जाती है, और यह ढाँचा बहुत कुछ मेज़ पर छोड़ देता है। आपकी अपनी साइट पर, AI गतिविधि वास्तव में तीन अलग-अलग सिग्नल के रूप में दिखाई देती है जिन्हें आप सीधे माप सकते हैं, प्रत्येक एक अलग प्रकार के AI व्यवहार से उत्पन्न होता है और प्रत्येक अलग कार्य की ओर इशारा करता है। चौथा सिग्नल, Share of Voice, ऑफ़-साइट मापा जाता है। यह एक कम विश्वसनीय प्रदर्शन आयाम है, लेकिन यह वह दृष्टिकोण है जिसका अधिकांश टीमें वर्तमान में ऑफ़-साइट दृश्य के लिए उपयोग करती हैं। जैसे-जैसे टीमें AI चैनल विकास पर ध्यान केंद्रित करती हैं, हमारा मानना है कि ब्रांडों को प्रदर्शन मापने के लिए इस तीन-सिग्नल मॉडल के चारों ओर खुद को उन्मुख करना चाहिए।
प्रत्येक सिग्नल को अलग से ट्रैक करने योग्य है, जिस क्रम में प्रत्येक होता है उपयोगकर्ता कहाँ है: किसी भी उपयोगकर्ता के शामिल होने से पहले ट्रेनिंग समय, एक लाइव बातचीत जहाँ उपयोगकर्ता अभी एक प्रश्न पूछ रहा है, और एक क्लिक जहाँ उपयोगकर्ता आपकी साइट पर है। यह तीन-सिग्नल मॉडल कैप्चर करता है कि AI वास्तव में किसी साइट के साथ कैसे इंटरैक्ट करता है, जो प्रकाशकों और ई-कॉमर्स ऑपरेटरों को निर्णय लेने के लिए चाहिए। हमने उसी मॉडल के चारों ओर AI Channel Analytics बनाया है।
एक बार जब आप एक संख्या के बजाय तीन सिग्नल में सोचते हैं, तो टीमें सबसे अधिक बार पूछती हैं वह प्रश्न, LLM ट्रैफ़िक की निगरानी कैसे करें, डैशबोर्ड पर क्या होना चाहिए, और कौन सी संख्याएँ सबसे उपयोगी हैं, उत्तर देना बहुत आसान हो जाता है।
GA4 और अन्य क्लाइंट-साइड एनालिटिक्स टूल को इसके साथ कठिन समय क्यों है
सिग्नल में जाने से पहले, मौजूदा एनालिटिक्स टूल क्या दिखा सकते हैं और क्या नहीं इसके बारे में एक त्वरित शब्द। GA4 प्रमुख टूल है, और जब AI ट्रैफ़िक की बात आती है तो इसकी प्रसिद्ध सीमाएँ हैं। वही सीमाएँ Adobe Analytics, Mixpanel, Amplitude, Heap, Plausible, Fathom, Matomo, और किसी भी अन्य टूल पर लागू होती हैं जो वास्तविक ब्राउज़र में फ़ायर होने वाले JavaScript टैग पर निर्भर करता है। कारण कॉन्फ़िगर करने योग्य के बजाय वास्तुशिल्पीय है, इसलिए एक अलग टूल की कोशिश आपको आम तौर पर उसी जगह पर ले जाती है।
हमने GA4 के लिए विशेष रूप से LLM ट्रैफ़िक आपके एनालिटिक्स में एक ब्लाइंड स्पॉट है में पूरी तस्वीर को कवर किया है, इसलिए यहाँ छोटा संस्करण है। प्रत्येक सिग्नल क्लाइंट-साइड एनालिटिक्स के साथ अलग ढंग से इंटरैक्ट करता है।
- ट्रेनिंग क्रॉल दिखाई नहीं देते क्योंकि बॉट JavaScript निष्पादित नहीं करते। OpenAI, Anthropic, और Google AI ट्रेनिंग फ़ेच डिज़ाइन द्वारा क्लाइंट-साइड टैग ट्रिगर नहीं करते। GA4, Adobe, Mixpanel, Amplitude, Heap, और Plausible और Fathom जैसे गोपनीयता-प्रथम टूल सभी इस अंतर को साझा करते हैं क्योंकि उनमें से कोई भी अनुरोध लॉग नहीं करता जब तक कि कोई ब्राउज़र उनका टैग नहीं चलाता।
- बातचीत में उद्धरण पूरी तरह से आपकी साइट से बाहर होते हैं। AI एक उपयोगकर्ता की ओर से सर्वर-साइड आपके पृष्ठ को फ़ेच करता है और चैट के अंदर उत्तर रेंडर करता है। कोई ब्राउज़र नहीं खुलता, कोई एनालिटिक्स ईवेंट फ़ायर नहीं होता, इसलिए यह गतिविधि किसी भी क्लाइंट-साइड टूल में नहीं दिखाई देती।
- वास्तविक उपयोगकर्ता रेफ़रल हर क्लाइंट-साइड टूल में आंशिक रूप से दिखाई देते हैं, लेकिन आमतौर पर 2.5x से 5x तक अंडर-काउंट होते हैं। मोबाइल LLM ऐप अलगाव WebView में आउटबाउंड लिंक रेंडर करते हैं जो रेफ़रर हटा देते हैं। Gemini और Claude अधिकांश परीक्षण किए गए प्लेटफ़ॉर्म पर कोई एट्रिब्यूशन सिग्नल पास नहीं करते। Google AI ओवरव्यू ऑर्गेनिक सर्च के तहत समूहीकृत होते हैं, जिससे उन्हें अलग करना मुश्किल हो जाता है। वही समूहन उसी तरह दिखाई देता है चाहे आप जो रिपोर्ट पढ़ रहे हैं वह GA4, Adobe, या गोपनीयता-प्रथम विकल्प में हो।
ठीक करना एक बेहतर टैग नहीं है, एक स्वच्छ UTM रणनीति, या किसी अलग क्लाइंट-साइड टूल पर स्विच नहीं है। ठीक करना यूज़र-एजेंट, सत्यापित IP रेंज, और रिवर्स DNS द्वारा वर्गीकृत और AI सतह के अनुसार सिले हुए एज पर सर्वर-साइड कैप्चर है। यह तीनों सिग्नल को एक साथ देखने का एकमात्र तरीका है, और यह उस क्लाइंट-साइड एनालिटिक्स टूल से स्वतंत्र है जिसे आप अपने बाकी ट्रैफ़िक के लिए चलाते रहते हैं।
सिग्नल 1: LLM ट्रेनिंग
LLM ट्रेनिंग AI है जो अपने मॉडलों के अगले संस्करण को फीड करने के लिए आपके ब्रांड और कंटेंट को पढ़ रहा है। OpenAI, Anthropic, Google, Common Crawl, और ByteDance के ट्रेनिंग क्रॉलर एक निरंतर शेड्यूल पर आपके पृष्ठों को फ़ेच करते हैं, कंटेंट को इन्जेस्ट करते हैं, और इसे अगले ट्रेनिंग चक्र में रोल करते हैं। यह हर बाद की इंटरैक्शन की नींव है। यदि एक मॉडल ने आपके पृष्ठ को अवशोषित नहीं किया है, तो यह आपको उद्धृत नहीं कर सकता, आपके उत्पाद की सिफारिश नहीं कर सकता, और आपको एक उपयोगकर्ता नहीं भेज सकता।
यह वह सिग्नल भी है जिसमें GA4 और हर अन्य क्लाइंट-साइड एनालिटिक्स टूल की शून्य दृश्यता है। ट्रेनिंग क्रॉल केवल आपके सर्वर-साइड अनुरोध लॉग में दिखाई देते हैं।
AI ट्रेनिंग क्रॉल अब सर्च-इंजन स्केल पर हैं
अधिकांश टीमें जो वॉल्यूम संदर्भ चूकती हैं: एक विशिष्ट कंटेंट-समृद्ध साइट पर AI ट्रेनिंग क्रॉल वॉल्यूम अब प्रमुख सर्च इंजन के क्रॉल वॉल्यूम के साथ प्रतिस्पर्धा करता है। OpenAI, Anthropic, Google, Common Crawl, और ByteDance ट्रेनिंग क्रॉलर एक साथ Google Search और Bing के संयुक्त के समान परिमाण के क्रम पर अनुरोध वॉल्यूम का उत्पादन करते हैं। कई साइटों पर, AI ट्रेनिंग फ़ेच पहले से ही आवृत्ति में सर्च-इंजन फ़ेच से अधिक हो गए हैं।
यह अब एक छोटा या साइड-चैनल सिग्नल नहीं है। जो क्रॉलर तय करते हैं कि AI टूल आपके ब्रांड के बारे में क्या जानते हैं, वे उसी तीव्रता पर आ रहे हैं जिस पर वे क्रॉलर थे जिन्होंने पिछले बीस वर्षों के लिए तय किया कि Google Search आपके ब्रांड के बारे में क्या जानता था।
क्या देखें
सही ट्रैकिंग के साथ, ट्रेनिंग सिग्नल कई आयामों में टूटता है जो कार्रवाई के लिए मायने रखते हैं:
- दैनिक वॉल्यूम AI इंजन द्वारा 30-दिन और सभी-समय के रोलिंग विंडो में।
- ट्रेनिंग कवरेज आपकी साइट के उच्च-मूल्य वाले पृष्ठों के प्रतिशत के रूप में, अनुभाग द्वारा विभाजित।
- शीर्ष फ़ेच किए गए पृष्ठ लिंक-आउट, रीफ़्रेश आवृत्ति, और कौन सी AI सतह उन्हें खींच रही है।
- पृष्ठ-प्रकार रोलअप ताकि आप एक नज़र में देख सकें कि क्या AI आपके उत्पाद पृष्ठों, श्रेणी पृष्ठों, लेखों, या तीनों को पढ़ रहा है।
- AI इंजन ब्रेकडाउन। OpenAI हावी हो सकता है जबकि Google का AI ट्रेनिंग मौन हो; Anthropic आपके ब्लॉग से चिपक सकता है जबकि Common Crawl कैटलॉग को कवर करता है।
- मीडिया प्रकार। यह वह आयाम है जिसे अधिकांश टीमें भूल जाती हैं। इसके बारे में आगे और।
ट्रेनिंग डेटा के रूप में मीडिया: लेख निकाय से परे
अधिकांश टीमों की सोच में सबसे बड़ा अंतर यह है कि ट्रेनिंग केवल पाठ नहीं है। AI बॉट आपकी छवियाँ, वीडियो, और ऑडियो भी फ़ेच करते हैं। प्रत्येक एक अलग ट्रेनिंग सतह है, और प्रत्येक अलग सिग्नल मूल्य ले जाता है।
बेहतर ट्रैकिंग के साथ, आप पृष्ठों को गैर-पृष्ठ मीडिया से अलग कर सकते हैं यह देखने के लिए कि प्रत्येक AI इंजन वास्तव में क्या उपभोग करता है:
व्यावहारिक निहितार्थ: आपका alt टेक्स्ट, ट्रांस्क्रिप्ट, और ऑन-पेज स्कीमा अब केवल SEO स्वच्छता नहीं हैं। वे ट्रेनिंग इनपुट हैं। वे जितने स्पष्ट होंगे, उतना ही सटीक रूप से एक मॉडल आपके ब्रांड और कंटेंट को भविष्य के उपयोगकर्ता के लिए प्रस्तुत करता है। इस कहानी का Shopify पक्ष, जहाँ उत्पाद फ़ीड और संरचित डेटा ट्रेनिंग सतह बन जाते हैं, Shopify एजेंटिक प्लान: आपके नियंत्रण से परे उत्पाद डेटा में कवर किया गया है।
मायने रखने वाले KPI
ट्रेनिंग सिग्नल के लिए सही प्रश्न “हम कितना क्रॉल हो रहे हैं” नहीं है, बल्कि “क्या सही कंटेंट को पर्याप्त रूप से, उन AI इंजनों द्वारा क्रॉल किया जा रहा है जो मायने रखते हैं” है। कच्चे लॉग से उस प्रश्न तक पहुँचने की पद्धति AI बॉट व्यवहार: एक लॉग विश्लेषण पद्धति में है।
सिग्नल 2: बातचीत में उद्धरण, रियल-टाइम लेयर
बातचीत में उद्धरण AI है जो उपयोगकर्ता के लाइव प्रश्न का उत्तर देने के लिए चैट के बीच में आपके पृष्ठ को फ़ेच कर रहा है। ये ChatGPT, Claude, और Perplexity से लाइव फ़ेच हैं। प्रत्येक फ़ेच, परिभाषा के अनुसार, एक क्षण है जहाँ किसी ने प्रश्न पूछा और मॉडल ने तय किया कि आपका पृष्ठ सबसे अच्छा उत्तर है। यह तीन सिग्नल का सबसे उच्च-इरादा सिग्नल है क्योंकि प्रश्न का उत्तर अभी दिया जा रहा है।
यह वह सिग्नल भी है जो साबित करता है कि AI के दृष्टिकोण से कौन सा कंटेंट वास्तव में संदर्भ-ग्रेड है। ट्रेनिंग आपको बताती है कि क्या अवशोषित किया गया था। उद्धरण आपको बताते हैं कि क्या उपयोग किया जा रहा है।
क्या देखें
उद्धरण सिग्नल ट्रेनिंग सिग्नल के समान आयामों के साथ टूटता है, लेकिन प्रत्येक का अर्थ बदल जाता है:
- दैनिक वॉल्यूम प्रति सहायक लाइव फ़ेच का। एक विशिष्ट पृष्ठ पर एक स्पाइक अक्सर एक विषय समाचार चक्र या व्यापक रूप से पूछे जाने वाले एक नए तुलना प्रश्न से सहसंबद्ध होता है।
- उद्धरण कवरेज, आपके संदर्भ-ग्रेड कंटेंट का हिस्सा जो पिछले विंडो में कम से कम एक बार फ़ेच किया गया था।
- शीर्ष फ़ेच किए गए पृष्ठ उस सहायक के साथ जिसने उन्हें फ़ेच किया। यहाँ आश्चर्य अपवाद नहीं, नियम हैं। AI जो पृष्ठ उद्धृत करता है वे शायद ही कभी वे पृष्ठ हैं जिनकी आप अपेक्षा करते हैं।
- AI सतह ब्रेकडाउन। विभिन्न सहायक विभिन्न कंटेंट को प्राथमिकता देते हैं। ChatGPT और Perplexity संरचित उत्पाद और संदर्भ कंटेंट को पसंद करते हैं; Claude लंबी-फ़ॉर्म व्याख्यात्मक लेखन को पसंद करता है।
- मीडिया प्रकार। लाइव उद्धरण फ़ेच ज़्यादातर पृष्ठ हैं; छवियाँ और वीडियो कम बार उद्धृत किए जाते हैं लेकिन मल्टीमॉडल उत्तरों के आम होने के साथ बढ़ रहे हैं।
यह सिग्नल विशिष्ट रूप से मूल्यवान क्यों है
एक लाइव उद्धरण AI पारिस्थितिकी तंत्र द्वारा उत्पादित विश्वास के मत के सबसे करीब है। यह वह मॉडल है जो वास्तविक उपयोगकर्ता के सामने कह रहा है, “यह पृष्ठ इस प्रश्न के लिए सही स्रोत है।” यदि आप केवल एक सिग्नल ट्रैक कर रहे थे, तो यह वही होगा।
पकड़ यह है कि इसमें से कोई भी GA4 या किसी क्लाइंट-साइड टूल को दिखाई नहीं देता, क्योंकि फ़ेच सर्वर-साइड होता है और उपयोगकर्ता कभी आपके पृष्ठ पर नहीं उतरता। उद्धरण देखने का एकमात्र तरीका एज पर है।
उद्धरण बनाम Share of Voice (SOV)
Share of Voice ऑफ़-साइट विकल्प है जिसका अधिकांश टीमें वर्तमान में उपयोग करती हैं जब वे सर्वर-साइड उद्धरण नहीं देख सकते। यह एक माप है कि आपका ब्रांड प्रतिनिधि प्रॉम्प्ट की एक टोकरी में AI उत्तरों में कितनी बार दिखाई देता है। टूल की एक बढ़ती हुई श्रेणी, जिसमें Profound, Otterly, Peec, Evertune, AthenaHQ, BrandRank.AI, Ahrefs Brand Radar, और Semrush और BrightEdge के अंदर AI मॉड्यूल शामिल हैं, ChatGPT, Claude, Gemini, और Perplexity से पैमाने पर क्वेरी करते हैं, ब्रांड उल्लेख गिनते हैं, और एक प्रतिस्पर्धी सेट के सापेक्ष शेयर रिपोर्ट करते हैं।
यह एक उपयोगी दिशात्मक सिग्नल है, लेकिन AI चैनल प्रदर्शन को मापने के लिए हमारी प्राथमिकता ऊपर का उद्धरण सिग्नल है, क्योंकि यह उस सतह द्वारा पृष्ठ स्तर पर वास्तविक फ़ेच कैप्चर करता है जिसने फ़ेच किया। SOV में संरचनात्मक ब्लाइंड स्पॉट हैं जो उद्धरणों में नहीं हैं।
SOV प्रायिक है, उद्धरण देखे गए हैं। AI मॉडल तापमान सेटिंग्स, बातचीत संदर्भ, और दिन के समय के आधार पर समान प्रॉम्प्ट के विभिन्न उत्तर देते हैं। समान क्वेरी को दो बार चलाएँ और आपको ब्रांड उल्लेखों के दो अलग-अलग सेट मिल सकते हैं। SOV टूल नमूनाकरण और औसत के माध्यम से इसे कम करते हैं, लेकिन अंतर्निहित अस्थिरता वास्तविक है, और किसी एकल संख्या की सटीकता अधिकांश रिपोर्टों के सुझाव से कम है। उद्धरण डेटा, इसके विपरीत, वास्तविक फ़ेच का एक सर्वर लॉग है: प्रत्येक हुआ, और प्रत्येक गणना योग्य है।
SOV प्रॉम्प्ट के नमूने लेता है; उद्धरण वास्तविक बातचीत में लंगर डाले हुए हैं। एक SOV टूल विश्लेषक द्वारा चुने गए प्रॉम्प्ट की एक टोकरी चलाता है। वास्तविक उपयोगकर्ता विभिन्न प्रश्न, विभिन्न तरीकों से, विभिन्न पूर्व संदर्भ के साथ पूछते हैं। नमूना मेल खा सकता है या नहीं हो सकता है कि आपके ग्राहक वास्तव में क्या पूछते हैं, और अधिकांश टूल अपने प्रॉम्प्ट सेट को पारदर्शी नहीं बनाते। एक लाइव उद्धरण, परिभाषा के अनुसार, एक वास्तविक उपयोगकर्ता से एक वास्तविक प्रश्न पूछने से आया, इसलिए कोई नमूनाकरण पूर्वाग्रह नहीं है।
मॉडल बदलते हैं। प्रत्येक नया मॉडल रिलीज़, सिस्टम-प्रॉम्प्ट ट्वीक, या रिट्रीवल परिवर्तन उद्धृत होने वाले को बदल देता है। पिछली तिमाही के मॉडल के विरुद्ध मापा गया SOV आंकड़ा इस तिमाही के मॉडल के विरुद्ध लिए गए माप से अलग है, और अधिकांश टूल अपनी रिपोर्टों में मॉडल संस्करण के बारे में पारदर्शी नहीं हैं। उद्धरण गतिविधि रियल टाइम में समायोजित होती है क्योंकि इसे बीच में अनुमान परत के बिना सीधे फ़ेच से कैप्चर किया जाता है।
SOV का उपयोग करने का सबसे साफ़ तरीका उद्धरण सिग्नल के साथ है, प्रतिस्थापन के रूप में नहीं। SOV उत्तरों में आपका ब्रांड कितनी बार सतह पर आता है इसका एक दिशात्मक, ऑफ़-साइट बेंचमार्क है। उद्धरण उन पृष्ठों का सत्यापित, ऑन-साइट रिकॉर्ड हैं जिनका AI ने वास्तव में उन्हें उत्पादित करने के लिए उपयोग किया। एक साथ उपयोग किए जाने पर, ऑफ़-साइट सिमुलेशन और ऑन-साइट सत्य अकेले से अधिक पूर्ण तस्वीर देते हैं।
मायने रखने वाले KPI
एक विशिष्ट पैटर्न, वास्तविक प्रकाशक और ई-कॉमर्स तैनाती से लिया गया: एवरग्रीन पृष्ठों का एक छोटा सेट उद्धरणों का अधिकांश हिस्सा उत्पन्न करता है, जबकि होमपेज शायद ही कभी शीर्ष 50 में आता है। यदि मॉडल ने तय किया है कि आपकी गहन तुलना मार्गदर्शिका एक प्रश्न का सही उत्तर है, तो यह उस पृष्ठ को सप्ताह में सैकड़ों बार फ़ेच करेगा और आपके होमपेज को बिल्कुल नहीं। यह वह परिचालन सिग्नल है जो आप चाहते हैं।
सिग्नल 3: वास्तविक उपयोगकर्ता, उच्च इरादा रेफ़रल
AI इंजन अनुसंधान इंजन हैं, बाधा चैनल नहीं। ChatGPT, Claude, Perplexity, या Copilot में एक उद्धरण पर क्लिक करने वाले उपयोगकर्ता ने पहले ही अपना प्रश्न पूछा है, उत्तर का मूल्यांकन किया है, और आपके पृष्ठ को अगले चरण के रूप में चुना है। जब तक वे आपकी साइट पर उतरते हैं, वे विचार वक्र में उन चैनलों के उपयोगकर्ता की तुलना में आगे होते हैं जिन्होंने उन्हें बाधित किया। हमारी तैनाती में, यह सोशल, डिस्प्ले, और अक्सर पेड सर्च की तुलना में उच्च रूपांतरण दर और छोटी विचार विंडो में अनुवाद करता है। ढाँचा मायने रखता है क्योंकि AI-रेफ़र किए गए उपयोगकर्ता आगमन के समय तक पूर्व-योग्य होते हैं; व्यापक खरीदार यात्रा संदर्भ के लिए, AI एक अनुसंधान इंजन है, बिक्री चैनल नहीं देखें।
यह वह एकमात्र सिग्नल भी है जिसे एक पारंपरिक एनालिटिक्स टूल बिल्कुल देख सकता है, और वह सिग्नल जिस पर अधिकांश टीमें “LLM ट्रैफ़िक” सुनने पर डिफ़ॉल्ट होती हैं। यह वह सिग्नल भी है जहाँ WebView अंतर और Gemini/Claude नो-रेफ़रर अंतर GA4 को 2.5 से 5 गुना अंडर-रिपोर्ट कराते हैं, इसलिए उच्च इरादा आपकी साइट पर किसी भी अन्य चैनल की तुलना में अधिक अनगिनत हो रहा है।
क्या देखें
- स्रोत सहायक द्वारा सत्र, रेफ़रर हेडर पर निर्भर रहने के बजाय सर्वर-साइड वर्गीकृत।
- लैंडिंग पृष्ठ वितरण। AI-रेफ़र किए गए उपयोगकर्ता गहरे पृष्ठों पर उतरते हैं, होमपेज पर नहीं।
- स्रोत द्वारा रूपांतरण दर, आपके ऑर्गेनिक बेसलाइन के विरुद्ध बेंचमार्क की गई। हमारी तैनाती में, AI-रेफ़र किया गया रूपांतरण आम तौर पर प्रति-सत्र आधार पर सोशल से अधिक चलता है।
- खरीद का समय विंडो। ChatGPT उपयोगकर्ता उसी दिन रूपांतरित होते हैं; Perplexity उपयोगकर्ता अक्सर तीन से पाँच दिन लेते हैं; Gemini बीच में बैठता है।
- राजस्व एट्रिब्यूशन। सबसे साफ़ मामलों के लिए सत्यापित IP-से-ऑर्डर मिलान, बाकी के लिए संभाव्य मिलान।
Google Analytics में LLM से रेफ़रल ट्रैफ़िक कैसे मापें (ईमानदार उत्तर)
संक्षिप्त उत्तर है: आप पूरी तरह से नहीं कर सकते। UTM ChatGPT से मौजूद हैं लेकिन Gemini या Claude से नहीं। रेफ़रर डेस्कटॉप ब्राउज़र से मौजूद हैं लेकिन मोबाइल ऐप पर हटा दिए गए हैं। AI ओवरव्यू अलगाव क्षमता के बिना ऑर्गेनिक सर्च के तहत दिखाई देते हैं। आप utm_source=chatgpt.com पर और chatgpt.com, claude.ai, perplexity.ai, gemini.google.com, और copilot.microsoft.com रेफ़रर पर फ़िल्टर करके आंशिक तस्वीर बना सकते हैं, लेकिन आप वास्तविक ट्रैफ़िक का लगभग एक-चौथाई देख रहे होंगे।
ईमानदार उत्तर है इस सिग्नल को सर्वर-साइड कैप्चर करना। पूरा एट्रिब्यूशन मानचित्र, हर डिवाइस-दर-डिवाइस परीक्षण के साथ जो हमने चलाया, LLM ट्रैफ़िक आपके एनालिटिक्स में एक ब्लाइंड स्पॉट है में है।
मोबाइल वह जगह है जहाँ LLM एट्रिब्यूशन अंतर सबसे बड़ा है
यहाँ रेफ़रल अंडर-काउंट का वह भाग है जो सबसे अधिक मायने रखता है: जिस डिवाइस का अधिकांश दर्शक उपयोग करते हैं, वह वही डिवाइस है जहाँ AI एट्रिब्यूशन को स्पष्ट रूप से देखना सबसे कठिन है। मोबाइल उपभोक्ता-सामना करने वाली साइट सत्रों के 70 से 90 प्रतिशत को चलाता है, और यह वह जगह है जहाँ LLM ऐप रहते हैं। हमने जो प्लेटफ़ॉर्म परीक्षण किए, उन पर मोबाइल हर मायने रखने वाले LLM के लिए सबसे कम ट्रैक की गई सतह है।
संरचनात्मक कारण यह है कि मोबाइल LLM ऐप अलगाव WebView में आउटबाउंड लिंक रेंडर करते हैं, जो रेफ़रर हटाते हैं और किसी भी पूर्व ब्राउज़र संदर्भ से सत्र को अलग करते हैं। iOS WebKit का इंटेलिजेंट ट्रैकिंग प्रिवेंशन iPhone पर समस्या को बढ़ाता है, जहाँ WebView कुकी प्रतिबंधों के अधीन है, भले ही रूपांतरण उसके अंदर होता हो।
परिणाम यह है कि LLM ट्रैफ़िक का केवल-रेफ़रल दृश्य ज़्यादातर डेस्कटॉप दृश्य की तरह दिखता है, भले ही वास्तविक दर्शक ज़्यादातर मोबाइल हो। GA4 संख्याओं से खींचे गए क्रॉस-प्लेटफ़ॉर्म तुलनाएँ उस मोबाइल अंतर को ध्यान में रखने पर व्याख्या करना आसान हैं। डेस्कटॉप परिदृश्यों सहित पूरी डिवाइस-दर-डिवाइस मैट्रिक्स LLM ट्रैफ़िक आपके एनालिटिक्स में एक ब्लाइंड स्पॉट है में है।
मायने रखने वाले KPI
व्यापक खरीदार यात्रा के साथ यह कैसे फिट बैठता है, इस पर गहरी नज़र के लिए, AI एक अनुसंधान इंजन है, बिक्री चैनल नहीं देखें। ढाँचा मायने रखता है क्योंकि AI-रेफ़र किए गए उपयोगकर्ता अक्सर मध्य-फ़नल में शोधकर्ता होते हैं, और चैनल को केवल समान-सत्र रूपांतरण पर आँकना इसे कम मूल्यांकित करेगा।
सिग्नल से कार्रवाई तक: कैसे LLM ट्रैफ़िक डेटा प्रभाव चलाता है
मापन तभी अपना मूल्य अर्जित करता है जब यह कार्रवाई की ओर ले जाता है। तीन सिग्नल को एक साथ ट्रैक करने के साथ, क्रॉस-सिग्नल डेटा से दो सिफ़ारिश पैटर्न विश्वसनीय रूप से सतह पर आते हैं, साथ ही एक चलता हुआ लॉग जो टीम काम करने वाले के बारे में रख सकती है।
कंटेंट ताज़गी
पिछले 30 दिनों में शीर्ष ट्रेनिंग-क्रॉल किए गए URL, फ़ेच आवृत्ति द्वारा रैंक किए गए। सिफ़ारिश सीधी है: उन्हें सटीक रखें, क्योंकि मॉडल जो भी अभी पृष्ठ पर है उसे सीखेंगे और तदनुसार आपके ब्रांड को भविष्य के उपयोगकर्ताओं के लिए प्रस्तुत करेंगे। एक पुराना पृष्ठ जिस पर OpenAI रात भर ट्रेनिंग कर रहा है, वह एक पुराना पृष्ठ है जिसे ChatGPT अगले ट्रेनिंग चक्र के लिए गलत तरीके से प्रस्तुत करेगा।
कार्रवाई: आवर्ती कैडेंस में प्रत्येक शीर्ष-क्रॉल किए गए पृष्ठ की समीक्षा करें, किसी भी अप्रचलित को ठीक करें, और क्या समीक्षा की गई और कब इसका रिकॉर्ड रखें ताकि ताज़गी एक बार के ऑडिट के बजाय एक ट्रैक किया गया वर्कफ़्लो बन जाए।
पृष्ठ क्रॉल किए गए लेकिन उद्धृत नहीं
वे पृष्ठ जिन्हें AI ट्रेनिंग बॉट फ़ेच कर रहे हैं लेकिन जिन्होंने समान विंडो में शून्य उद्धरण और शून्य रेफ़रल उत्पन्न किए हैं। ई-कॉमर्स के लिए उत्पादों और श्रेणियों में, प्रकाशकों के लिए लेख प्रकारों में विभाजित। यह उद्धरण अंतर है, और यह आम तौर पर कार्य करने का सबसे उच्च-लीवरेज पैटर्न है।
बॉट ने पृष्ठ पढ़ा है। मॉडल ने इसे उद्धृत करने का चुनाव नहीं किया है। समाधान लगभग हमेशा परिवर्तनों का एक ही परिवार होता है: स्पष्ट शीर्षक, बेहतर विवरण, FAQ-शैली कॉपी, और JSON-LD जो उत्पाद, दर्शकों, और स्पष्ट प्रश्न के उत्तर का नाम देता है।
कार्रवाई: पृष्ठ को अधिक उद्धरण योग्य बनाने के लिए फिर से लिखें, फिर समाधान सत्यापित करने के लिए अगले दो सप्ताह में उस URL पर उद्धरण सिग्नल को ट्रैक करें।
क्रॉस-सिग्नल कार्रवाई मानचित्र
एक बार आपने सभी तीन सिग्नल कैप्चर कर लिए, तो चार पैटर्न उभरते हैं और प्रत्येक विशिष्ट कार्य की ओर इशारा करता है। प्रत्येक सेल दिखाता है कि क्या वह सिग्नल सक्रिय है (पृष्ठ वहाँ दिखाई दे रहा है), गायब है (सिग्नल अनुपस्थित है), कमज़ोर है (सिग्नल वहाँ है लेकिन कम प्रदर्शन कर रहा है), या लागू नहीं जब प्रश्न पैटर्न के लिए लागू नहीं होता।
यह वही है जो हमारा मतलब है “LLM ट्रैफ़िक डेटा कार्रवाई चलाता है।” जब तीन सिग्नल साथ-साथ बैठते हैं, तो प्रत्येक पैटर्न विशिष्ट प्रकार के काम की ओर इशारा करता है, इसलिए एक टीम इस सप्ताह भेजने के लिए एक परिवर्तन को प्राथमिकता दे सकती है और अगले सप्ताह प्रभाव की जाँच कर सकती है।
ट्रेनिंग और उद्धरणों के लिए अपने कंटेंट कवरेज को कैसे बेंचमार्क करें
Google Search युग में, इंडेक्सेशन बुनियादी स्वास्थ्य मीट्रिक थी। एक पृष्ठ रैंक करने, क्लिक अर्जित करने, या रूपांतरित करने से पहले, इसे इंडेक्स में होना था। कवरेज LLM युग के लिए वही मीट्रिक है, और यह किसी एक सिग्नल में मुड़ने के बजाय अपनी चीज़ के रूप में ट्रैक होने के योग्य है।
कवरेज उस कंटेंट का प्रतिशत है जो आपके लिए महत्वपूर्ण है जिसे AI वास्तव में पढ़ और उपयोग कर रहा है। यह AI चैनल के लिए नॉर्थ-स्टार संख्या के सबसे करीब है क्योंकि यह हर दूसरे सिग्नल से ऊपर बैठता है। यदि एक मॉडल ने आपके पृष्ठ को अवशोषित नहीं किया है, तो AI इसे उद्धृत नहीं कर सकता। यदि कोई पृष्ठ कभी उद्धृत नहीं किया जाता, तो AI उपयोगकर्ता को वहाँ नहीं भेज सकता। कवरेज वह गेट है जो तय करता है कि क्या शेष फ़नल भी संभव है।
कवरेज को अपनी मीट्रिक के रूप में मानना, तीन सिग्नल में से किसी से अलग, AI चैनल को उस तरह से मापने योग्य बनाता है जिसे ऑर्गेनिक सर्च से परिचित टीमें पहले से समझती हैं। प्रश्न “क्या हम क्रॉल हो रहे हैं” से बदलकर “क्या उत्तर तक पर्याप्त सही कंटेंट पहुँच रहा है” हो जाता है। कवरेज पहले दो सिग्नलों के साथ साफ़-साफ़ विभाजित होता है।
ट्रेनिंग कवरेज बेंचमार्क
पहले अपने रिकॉर्ड के कंटेंट यूनिवर्स को परिभाषित करें। एक ई-कॉमर्स टीम के लिए यह आम तौर पर सभी सक्रिय उत्पाद पृष्ठ, सभी श्रेणी पृष्ठ, और सभी एवरग्रीन मार्गदर्शिकाएँ हैं। एक प्रकाशक के लिए यह लेख संग्रह प्लस संदर्भ और विषय लैंडिंग पृष्ठ हैं। यूनिवर्स हर है।
फिर पूछें: पिछले 30 दिनों में, उन URL का कितना प्रतिशत किसी भी प्रमुख AI इंजन से एक सत्यापित ट्रेनिंग क्रॉलर द्वारा कम से कम एक बार फ़ेच किया गया था? यह आपकी 30-दिन ट्रेनिंग कवरेज है। उचित आंतरिक लिंकिंग और एक स्वच्छ साइटमैप वाली एक स्वस्थ साइट को 90 प्रतिशत या उससे अधिक चलना चाहिए। उससे नीचे, आपके पास खोज क्षमता समस्या है: बॉट आपके इन्वेंट्री के एक सार्थक हिस्से को नहीं ढूँढ सकते या उस पर वापस नहीं आते।
फिर AI इंजन द्वारा उसी संख्या को विभाजित करें। प्रति-इंजन कवरेज वह जगह है जहाँ लीवरेज रहता है। OpenAI 95 प्रतिशत कवर कर सकता है जबकि Google 40 प्रतिशत कवर करता है और Anthropic 70 प्रतिशत कवर करता है। यह स्प्रेड आपको ठीक-ठीक बताता है कि सतह-विशिष्ट पहुँच (robots.txt समीक्षा, साइटमैप जमा करना, संरचित डेटा सुधार) में कहाँ निवेश करना है और जब भविष्य का उपयोगकर्ता पूछता है तो कौन से मॉडल आपके ब्रांड को सटीक बनाम खराब रूप से प्रस्तुत करेंगे।
उद्धरण कवरेज बेंचमार्क
उद्धरण कवरेज उसी तरह से बनाई जाती है लेकिन एक संकीर्ण हर के विरुद्ध: आपका संदर्भ-ग्रेड कंटेंट, वे पृष्ठ जिन्हें आप उम्मीद करेंगे कि AI उद्धृत करेगा यदि वह आपकी साइट को सही ढंग से समझ रहा है। एक ई-कॉमर्स टीम के लिए यह आम तौर पर मार्गदर्शिकाएँ, तुलनाएँ, और FAQ-शैली कंटेंट है, उत्पाद पृष्ठ स्वयं नहीं। एक प्रकाशक के लिए यह आपके एवरग्रीन और संदर्भ लेख हैं।
पूछें: पिछले 30 दिनों में, उन संदर्भ URL का कितना प्रतिशत ChatGPT, Claude, या Perplexity से कम से कम एक लाइव फ़ेच प्राप्त किया? यह आपकी 30-दिन उद्धरण कवरेज है। एक साइट जिसका संदर्भ कंटेंट अच्छी तरह से संरचित, अच्छी तरह से शीर्षक वाला, और JSON-LD समृद्ध है, उसे 60 से 80 प्रतिशत चलना चाहिए। 40 प्रतिशत से नीचे एक उद्धरण-योग्यता समस्या है, लगभग हमेशा स्पष्ट शीर्षक, बेहतर विवरण, FAQ-शैली कॉपी, और अधिक संरचित डेटा द्वारा हल करने योग्य।
फिर सहायक द्वारा विभाजित करें। ChatGPT अधिकांश साइटों पर वॉल्यूम पर हावी होगा; Claude किसी भी टूल में कम-प्रतिनिधित्व किया जाएगा जो असत्यापित बॉट ट्रैफ़िक को सही ढंग से नहीं संभालता; Perplexity संरचित उत्पाद और संदर्भ कंटेंट पर अधिक-इंडेक्स होगा।
कुल मिलाकर स्वस्थ कैसा दिखता है
सटीक थ्रेसहोल्ड संग्रह गहराई, कंटेंट मिश्रण, और दर्शकों के अनुसार बदलते हैं, लेकिन एक स्वस्थ प्रोफ़ाइल का पैटर्न प्रकाशित करने के लिए पर्याप्त सुसंगत है:
- ट्रेनिंग कवरेज आपके शीर्ष 100 पृष्ठों का: 30-दिन की विंडो में 100 प्रतिशत पर या उसके पास, कम से कम तीन से चार AI इंजन सक्रिय रूप से फ़ेच कर रहे हैं।
- उद्धरण कवरेज आपके संदर्भ-ग्रेड कंटेंट का: 30-दिन की विंडो में 60 से 80 प्रतिशत। 40 प्रतिशत से नीचे शीर्षक, विवरण, और संरचित डेटा में उद्धरण-योग्यता अंतराल की ओर इशारा करता है।
- शीर्ष उद्धरण पृष्ठ: एवरग्रीन, गहन, संदर्भ-ग्रेड कंटेंट। होमपेज शीर्ष 20 में नहीं होना चाहिए।
- उद्धरण एकाग्रता: आपके शीर्ष 30 पृष्ठों पर सभी उद्धरणों का 60 से 80 प्रतिशत सामान्य है। केवल आपके शीर्ष 5 पर एकाग्रता का मतलब है कि आपकी संदर्भ सतह बहुत संकीर्ण है। यदि आपकी संख्या इस पैटर्न से तेज़ी से अलग होती है, तो निदान आम तौर पर संरचित-डेटा अंतराल, कंटेंट जिसे मॉडल उद्धृत करने योग्य नहीं मानता, या एक कवरेज समस्या है जिसे आंतरिक लिंकिंग और साइटमैप ठीक कर सकते हैं।
इनमें से किसी से पहले AI दृश्यता पर मूलभूत प्राइमर के लिए, AI दृश्यता को समझना देखें। तीन-सिग्नल मॉडल पर साफ़-साफ़ मैप करने वाले सात-KPI ढाँचे के लिए, AI प्रदर्शन मीट्रिक: सात KPI जो हर ब्रांड को ट्रैक करना चाहिए देखें।
अनुमान लगाना बंद करें, सक्रिय करना शुरू करें
जब LLM ट्रैफ़िक को एक एकल संख्या के रूप में रिपोर्ट किया जाता है, तो बहुत उपयोगी संदर्भ खो जाता है। मज़बूत कंटेंट वास्तव में जितना है उससे शांत दिख सकता है क्योंकि इसके अधिकांश प्रभाव एनालिटिक्स टूल के बाहर पड़ते हैं। आशाजनक प्रदर्शन को उस अपस्ट्रीम गतिविधि तक वापस ट्रेस करना मुश्किल है जिसने इसे अर्जित किया। टीमें अप्रत्यक्ष सिग्नल पर निर्भर हो जाती हैं क्योंकि प्रत्यक्ष अभी तक दिखाई नहीं देते।
आपकी साइट पर तीन सिग्नल उस तस्वीर को भरते हैं। ट्रेनिंग आपको दिखाती है कि AI आपके ब्रांड और कंटेंट के बारे में क्या अवशोषित कर रहा है। उद्धरण आपको दिखाते हैं कि AI रियल-टाइम में वास्तविक प्रश्नों का उत्तर देने के लिए किन पृष्ठों तक पहुँच रहा है। रेफ़रल आपको उन उच्च-इरादा वाले उपयोगकर्ताओं को दिखाते हैं जिन्हें AI के माध्यम से भेजता है। तीनों के अपस्ट्रीम कवरेज बैठती है, इंडेक्सेशन का LLM-युग समतुल्य, और वह गेट जो तय करता है कि क्या शेष फ़नल भी संभव है।
एक साथ पढ़ने पर, तीन सिग्नल एक टीम को हर सप्ताह कार्य करने के लिए एक स्पष्ट क्रॉस-सिग्नल पैटर्न देते हैं। AI सुपरस्टार सुरक्षा करने के लिए पृष्ठ हैं, उद्धरण अंतराल फिर से लिखने के लिए पृष्ठ हैं, क्लिक-थ्रू समस्याएँ लोड गति और स्निपेट ढाँचे की ओर इशारा करती हैं, और कवरेज अंतराल खोज क्षमता की ओर इशारा करते हैं। ऑफ़-साइट, Share of Voice AI उत्तरों में हो रही बातचीत के लिए एक उपयोगी दिशात्मक बेंचमार्क है, लेकिन वास्तविक प्रदर्शन प्रभाव मापने के लिए, ऑन-साइट तीन-सिग्नल मॉडल वही है जिसके चारों ओर हमारा मानना है कि ब्रांडों को AI चैनल विकास में निवेश करते हुए खुद को उन्मुख करना चाहिए।
एक साथ, वे AI चैनल को अनुमान लगाने वाली चीज़ से उस चीज़ में बदलते हैं जिस पर आपकी टीम विश्वास के साथ योजना बना सकती है, माप सकती है, और कार्य कर सकती है।
तीनों सिग्नल एक ही डैशबोर्ड में
नीचे दिया गया डैशबोर्ड तीनों ऑन-साइट सिग्नल को एक ही दृश्य में लाता है, जहां कंटेंट कवरेज को अपस्ट्रीम गेट के रूप में साथ-साथ ट्रैक किया जाता है। ट्रेनिंग क्रॉल प्रति पृष्ठ आते हैं, उद्धरण इंजन के अनुसार विभाजित होते हैं, और रेफ़रल्स को अंत से अंत तक राजस्व तक एट्रिब्यूट किया जाता है।