Au cours des dernières semaines, des discussions ont eu lieu dans les médias sociaux sur le fait que Googlebot a considérablement réduit son activité d’exploration. Par exemple, le fondateur d’un service d’analyse du crawl web a tweeté un graphique montrant comment l’activité de crawl de Google a diminué depuis le 11 novembre 2021.
Bien que le ralentissement de l’indexation n’affecte pas tous les sites, beaucoup sur Twitter et Reddit s’accordent à dire que quelque chose a changé chez Google en ce qui concerne l’indexation et le prouvent avec des captures d’écran de l’activité de Googlebot.
Preuve de la réduction de l’indexation
Les preuves anecdotiques d’anomalies d’exploration de Google s’accumulent sur les médias sociaux. Le problème avec les médias sociaux est que l’on peut littéralement faire n’importe quelle observation sur Google et être presque sûr de recevoir un accord.
L’anecdotique est intéressant mais pas aussi bon que l’anecdotique. observations fondées sur des donnéesc’est ce qui est apparu récemment sur Twitter.
Un fondateur du service de crawler et d’analyse de logs Seolyzer (@Seolyzer_io) a publié un graphique du comportement d’exploration de Google qui montre une chute spectaculaire de l’activité d’exploration à partir du 11 novembre.
Il a posté :
“Googlebot est en grève ! Googlebot a considérablement réduit son activité d’exploration sur de nombreux sites importants depuis le 11 novembre à 18 heures (GMT).”
? Googlebot est en grève ! ? Googlebot a considérablement réduit son activité d’exploration sur de nombreux sites importants depuis le 11 novembre à 18 heures (GMT). Vous êtes concernés ? Cela nécessite un fil de discussion ! ? pic.twitter.com/ugLmCZbC1O
– Olivier @Seolyzer.io ? (@Seolyzer_io) 15 novembre 2021
Code de réponse du serveur 304 et exploration par Googlebot
Certains ont remarqué que Googlebot n’explore soudainement plus les pages qui affichent un code de réponse de serveur 304.
Un code de réponse 304 signifie 304 (non modifié).
Ce code de réponse est généré par un serveur lorsqu’un navigateur (ou Googlebot) fait une demande conditionnelle pour une page.
Cela signifie qu’un navigateur (ou Googlebot) indique au serveur qu’il a une page web enregistrée dans le cache et qu’il ne doit pas la servir si cette page n’a pas été mise à jour (modifiée).
Voici une définition du code de réponse du serveur 304 (Not Modified) tirée du site Web de la Commission européenne. Groupe de travail HTTP:
“Le code d’état 304 (Not Modified) indique qu’une demande conditionnelle GET ou HEAD a été reçue et aurait donné lieu à une réponse 200 (OK) si la condition n’avait pas été évaluée comme fausse.
En d’autres termes, il n’est pas nécessaire que le serveur transfère une représentation de la ressource cible car la demande indique que le client, qui a rendu la demande conditionnelle, dispose déjà d’une représentation valide ; le serveur redirige donc le client pour qu’il utilise cette représentation stockée comme s’il s’agissait des données utiles d’une réponse 200 (OK).”
La réponse 304 entraîne une diminution de l’exploration par Googlebot ?
Une personne a tweeté la confirmation (en français) que sur plusieurs sites avec AMP qu’il surveille, il y a eu une baisse sur les pages qui ont répondu avec une réponse 304.
Je confirme ici aussi dans la search console sur plusieurs sites avec amp baisse flagrante des 304 le 12 novembre
– Erwan Le Tallec (@eletallec) 15 novembre 2021
La personne qui a posté le tweet original a répondu en postant un graphique montrant comment Google a presque cessé d’explorer les pages qui répondent avec un code de réponse de serveur 304 :
Théorie 2 : 304s pic.twitter.com/KQ2k1pgteS
– Olivier @Seolyzer.io ? (@Seolyzer_io) 15 novembre 2021
D’autres personnes ont remarqué un problème similaire où les pages servant une réponse 304 avaient des taux d’exploration radicalement inférieurs :
lol j’ai vu ça ce WE et avant de faire un thread je cherchais des infos / annonces pouvant expliquer mais l’explication c’est clairement amp et 304
– Raphael Doucet (@RaphSEO) 15 novembre 2021
Une autre personne a remarqué une réduction des crawls sur les pages de voyage mais une augmentation des crawls sur les pages de commerce électronique :
Ce schéma n’a été observé que sur un portail de tourisme et de voyage en Croatie, les verticaux de commerce électronique n’ont pas eu de problème (on a même constaté une augmentation considérable des crawls après le 11 novembre au soir sur plusieurs d’entre eux).
– Marko Cvijic (@MarkoCvijic) 15 novembre 2021
Beaucoup d’autres personnes partagent des analyses et des captures d’écran de la console de recherche :
@JohnMu Je pense qu’il y a plus de problèmes de routage avec Google crawling à nouveau. Serveur Nginx local et en-têtes S3, même problème. Pouvez-vous nous dire quelque chose à ce sujet ? Peut-être un problème lié à Cloudflare ? https://t.co/c8eV9C4pxg @Seolyzer_io pic.twitter.com/mG1Iqb30UR
– Carlos Redondo (@carlosredondo) 15 novembre 2021
Plus de données :
J’ai extrait quelques données, centrées sur le 21-11-11 19:39 (heure de Paris).
Certaines IP de crawl vérifiées par Google sont devenues complètement noires à partir de ce moment-là. pic.twitter.com/FcqeMXuJPv– Baptiste M. (@bactisme) 15 novembre 2021
Le code de réponse 304 ne devrait pas altérer l’exploration des sites Web
Page d’aide officielle de Google pour les développeurs Documentation sur l’exploration par Googlebot indique qu’un code de réponse 304 ne devrait pas avoir d’incidence sur l’exploration.
Voici ce que conseille la documentation officielle de Google :
“Googlebot signale au pipeline d’indexation que le contenu est le même que la dernière fois qu’il a été exploré.
Le pipeline d’indexation peut recalculer les signaux pour l’URL, mais sinon le code d’état n’a aucun effet sur l’indexation.”
Est-il possible que Google ait changé (de façon permanente ou temporaire) et que la page du développeur soit périmée ?
Théorie du consentement aux cookies
La théorie de la réponse du serveur 304 est l’une des nombreuses théories et solutions qui expliquent pourquoi Googlebot peut ne pas indexer une page Web.
Une personne a tweeté que Google a augmenté l’indexation après avoir supprimé la barre de consentement des cookies.
Google ne rampe plus et n’indexe plus les nouvelles pages ? J’ai eu le même problème et j’ai supprimé la barre de consentement aux cookies (Cookiepro) pour tester. Devinez quoi – le problème est résolu. @JohnMu – Une idée de la raison pour laquelle Google ne pourrait pas explorer et indexer les nouvelles pages avec une popup de consentement aux cookies ?
– Dennis Sievers (@resiever) 16 novembre 2021
Pourquoi la barre de réponse d’un cookie entraînerait-elle la non-indexation d’une page Web par Google ? La barre de consentement du cookie aurait-elle pu déclencher une réponse 304, entraînant la non-indexation de la page par Google ?
La réduction des visites de Googlebot discutée sur Reddit
Le phénomène de la réduction des rampes de Googlebot a également été discuté sur Reddit.
Un Redditor a décrit comment, par le passé, les articles de leur site à succès étaient indexés dans les 10 minutes suivant leur soumission via Google Search Console.
Ils ont raconté que récemment, seule la moitié des nouveaux articles étaient indexés.
Mais cela a changé en novembre, selon ce post Reddit:
“Pour une raison quelconque, moins de la moitié de nos nouveaux articles sont indexés, même si je les soumets manuellement juste après leur publication.”
D’autres redditors ont partagé des expériences similaires :
“Beaucoup de gens vivent une expérience similaire en ce moment… Il semble que quelque chose se passe avec Google.”
“Il se passe quelque chose avec l’indexation des nouveaux articles par Google…”
“Mon site Web a 17 ans… soudainement, le dernier article a mis des semaines à être indexé.”
Google dit que rien n’est cassé
John Mueller, de Google a répondu aux questions sur Reddit:
“Je ne vois rien de cassé dans la façon dont Google indexe les choses pour le moment. Je pense que nous devons être critiques sur ce que nous sélectionnons pour l’indexation, comme tout moteur de recherche devrait le faire.”
Google teste-t-il de nouveaux modèles d’exploration ?
En octobre, Bing a annoncé un protocole d’indexation open source appelé IndexNow, dont l’objectif est de réduire la fréquence à laquelle les robots d’exploration parcourent les pages Web afin de réduire la quantité d’énergie utilisée par les centres de données pour l’exploration et les serveurs pour la diffusion des pages Web. Le nouveau protocole profite aux éditeurs car il accélère le processus de notification des moteurs de recherche lorsque des pages sont mises à jour ou créées, ce qui permet une indexation plus rapide des pages Web de qualité.
En novembre, Google a annoncé qu’il allait tester le nouveau protocole d’indexation IndexNow pour voir s’il présente des avantages.
Les économies d’énergie et la réduction de l’empreinte carbone sont l’une des questions les plus importantes de notre époque. Se pourrait-il que Google améliore les moyens de réduire le crawling sans passer radicalement à un nouveau protocole ?
Google a-t-il réduit l’exploration des pages Web ?
Certains prétendent que Google a complètement arrêté l’indexation, mais c’est faux. Cependant, de nombreuses discussions sur les médias sociaux, étayées par des données, montrent que les modèles d’indexation de Googlebot ont changé.