+237 655 214 000   |   contact@itiss-group.com

Setup Menus in Admin Panel

1. Comprendre les interactions avec les robots: l’exemple du Googlebot

Comprendre les interactions avec les robots : l’exemple de Googlebot

Présentation

Googlebot est le robot d’exploration (« spider » en anglais) de Google. Lors de l’exploration, Googlebot détecte de nouvelles pages et des pages mises à jour à ajouter dans l’index Google.

Grâce à un gigantesque réseau d’ordinateurs, Googlebot est en mesure d’extraire (ou « explorer ») des milliards de pages Web. Le processus de Googlebot est basé sur des algorithmes ; des programmes informatiques déterminent les sites à explorer, la fréquence d’exploration et le nombre de pages à extraire de chaque site.

Le processus d’exploration de Googlebot consiste dans un premier temps à établir une liste des URL de pages Web, générée à partir des explorations précédentes et auxquelles s’ajoutent les données sitemap fournies par les webmasters. Au cours de sa visite, Googlebot détecte les liens SRC et HREF qui figurent sur chacune des pages et les ajoute à sa liste de pages à explorer. Les nouveaux sites, les modifications de sites existants et les liens non fonctionnels sont répertoriés et utilisés pour mettre à jour l’index Google.

 

Comment Googlebot accède-t-il à un site ?

Dans la plupart des cas, les accès de Googlebot à un site doivent être espacés de plusieurs secondes en moyenne. Cependant, en raison de retards sur le réseau, il est possible que cette fréquence soit légèrement supérieure sur de courtes périodes. En général, Googlebot télécharge une seule copie de chaque page à la fois. S’il télécharge une page plusieurs fois, c’est sans doute qu’il a été arrêté, puis redémarré.

Googlebot est conçu pour être réparti sur plusieurs machines pour améliorer les performances et évoluer avec la croissance du Web. En outre, pour limiter l’utilisation de la bande passante, Google exécute de nombreux robots d’exploration sur des machines situées à proximité des sites à indexer sur le réseau. Par conséquent, les fichiers journaux des sites web peuvent indiquer des visites de plusieurs machines sur google.com, toutes avec le user-agent Googlebot. L’objectif est d’explorer autant de pages du site que possible à chaque visite, sans surcharger la bande passante du serveur qui l’héberge.

 

Comment empêcher Googlebot d’explorer un site ?

Il est quasiment impossible de garder un serveur Web secret en évitant de publier des liens qui pointent vers celui-ci. Dès lors qu’un internaute clique sur un lien d’un serveur « secret » vers un autre serveur Web, cette URL « secrète » peut s’afficher dans la balise de provenance, puis être enregistrée et publiée dans un fichier journal de cet autre serveur Web. De même, le Web contient de nombreux liens obsolètes ou non fonctionnels. Dès lors que quelqu’un publie un lien incorrect vers un site ou ne met pas à jour les liens suite à des modifications sur un serveur, Googlebot essaie de télécharger ces liens incorrects.

 

Pour empêcher Googlebot d’explorer un site, plusieurs options sont disponibles, comme l’utilisation d’un fichier robots.txt pour bloquer l’accès aux fichiers et aux répertoires sur le serveur d’hébergement.

Après la création du fichier robots.txt, Googlebot détecte vos modifications. Si Googlebot continue d’explorer les pages bloquées dans votre fichier robot.txt, il faut vérifier que celui-ci est placé au bon endroit. Il doit se trouver dans le répertoire principal du serveur (par exemple, www.monhebergeur.fr/robots.txt). S’il se trouve dans un sous-répertoire, il est inefficace.

Si le but est seulement d’éviter les messages d’erreur du type « fichier introuvable » dans les fichiers journaux du serveur Web, on peut créer un fichier vide intitulé « robots.txt ». Pour empêcher Googlebot de suivre les liens qui se trouvent sur une page du site, utiliser la balise Meta « nofollow ». Pour empêcher Googlebot de suivre un lien individuel, ajouter l’attribut rel= »nofollow » au lien.

 

Quelques conseils supplémentaires :

  • Vérifier que le fichier robots.txt fonctionne correctement. L’outil de test du fichier robots.txt sur les pages bloquées (sous État de santé) explique en détail la manière dont Googlebot interprète le contenu d’un fichier robots.txt. Le user-agent de Google s’appelle (judicieusement) Googlebot.
  • L’outil « Explorer comme Google» de la Search Console permet de déterminer précisément comment Googlebot voit un site. Il peut être très utile pour résoudre les problèmes liés au contenu du site ou à sa visibilité dans les résultats de recherche.

 

Comment garantir l’exploration d’un site ?

Googlebot détecte les sites en suivant les liens entre les pages. La page Erreurs d’exploration de la Search Console répertorie les problèmes rencontrés par Googlebot lors de l’exploration d’un site. Google recommande de vérifier régulièrement ces erreurs d’exploration afin d’identifier d’éventuels problèmes sur le site.

Si le fichier robots.txt fonctionne comme prévu, mais que le site ne reçoit pas de trafic, plusieurs raisons peuvent expliquer pourquoi le contenu n’est pas bien placé dans les résultats de recherche, généralement liées de manière intrinsèque audit contenu ou à des situations de spamming.

 

Problèmes avec les spammeurs et les autres user-agents

Les adresses IP utilisées par Googlebot changent de temps en temps. Le meilleur moyen d’identifier les accès de Googlebot est d’utiliser le user-agent (Googlebot). Grâce à la résolution DNS inverse, on peut vérifier que le robot qui accède à un serveur est bien Googlebot.

Googlebot, comme tous les robots d’exploration sérieux, respecte les directives du fichier robots.txt. En revanche, certains spammeurs ou certaines personnes mal intentionnées ne le font pas. Tout spam doit être signalé à Google.

 

Google dispose de plusieurs autres user-agents, comme Feedfetcher (user-agent Feedfetcher-Google). Les requêtes Feedfetcher sont déclenchées par des utilisateurs qui ont ajouté des flux à leur page d’accueil Google ou à Google Reader, et non par des robots automatisés. Feedfetcher ne suit donc pas les consignes du fichier robots.txt. On peut empêcher Feedfetcher d’explorer un site en configurant le serveur de manière à renvoyer un message d’erreur 404, 410 ou autres au user-agent Feedfetcher-Google.

 

SEE ALL Add a note
YOU
Add your Comment

Related Courses Widget

Course

top
© ITISS Edu. Tous droits réservés.
X