Yooda
Outils pour l’analyse et le suivi du référencement
Articles
Les utilisations possibles du robots.txt
Aujourd'hui nous allons étudier les utilisations possibles du robots.txt. Pour rappel, le robots.txt est un fichier permettant d'interdire l'indexation de pages de votre site. Pour cela nous avons analysé les « interdictions » de crawlage par la commande Disallow sur 5000 robots.txt.
Afin d'avoir une base documentaire suffisante pour nous permettre d'analyser, nous avons récupéré les répertoires interdits par disallow dans 5000 fichiers robots.txt.
Ce qu'il ne faut pas faire
Plus de 10% des robots.txt interdisent l'indexation d'un répertoire /admin ou apparenté ! Ce qui en soit est plutôt inquiétant. En effet, les robots d'indexation ne peuvent indexer un répertoire protégé par un .htacess (par exemple). Si tel est le cas, inutile de le préciser dans le robots.txt . De plus il faut que le robot d'indexation suive un lien pour qu'il découvre une nouvelle page. Il est clair que dans le cas présent, le danger ne vient pas d'un robot, mais plutôt d'un bipède mal intentionné?. Dont le premier réflexe sera d'aller lire dans le robots.txt ce que vous souhaitez cacher.
On retrouve de la même manière des interdictions vers des répertoires /stats/ , /beta/, /backoffice / , etc. . Les recommandations ci-dessus s'appliquent à ce même type de répertoire.
Une autre erreur fréquente consiste à ne pas tenir compte de la case. Ainsi si vous souhaitez interdire l'indexation du répertoire /AcheteR/ ne mettez pas : « Disallow : /acheter/ ». Les robots dans la majorité des cas font la différence entre majuscule et minuscule.
N'utilisez pas des caractères « joker » pour écrire les interdictions dans vos fichiers robots.txt. Nous avons trouvé des interdictions aussi variées et inexactes que :
/*.gif$ ou /*/print/ ou encore /*.doc$
Aucun caractère joker (* , $ ) n'existe pour l'écriture du robots.txt ! Dans le cas de /*.gif$ il est clair que l'objectif était d'empêcher l'indexation des images du site. La solution la plus logique aurait été de créer un dossier /images/ puis d'interdire ce dernier.
A quoi peut vous servir le robots.txt
Utilisé intelligemment, le fichier robots.txt peut vous éviter bien des tracas.
Le plus gros risque consiste en une indexation inutile et consommatrice en ressources serveur. Dans les robots.txt analysées, nous avons trouvé un grand nombre d'interdiction vers des formulaires de recherche. Chose plutôt utile si votre page de résultats propose 20 termes connexes.
Imaginez le nombre de pages que les robots penseront trouver sur votre site?. Un autre exemple d'interdiction intelligent est le blocage des dossiers /cgi-bin/. Nous avons trouvé cette interdiction dans 20% des robots.txt analysées. Le dossier /cgi-bin/ contenant des scripts appelés avec des paramètres il existe un risque important d'indexation superflu.
Certaines pages d'un site ne vous apportent rien en terme de visiteurs. Il est donc inutile de les faire indexer par un robot ! Le cas des forums en est l'exemple même. Ces derniers interdisent fréquemment les pages de profil, postage d'un nouveau message, liste des utilisateurs connectés, etc. En effet la même page pouvant être appelé avec des paramètres différents elle risque d'être indexé un grand nombre de fois. L'intérêt d'une telle indexation est quant à lui nul.
Conclusion
Maintenant que nous connaissons les piéges à éviter et les utilisations possibles, nous pourrons finir la prochaine fois cette étude par une analyse des robots couramment désignés dans les robots.txt. Histoire de connaître ceux à éviter ;)
RÉFÉRENCEMENT