Articles

Les robots interdits

Nous allons aujourd'hui clôturer notre étude du robots.txt par une étude des robots interdits. En effet l'objectif du fichier robots.txt étant d'exclure certains robots de son site, cette analyse peut vous être utile afin pour déterminiez votre politique d'indexation.

Apres cette chronique vous pourrez déterminer les robots non "souhaitable" sur votre site :). Nous avons utilisé la même base que pour les articles précédents, soit 30607 robots.txt analysé.

Le tableau ci-dessous vous présente les robots.txt les plus souvent interdit.

position
Robot
Nombre interdit
% du total
Déscriptif Detail
1 ia_archiver 1177 3,846% Robot d'analyse marketing Detail
2 zeus 1019 3,329% Robot d'analyse marketing Detail
3 crescent 759 2,48% Collecteur de mail Detail
4 openfind 721 2,356% Moteur de recherche asiatique Detail
5 microsoft 712 2,326% ---  
6 vci 691 2,258% ---  
7 repomonkey 689 2,251% ---  
8 xenu's 677 2,212% Validateur de lien Detail
9 teleport 551 1,8% Aspirateur de site Detail
10 scooter 549 1,794% Robot d'Altavista  
11 emailsiphon 544 1,777% Collecteur de mail Detail
12 wget 521 1,702% Aspirateur de site  
13 webzip 519 1,696% Aspirateur de site Detail
14 googlebot 515 1,683% Robot de Google Detail
15 webcopier 491 1,604% Aspirateur de site Detail
16 extractorpro 471 1,539% Collecteur de mail Detail
17 psbot 459 1,5% Indexation d'image Detail
18 emailcollector 458 1,496% Collecteur de mail  
19 linkwalker 451 1,474% Validateur de lien Detail
20 offline 446 1,457% Aspirateur de site  
21 emailwolf 431 1,408% Collecteur de mail Detail
22 webbandit 427 1,395% Aspirateur de site Detail
22 webstripper 413 1,349% Aspirateur de site Detail
24 netmechanic 406 1,326% Validateur de lien Detail
25 msiecrawler 396 1,294% Module d'I.E pour crawl des favoris Detail
26 sitesnagger 393 1,284% Aspirateur de site Detail
27 cherrypicker 392 1,281% Moteur de recherche CherryPicker Detail
28 moget 382 1,248% Moteur de recherche Goo Detail
29 nicerspro 380 1,242% Collecteur de mail Detail
30 mister 380 1,242% Moteur sur l'enseignement et la recherche Detail
31 asterias 379 1,238% Moteur de recherche Singingfish Detail
32 website 373 1,219% Aspirateur de site  
33 dittospyder 372 1,215% Moteur de recherche ditto Detail
34 teleportpro 370 1,209% Aspirateur de site Detail

 

On peut tout d'abord observer que 2 catégories représentent la majorité des robots interdits : les aspirateurs et les collecteurs de mail. L'explication de cette interdiction est simple, aucune valeur ajoutée pour le site internet. La nuisance est encore plus importante dans le cas des collecteurs de mail. En effet, vous risquez fort de vous retrouver submergé de mails non sollicités si vous ne prenez pas gare à ces derniers ! La meilleure solution pour éviter cette douloureuse expérience reste de protéger les mails en ne les mettant pas en clair sur votre site. De plus il faut savoir que tous les robots ne respectent pas le fichier robots.txt (emailsiphon par exemple). Afin de pallier à ce problème, certains sites mènent une vraie guerre anti robots indélicats (Voir le dernier paragraphe de cette page).

Les deux premiers de cette étude appartiennent à une catégorie un peu particulière, les robots d'analyse marketing. Ces derniers sont des outils utilisés par des sociétés pour réaliser des études marketing. J'attire particulièrement votre attention sur le robot d'Alexa.com, nommé ia_archiveur, qui va encore plus loin. Il n'a pas besoin de suivre les liens pour indexer une page! La raison en est très simple, Alexa "utilise" les informations des utilisateurs de sa toolbar pour indexer des pages. Attention donc aux urls de bêta test. Si l'un de vos bêtas-testeurs possède la toolbar, vous risquez de vous retrouver avec un robot qui parcourt vos pages jalousement cachées. La meilleure solution pour éviter ce genre de désagrément est de mettre un fichier .htaccess.

On peut noter la présence de " scooter " le robot d'Altavista bien classé dans cette étude. La raison est historique, entre août 2001 et janvier 2002 scooter a eu un comportement étrange provoquant des ralentissements sur les serveurs. De nombreux webmasters devant le peu de trafic généré par Altavista, ont alors décidé de tout simplement l'exclure.

La présence de Googlebot peut surprendre vu le trafic généré par Google. Ce qui peut s'expliquer par le fait que le robots.txt permet l'exclusion d'un répertoire. Ainsi, certains webmasters mettent en place une véritable stratégie d'optimisation à destination de Google en créant des répertoires spécifiques. Il faut alors interdire les autres.

Enfin pour conclure l'analyse de ce tableau on remarque la très bonne place de Microsoft. L'actualité peut expliquer cette superbe 5ème place. L'annonce de Microsoft de se lancer dans la course aux moteurs de recherche à provoquer une levée de bouclier dans le monde du webmastering. De nombreux webmasters ont alors décidé d'interdire leur site à Microsoft afin de freiner le développement du futur moteur. Cependant, il semblerait que Microsoft n'ait pas été freiné par cette valeureuse initiative. Depuis quelques jours un certain MSNBot parcourent frénétiquement la toile. Il ne vous reste plus qu'à interdire les robots qui ne vous semblent pas pertinent pour votre site. Pour aller plus loin vous pouvez consulter 1-Hit.com qui recense les "Bad bots". Je vous conseille également le site d'Henri Ruch qui rassemble une grande partie des signatures de robots. Une bonne url à mettre en favori pour le jour où vous identifierez un robot inconnu dans vos logs.

N'hésitez pas à me contacter si vous avez des sujets d'articles à me soumettre. Ce sera avec grand plaisir que je vous répondrai...


Les marques, logos et noms des outils de recherche cités sur ce site sont la propriété exclusive de leurs propriétaires respectifs. All logos and trademarks in this website are property of their respective owner.
YOODA est un service de la société ALDEIS - ©2007 all rights reserved Mais aussi: