Yooda
Outils pour l’analyse et le suivi du référencement
Articles
Les robots interdits
Nous allons aujourd'hui clôturer notre étude du robots.txt par une étude des robots interdits. En effet l'objectif du fichier robots.txt étant d'exclure certains robots de son site, cette analyse peut vous être utile afin pour déterminiez votre politique d'indexation.
Apres cette chronique vous pourrez déterminer les robots non "souhaitable" sur votre site :). Nous avons utilisé la même base que pour les articles précédents, soit 30607 robots.txt analysé.
Le tableau ci-dessous vous présente les robots.txt les plus souvent interdit.
|
position
|
Robot
|
Nombre interdit
|
% du total
|
Déscriptif | Detail |
| 1 | ia_archiver | 1177 | 3,846% | Robot d'analyse marketing | Detail |
| 2 | zeus | 1019 | 3,329% | Robot d'analyse marketing | Detail |
| 3 | crescent | 759 | 2,48% | Collecteur de mail | Detail |
| 4 | openfind | 721 | 2,356% | Moteur de recherche asiatique | Detail |
| 5 | microsoft | 712 | 2,326% | --- | |
| 6 | vci | 691 | 2,258% | --- | |
| 7 | repomonkey | 689 | 2,251% | --- | |
| 8 | xenu's | 677 | 2,212% | Validateur de lien | Detail |
| 9 | teleport | 551 | 1,8% | Aspirateur de site | Detail |
| 10 | scooter | 549 | 1,794% | Robot d'Altavista | |
| 11 | emailsiphon | 544 | 1,777% | Collecteur de mail | Detail |
| 12 | wget | 521 | 1,702% | Aspirateur de site | |
| 13 | webzip | 519 | 1,696% | Aspirateur de site | Detail |
| 14 | googlebot | 515 | 1,683% | Robot de Google | Detail |
| 15 | webcopier | 491 | 1,604% | Aspirateur de site | Detail |
| 16 | extractorpro | 471 | 1,539% | Collecteur de mail | Detail |
| 17 | psbot | 459 | 1,5% | Indexation d'image | Detail |
| 18 | emailcollector | 458 | 1,496% | Collecteur de mail | |
| 19 | linkwalker | 451 | 1,474% | Validateur de lien | Detail |
| 20 | offline | 446 | 1,457% | Aspirateur de site | |
| 21 | emailwolf | 431 | 1,408% | Collecteur de mail | Detail |
| 22 | webbandit | 427 | 1,395% | Aspirateur de site | Detail |
| 22 | webstripper | 413 | 1,349% | Aspirateur de site | Detail |
| 24 | netmechanic | 406 | 1,326% | Validateur de lien | Detail |
| 25 | msiecrawler | 396 | 1,294% | Module d'I.E pour crawl des favoris | Detail |
| 26 | sitesnagger | 393 | 1,284% | Aspirateur de site | Detail |
| 27 | cherrypicker | 392 | 1,281% | Moteur de recherche CherryPicker | Detail |
| 28 | moget | 382 | 1,248% | Moteur de recherche Goo | Detail |
| 29 | nicerspro | 380 | 1,242% | Collecteur de mail | Detail |
| 30 | mister | 380 | 1,242% | Moteur sur l'enseignement et la recherche | Detail |
| 31 | asterias | 379 | 1,238% | Moteur de recherche Singingfish | Detail |
| 32 | website | 373 | 1,219% | Aspirateur de site | |
| 33 | dittospyder | 372 | 1,215% | Moteur de recherche ditto | Detail |
| 34 | teleportpro | 370 | 1,209% | Aspirateur de site | Detail |
On peut tout d'abord observer que 2 catégories représentent la majorité des robots interdits : les aspirateurs et les collecteurs de mail. L'explication de cette interdiction est simple, aucune valeur ajoutée pour le site internet. La nuisance est encore plus importante dans le cas des collecteurs de mail. En effet, vous risquez fort de vous retrouver submergé de mails non sollicités si vous ne prenez pas gare à ces derniers ! La meilleure solution pour éviter cette douloureuse expérience reste de protéger les mails en ne les mettant pas en clair sur votre site. De plus il faut savoir que tous les robots ne respectent pas le fichier robots.txt (emailsiphon par exemple). Afin de pallier à ce problème, certains sites mènent une vraie guerre anti robots indélicats (Voir le dernier paragraphe de cette page).
Les deux premiers de cette étude appartiennent à une catégorie un peu particulière, les robots d'analyse marketing. Ces derniers sont des outils utilisés par des sociétés pour réaliser des études marketing. J'attire particulièrement votre attention sur le robot d'Alexa.com, nommé ia_archiveur, qui va encore plus loin. Il n'a pas besoin de suivre les liens pour indexer une page! La raison en est très simple, Alexa "utilise" les informations des utilisateurs de sa toolbar pour indexer des pages. Attention donc aux urls de bêta test. Si l'un de vos bêtas-testeurs possède la toolbar, vous risquez de vous retrouver avec un robot qui parcourt vos pages jalousement cachées. La meilleure solution pour éviter ce genre de désagrément est de mettre un fichier .htaccess.
On peut noter la présence de " scooter " le robot d'Altavista bien classé dans cette étude. La raison est historique, entre août 2001 et janvier 2002 scooter a eu un comportement étrange provoquant des ralentissements sur les serveurs. De nombreux webmasters devant le peu de trafic généré par Altavista, ont alors décidé de tout simplement l'exclure.
La présence de Googlebot peut surprendre vu le trafic généré par Google. Ce qui peut s'expliquer par le fait que le robots.txt permet l'exclusion d'un répertoire. Ainsi, certains webmasters mettent en place une véritable stratégie d'optimisation à destination de Google en créant des répertoires spécifiques. Il faut alors interdire les autres.
Enfin pour conclure l'analyse de ce tableau on remarque la très bonne place de Microsoft. L'actualité peut expliquer cette superbe 5ème place. L'annonce de Microsoft de se lancer dans la course aux moteurs de recherche à provoquer une levée de bouclier dans le monde du webmastering. De nombreux webmasters ont alors décidé d'interdire leur site à Microsoft afin de freiner le développement du futur moteur. Cependant, il semblerait que Microsoft n'ait pas été freiné par cette valeureuse initiative. Depuis quelques jours un certain MSNBot parcourent frénétiquement la toile. Il ne vous reste plus qu'à interdire les robots qui ne vous semblent pas pertinent pour votre site. Pour aller plus loin vous pouvez consulter 1-Hit.com qui recense les "Bad bots". Je vous conseille également le site d'Henri Ruch qui rassemble une grande partie des signatures de robots. Une bonne url à mettre en favori pour le jour où vous identifierez un robot inconnu dans vos logs.
N'hésitez pas à me contacter si vous avez des sujets d'articles à me soumettre. Ce sera avec grand plaisir que je vous répondrai...
RÉFÉRENCEMENT