Articles

Article Référencement : Analyse de fichiers robots.txt

Etre présent dans les index des moteurs de recherche tel est l'objectif de tout site. Mais parfois il est préférable de ne pas se faire indexer par un moteur sur une page ou un répertoire donné. Vous pouvez utiliser la balise méta robots pour remplir cette tache. Cependant, pour interdire une partie de son site à un robot particulier, utiliser le fichier robots.txt se révélera souvent plus simple et plus rapide.

Méthodologie

L'ensemble des informations fournit lors de cette série d'article a été réalisé à partir d'une base de données portant sur l'analyse de 195 000 robots.txt de domaine. Cette base de donnée a été réalisée en Décembre 2003 grâce à la technologie d'extraction d'information Maway2. Nous avons à l'aide d'un agent intelligent vérifié la présence du fichier robots.txt sur l'ensemble de ces sites.

De plus sachant qu'une erreur fréquente est l'oublie du " s " de robotS.txt, nous avons donc testé la présence du fichier robot.txt ceci afin d'évaluer l'ampleur de l'erreur sur le Web!

Analyse globale

Sur les 195 223 sites analysés 15,68% possèdent un robots.txt. La répartition entre domaine racine (http://www.) et sous domaine est sensiblement la même. Respectivement 15,46% et 16,74%.

robots.txt mal orthographié ?

A noter que 0,75% des sites ont un robot.txt. Ce qui est strictement inutile rappelons le. Cependant on peut observer que 66,03% des sites possédant un robot.txt ont aussi le robots.txt (donc le bon). Il est vrai que dans le doute, il vaut mieux mettre les 2 ;)

Pour revenir au 2/3 des sites ayant les deux formes, on retrouve cette double présence sur des sites très connu : www.lesechos.fr, www.inra.fr ou encore www.ibm.com. Mais aussi, encore plus surprenant et déroutant pour des outils de recherche (www.toile.qc.ca, www.webcrawler.com, www.indexa.fr , www.toile.com , www.metacrawler.com).

Analyse par Pays

Afin d'avoir une vision plus "nationale" de l'utilisation du robots.txt nous avons réalisé une étude détaillée sur les extensions. Le tableau ci-dessous reprend 20 des 40 extensions significatives (plus de 100 occurrences) détectées lors de notre étude.

Extension Nombre testé % robots.txt % robot.txt(Mal orthographié)
gov 414 41,85 2,68
us 414 40,68 0,48
edu 1434 35,45 2,24
de 2 701 29,66 5,93
uk 1 870 26,58 1,50
jp 470 19,19 2,14
se 223 18,02 0,00
ca 5 481 17,31 0,62
org 13 449 16,78 0,62
com 106 818 16,48 0,65
biz 661 16,21 0,46
es 314 15,97 0,00
it 850 15,90 0,83
info 744 15,77 2,02
ch 5412 15,17 1,50
net 12 552 14,03 0,75
be 4 029 11,25 0,47
fr 28 027 10,70 0,59
lu 580 9,83 0,34
tv 210 4,76 0,48

 

Tout comme dans pas mal de classement les français sont derrière : les sites gouvernementaux (gov), américain (us) et éducatif (edu) sont le haut du panier avec plus de 1 site sur 3 pourvu d'un robots.txt. Les sites allemand (de) et britannique (uk) ont aussi un taux d'utilisation supérieur à 25% donc largement supérieur à la moyenne. On peut supposer un plus grand professionnalisme pour les webmasters de ces pays là.

Enfin on peut observer que la palme de l'erreur revient aux sites allemands. Avec presque 6% de robot.txt, ils arrivent largement en tête dans la catégorie " erreur orthographique ". L'explication est linguistique : en allemand, point de S pour les pluriels.

Dans l'article suivant nous continuerons par une analyse textuelle de ces 30 000 fichiers robots.txt afin de voir ensemble les usages de ce fichier ainsi que les erreurs couramment commises dans son écriture. Nous apprendrons à l'écrire et surtout comment l'utiliser. En attendant, je vous invite à venir tester votre robots.txt avec notre outil gratuit de vérification de syntaxe de robots.txt.


Les marques, logos et noms des outils de recherche cités sur ce site sont la propriété exclusive de leurs propriétaires respectifs. All logos and trademarks in this website are property of their respective owner.
YOODA est un service de la société ALDEIS - ©2007 all rights reserved Mais aussi: