Articles

Le spam sur Google

Aujourd'hui nous souhaitons, à travers cet article, apporter un éclairage sur le spam massif sur Google. En effet nous avons tous pu observer ces pages sans aucun contenu qui sont apparues depuis peu (novembre 2003 ) dans Google.

Rappel des faits

Depuis quelques mois sont apparus des sites dans Google frappés du sceau "spammeur" par la communauté du référencement. Face aux vives critiques des professionnels, Frank Poisson (Directeur de Google France) apporta une réponse lors de la conférence Imi Kiti le 25 septembre 2003. A cette occasion Mr Poisson nous informe que les techniciens de Google étaient entrain de s'occuper du problème. Force est de constater que 2 mois et 2 Google dance plus tard, le problème s'est amplifié! Les solutions ne venant pas de Google, certains ont pris les devant. Ainsi est né Google Filter! (Résultat Google - 25 domaines..).

Que peut-on y faire ?

Nous nous sommes donc posés la question de la difficulté d'identification d'une action de spam massif. Pour tenter d'identifier ces derniers nous avons réalisé un relevé des leaders grâce à seeUrank sur 700 mots clés sur Google France (web).

Avant tout, un petit rappel sur le relevé des leaders. Ce dernier permet sur un groupe de mots clés réduit d'identifier les sites les mieux positionnés sur Internet. L'utilisation que nous avons eu du relevé des leaders est donc ici détourné (plus d'info). En effet il s'agit de 700 mots clés parmi les plus tapés du Web (source des mots clés : article Lycos voyeur). L'objectif est de faire ressortir les sites ayant un positionnement sur des mots clés variés, donc potentiellement "spammeur".

Tableau des leaders

Nous avons ici sélectionné 14 sites parmi les mieux positionnés sur Google sur nos 700 mots clés. Le tableau ci-dessous donne pour chaque site son ratio sachant que la base 100 correspond au site numéro 1. De plus pour chaque site nous précisons si des liens sponsorisés sont présents, le nombre de pages indexées et enfin le nombre de backlinks.

Ratio
Site
Type
Lien sponsorisé
Page indexée
Backlink
100 http://www.amazon.com site marchand non
3,770,000
191,000
87 http://www.franao.com Ferme de liens oui
50,700
1,280
66 http://fr.kelkoo.com site marchand non
117,000
37,600
40 http://telecharger.01net.com Logitheque non
78,500
8,590
36 http://www.imdb.com BDD personnalités non
422,000
41,200
31 http://www.ciao.fr Avis consommateur oui
378,000
2,210
26 http://www.yalho.com Annuaire non
31,600
637
25 http://www.tysami.com Annuaire, portable, sexe non
16,000
138
19 http://www.aufeminin.com Information non
92,700
2,420
19 http://www.amazon.fr site marchand non
1,320,000
894
15 http://search.kelkoo.fr site marchand non
114,000
209
14 http://www.monsieurprix.com site marchand non
124,000
209,000
12 http://www.commercialement.net Ferme de liens oui
19,500
1,360
11 http://www.nitro-achats.com Ferme de liens oui
24,800
958


Interprétation et analyse des résultats


Il se dégage de cette analyse 3 grandes catégories. Les sites marchands, les fermes de liens, les annuaires.

Les sites marchands

Il est tout à fait normal de retrouver ces derniers dans cette étude. En effet de nombreux mots analysés portent sur des produits, noms de chanteurs, marques, jeux vidéos. Les sites marchands présents ici vendent ces produits. On peut donc considérer ce positionnement comme logique vu le grand nombre de pages présentes dans Google (prés de cinq millions et demi de pages en tout).

Cependant, on peut s'interroger quant à certaines pratiques beaucoup plus "choquantes". Prenons l'exemple de Kelkoo:

Sous prétexte de rapprocher l'internaute du produit final, des index sont créés pour renvoyer vers le moteur de recherche interne. Et bien sûr grâce aux techniques d'Url rewriting nous obtenons de jolies pages de la forme: ss_motcle.html

La technique utilisé est toute simple: des pages index sont créées sur les "recherches les plus courantes" par catégorie. Par exemple, les recherches les plus courantes de livre ( http://search.kelkoo.fr/b/a/ssq_100801_0_100.html ). Vous y apprendrez que les internautes recherchent couramment un livre sur les sujets: "montres swatch", "Kamasutra Gay", "photo erotique". Pour information le positionnement dans Google et respectivement de 1, 2 et... 3.

Enfin pour finir l'analyse de kelkoo, il faut savoir que la recherche est réalisée sur un mot OU l'autre. Ainsi notre recherche sur photo erotique (2eme et 3eme position sur Google quand même) nous renvoie vers une page d'appareils photos... A vous de réaliser les photos ensuite .

Les pages satellites

Le principe est très simple. Il y a peu de temps a été inventé le lien sponsorisé ou des sites payent pour chaque visiteur provenant d'un lien placé sur un autre site. Les webmasters de site ont la possibilité d'afficher ces liens sponsorisés sur leur site, touchant au passage un pourcentage.

Les pages satellites sont une utilisation quasi unique de ce système. La logique ? Pourquoi créer un contenu novateur quand des milliers de pages créées quasi automatiquement et optimisées sur un mot clé spécifique donnent un bon positionnement dans Google. L'objectif est simple, être visible sur le plus grand nombre possible de mots, de la façon la plus importante et automatique possible de manière à favoriser les retombées grâce aux clics sur les liens sponsorisés.

Il s'agit en soi d'une logique commerciale respectable. N'est-ce pas le but de tout site commercial de gagner de l'argent ? Ne s'agit-il pas d'une brèche utilisée fort avantageusement ?

Les annuaires

Est-il normal qu'un annuaire utilise son moteur de recherche interne pour être mieux positionné ? Beaucoup répondront non. En effet, un annuaire possède déjà une arborescence. Cependant certains annuaires utilisent le principe de l'url rewriting pour créer de fausses pages statiques correspondant à des recherches.

Prenons l'exemple de Yalho. Analysons les pages indexées grâce à la commande site de google ici

Que pouvons-nous observer ? Des pages de la forme www.yalho.com/mot-cle.html en grand nombre. De plus on peut voir que le titre est optimisé pour le mot clé, ainsi que le code html de la page.

Conclusion ?

Tout d'abord notre objectif initial a été atteint nous avons facilement mis en avant des sites positionnés de façon "importante". Maintenant où se situe la limite entre spam et pas spam ? Quand kelkoo crée une page optimisée sur photo érotique qui renvoie vers des appareils photo ? Quand un annuaire crée des pages optimisées renvoyant vers une recherche interne sur photo érotique ? Quand Franao renvoie uniquement les liens sponsorisés ?

Où se situe le spam de façon massive ? Où commence-t-il ? Nous ne parlons pas du site qui crée une dizaine de pages ne respectant pas quelques règles établies par les moteurs de recherches. Il s'agit ici potentiellement de milliers (voir millions) de pages optimisées de façon automatique !

Il serait peut-être temps que Google communique de façon claire sur le sujet. Est-ce autorisé ? Qu'a-t'on le droit de vraiment faire ? En l'occurrence il ne s'agit pas tant d'une solution technique. Nous avons vu qu'il était simple d'identifier ces sites.


Les marques, logos et noms des outils de recherche cités sur ce site sont la propriété exclusive de leurs propriétaires respectifs. All logos and trademarks in this website are property of their respective owner.
YOODA est un service de la société ALDEIS - ©2007 all rights reserved Mais aussi: