Yooda
Outils pour l’analyse et le suivi du référencement
Articles
Le spam sur Google
Aujourd'hui nous souhaitons, Ã travers cet article,
apporter un éclairage sur le spam massif sur Google.
En effet nous avons tous pu observer ces pages sans
aucun contenu qui sont apparues depuis peu (novembre
2003 ) dans Google.
Rappel des faits
Depuis quelques mois sont apparus des sites dans Google
frappés du sceau "spammeur" par la communauté du référencement.
Face aux vives critiques des professionnels, Frank Poisson
(Directeur de Google France) apporta une réponse lors
de la conférence Imi Kiti le 25 septembre 2003. A cette
occasion Mr Poisson nous informe que les techniciens
de Google étaient entrain de s'occuper du problème.
Force est de constater que 2 mois et 2 Google dance
plus tard, le problème s'est amplifié! Les solutions
ne venant pas de Google, certains ont pris les devant.
Ainsi est né Google Filter! (Résultat Google - 25 domaines..).
Que peut-on y faire ?
Nous nous sommes donc posés la question de la difficulté
d'identification d'une action de spam massif. Pour tenter
d'identifier ces derniers nous avons réalisé un relevé
des leaders grâce à seeUrank sur 700 mots clés sur Google
France (web).
Avant tout, un petit rappel sur le relevé des leaders.
Ce dernier permet sur un groupe de mots clés réduit
d'identifier les sites les mieux positionnés sur Internet.
L'utilisation que nous avons eu du relevé des leaders
est donc ici détourné (plus
d'info). En effet il s'agit de 700 mots clés parmi
les plus tapés du Web (source des mots clés : article
Lycos voyeur). L'objectif est de faire ressortir
les sites ayant un positionnement sur des mots clés
variés, donc potentiellement "spammeur".
Tableau des leaders
Nous avons ici sélectionné 14 sites parmi les mieux positionnés sur Google sur nos 700 mots clés. Le tableau ci-dessous donne pour chaque site son ratio sachant que la base 100 correspond au site numéro 1. De plus pour chaque site nous précisons si des liens sponsorisés sont présents, le nombre de pages indexées et enfin le nombre de backlinks.
|
Ratio
|
Site
|
Type
|
Lien sponsorisé
|
Page indexée
|
Backlink
|
| 100 | http://www.amazon.com | site marchand | non |
3,770,000
|
191,000
|
| 87 | http://www.franao.com | Ferme de liens | oui |
50,700
|
1,280
|
| 66 | http://fr.kelkoo.com | site marchand | non |
117,000
|
37,600
|
| 40 | http://telecharger.01net.com | Logitheque | non |
78,500
|
8,590
|
| 36 | http://www.imdb.com | BDD personnalités | non |
422,000
|
41,200
|
| 31 | http://www.ciao.fr | Avis consommateur | oui |
378,000
|
2,210
|
| 26 | http://www.yalho.com | Annuaire | non |
31,600
|
637
|
| 25 | http://www.tysami.com | Annuaire, portable, sexe | non |
16,000
|
138
|
| 19 | http://www.aufeminin.com | Information | non |
92,700
|
2,420
|
| 19 | http://www.amazon.fr | site marchand | non |
1,320,000
|
894
|
| 15 | http://search.kelkoo.fr | site marchand | non |
114,000
|
209
|
| 14 | http://www.monsieurprix.com | site marchand | non |
124,000
|
209,000
|
| 12 | http://www.commercialement.net | Ferme de liens | oui |
19,500
|
1,360
|
| 11 | http://www.nitro-achats.com | Ferme de liens | oui |
24,800
|
958
|
Interprétation et analyse des résultats
Il se dégage de cette analyse 3 grandes catégories.
Les sites marchands, les fermes de liens, les annuaires.
Les sites marchands
Il est tout à fait normal de retrouver ces derniers
dans cette étude. En effet de nombreux mots analysés
portent sur des produits, noms de chanteurs, marques,
jeux vidéos. Les sites marchands présents ici vendent
ces produits. On peut donc considérer ce positionnement
comme logique vu le grand nombre de pages présentes
dans Google (prés de cinq millions et demi de pages
en tout).
Cependant, on peut s'interroger quant à certaines pratiques
beaucoup plus "choquantes". Prenons l'exemple de Kelkoo:
Sous prétexte de rapprocher l'internaute du produit
final, des index sont créés pour renvoyer vers le moteur
de recherche interne. Et bien sûr grâce aux techniques
d'Url rewriting nous obtenons de jolies pages de la
forme: ss_motcle.html
La technique utilisé est toute simple: des pages index
sont créées sur les "recherches les plus courantes"
par catégorie. Par exemple, les recherches les plus
courantes de livre ( http://search.kelkoo.fr/b/a/ssq_100801_0_100.html
). Vous y apprendrez que les internautes recherchent
couramment un livre sur les sujets: "montres
swatch", "Kamasutra Gay", "photo erotique". Pour
information le positionnement dans Google et respectivement
de 1, 2 et... 3.
Enfin pour finir l'analyse de kelkoo, il faut savoir
que la recherche est réalisée sur un mot OU l'autre.
Ainsi notre recherche sur photo erotique (2eme et 3eme
position sur Google quand même) nous renvoie vers une
page d'appareils photos... A vous de réaliser les photos
ensuite .
Les pages satellites
Le principe est très simple. Il y a peu de temps a été
inventé le lien sponsorisé ou des sites payent pour
chaque visiteur provenant d'un lien placé sur un autre
site. Les webmasters de site ont la possibilité d'afficher
ces liens sponsorisés sur leur site, touchant au passage
un pourcentage.
Les pages satellites sont une utilisation quasi unique
de ce système. La logique ? Pourquoi créer un contenu
novateur quand des milliers de pages créées quasi automatiquement
et optimisées sur un mot clé spécifique donnent un bon
positionnement dans Google. L'objectif est simple, être
visible sur le plus grand nombre possible de mots, de
la façon la plus importante et automatique possible
de manière à favoriser les retombées grâce aux clics
sur les liens sponsorisés.
Il s'agit en soi d'une logique commerciale respectable.
N'est-ce pas le but de tout site commercial de gagner
de l'argent ? Ne s'agit-il pas d'une brèche utilisée
fort avantageusement ?
Les annuaires
Est-il normal qu'un annuaire utilise son moteur de recherche
interne pour être mieux positionné ? Beaucoup répondront
non. En effet, un annuaire possède déjà une arborescence.
Cependant certains annuaires utilisent le principe de
l'url rewriting pour créer de fausses pages statiques
correspondant à des recherches.
Prenons l'exemple de Yalho. Analysons les pages indexées
grâce à la commande site de google ici
Que pouvons-nous observer ? Des pages de la forme www.yalho.com/mot-cle.html
en grand nombre. De plus on peut voir que le titre est
optimisé pour le mot clé, ainsi que le code html de
la page.
Conclusion ?
Tout d'abord notre objectif initial a été atteint nous
avons facilement mis en avant des sites positionnés
de façon "importante". Maintenant où se situe la limite
entre spam et pas spam ? Quand kelkoo crée une page
optimisée sur photo érotique qui renvoie vers des appareils
photo ? Quand un annuaire crée des pages optimisées
renvoyant vers une recherche interne sur photo érotique
? Quand Franao renvoie uniquement les liens sponsorisés
?
Où se situe le spam de façon massive ? Où commence-t-il
? Nous ne parlons pas du site qui crée une dizaine de
pages ne respectant pas quelques règles établies par
les moteurs de recherches. Il s'agit ici potentiellement
de milliers (voir millions) de pages optimisées de façon
automatique !
Il serait peut-être temps que Google communique de façon
claire sur le sujet. Est-ce autorisé ? Qu'a-t'on le
droit de vraiment faire ? En l'occurrence il ne s'agit
pas tant d'une solution technique. Nous avons vu qu'il
était simple d'identifier ces sites.
RÉFÉRENCEMENT