VOTRESITE.COM : Référencement guadeloupe
Recherche


Guadeloupe
Découvrez la Guadeloupe...




Accueil | Envoyer à un ami | Version imprimable

Introduction à l'étude de la sandbox sur Google

Le terrible et mal nommé Effet Sandbox a été observé depuis début 2004. Beaucoup continuent d'argumenter sur les causes et effets de cet élément particulier de l'algorithme, mais il n'y a aucun débat viable sur son existence. A un moment, la meilleure explication trouvée se résumait à :

"La pénalité qui engendre une dévaluation du positionnement dans Google concerne les sites lancés après Mars 2004".

Cependant, les observations se sont raffinées avec le temps pour donner :

"Un site qui a de grosses variations de positionnement entre Google et les autres moteurs (Yahoo, MSN et Teoma) est un résultat sur les mêmes requêtes"

Ce système de pénalisation est connu pour être imprédictible et particulièrement difficile à analyser car il se comporte bizarrement.
Cet article va résumer l'expérience vécue de plusieurs webmasters et de leurs sites qui sont tombés sous l'Effet Sandbox. Plusieurs douzaines de sites affectés par le filtre ont été analysés, notamment grâce aux contacts réalisés par l'outil de détection Sandbox sur le site SEOmoz.
Bien que je ne puisse par révéler les noms ou URLs des sites audités, les effets observés sont significatifs de la plupart des sites optimisés depuis Mars 2004.



Liste des effets Sandbox observés

L'effet Sandbox semble affecter plusieurs aspects du positionnement dans les résultats de recherche de Google. Cette liste comporte les observations les plus répandues et les facteurs les plus évidents.

La Sandbox est connue pour affecter ...

... le domaine en entier plutôt que des pages uniques, annuaires ou sous-domaines.
... un plus grand pourcentage de domaines enregistrés après 2003, mais certains exemples sont l'exception à cette règle.
... plus communément, les sites Web qui ont utilisé des techniques d'optimisation du référencement. Les critères on-page comportent : optimisation du texte, titres,meta tags, etc... Le off-page concerne les stratégies d'échanges de liens.
Il y a des exceptions à la règle, notamment pour les sites qui ont reçu un apport massif de liens entrants pendant une courte période.
... les sites en langue Anglaise. Les autres langues sont touchées, mais il semble que les sites en Italien ou Hollandais ne rencontrent pas de problèmes liés aux effets Sandbox.
... n'importe quel degré de difficulté de positionnement. Malgré l'existence de rapports suggérant que la Sandbox affecteraient seulement les requêtes les plus compétitives, les sites les plus sandboxés que nous avons audités ne se positionnaient même pas sur les termes les moins compétitifs possibles. Plusieurs sites avaient même des mots clefs rares et ils étaient devancés par des pages qui mentionnait ou liait la page.
... seulement les résultats de recherche de Google. Les sites les plus pénalisés sur Google sont généralement dans le top 3 des résultats d'autres moteurs (MSN, Yahoo, AskJeeves) et pourtant ils sont au delà du 100ème résultat ou pas du tout présents dans Google.
... seulement les résultats de recherche standard. Une recherche avec les opérateurs allintext, allinanchor, allintitle, ou allinurl retournera des résultats "normaux" pour le site. Cet effet peut aussi être visible quand on utiliser l'astuce des -asdf. C'est à dire qu'il s'agit de placer entre 16 et 20 -asdf devant la requête. Voir un exemple.
... le trafic de mauvaise qualité, le spam, les liens d'affiliation et les sites qui comportent des Adsense plutôt que les sites qui ne comportent pas ces éléments. En effet, cela pourrait tout à fait être un composant du système de filtres liés à la Sandbox. Cependant, les sites de ce type ne sont pas toujours affectés et les exemples les plus probants de sites sandboxés sont des sites référencés proprement et techniquement composés de manière classique en html.
... seulement les sites commerciaux ou du secteur privé. Il n'y a pas eu de cas de sites en .gov, .mil, .edu, ou autres noms de domaines officiels qui ont été rapporté comme affectés par la Sandbox.
... les résultats de recherche entre 1 mois et plus d'1 an. Des exemples ont montré que certains sites n'ont jamais quitté la Sandbox, mais il s'agit principalement de sites de "basse qualité".
Il a été observé à propos de la Sandbox, qu'elle relâche les sites en masse car il n'y a quasiment aucun exemple de site qui soit sorti indépendamment. Ainsi, il apparaît que certaines mises à jour de Google relâchent plusieurs sites en même temps. Des spéculations impliquent que Google montrerait par ce biais que l'évaluation manuelle n'est pas de mise.


Explications technologiques sur la Sandbox

Plusieurs théories ont émergées au fil du temps pour expliquer comment Google choisit les sites qui vont tomber dans la Sandbox et pourquoi cet effet n'est pas universel. Les explications suivantes sont les plus populaires et/ou les plus logiques.

Filtre de sur optimisation
Beaucoup suspectent que Google a initialement identifié les sites à sandboxer en analysant les parties d'un site habituellement optimisées comme la structure des backlinks, la densité trop importante de mots clefs et la fréquence d'arrivée des liens entrants. Il y a de fortes chances que Google sache différencier une structure naturelle de liens et un site de spam.

Fréquence de nouveaux liens entrants
Comme il est mentionné dans un récent Brevet Google, la fréquence à laquelle les nouveaux liens entrants sur un site peut être mesurée et comparée à des données d'historique qui permettent de déterminer si un site ou une page est pertinente ou spam. La clef pour utiliser ces données est de comparer la popularité d'une page par rapport aux nombres de liens au sein de la blogosphère en opposition avec l'achat de milliers de liens. Cependant, il existe des exemples de sites qui sont tombés dans la Sandbox en utilisant pourtant des techniques naturelles de référencement.
Anchor text sur-optimisé
Similairement à la fréquence de liens entrants, Google a une très bonne idée de la façon dont est constituée une structure naturelle d'anchor text au travers de douzaines, centaines et milliers de liens. Quand ces structures apparaissent sur optimisées, c'est à dire qu'elles focalisent sur des requêtes commerciales spécifiques, il est possible que cela provoque une Sandbox.
Page sur optimisée
Trop de répétition de mots clefs ou l'optimisation de termes particuliers sur la page ou au sein du site entier peut aussi être un déclencheur. Cette particularité est souvent utilisée pour expliquer pourquoi tant de sites optimisés pour le référencement sont filtrés, alors que de nombreux sites non optimisés le sont moins (pourtant il y a de nombreux contre-exemples dans les 2 cas).

Optimisation sur des mots clefs commerciaux

Malgré le peu d'évidence sur le sujet, certains pensent qu'en ciblant des mots clefs commerciaux, votre site peut être plus enclin à tomber dans le filtre de la Sandbox. Cependant, il existe de très nombreux exemples de sites non commerciaux qui se sont trouvés sandboxés. Notre opinion personnel est que la Sandbox ne discrimine pas selon les requêtes.


Analyse de texte naturel

Plusieurs brevets et livres blancs ont été écrits par les principaux moteurs de recherche pour analyser et différencier le texte écrit par des humains et celui généré à l'aide de logiciels ou scripts. Le texte généré automatiquement étant plus enclin à figurer sur des sites spammeurs. Donc, Google conduirait une analyse profonde pour essayer de dénicher le contenu généré automatiquement. Heureusement, les référenceurs qui écrivent leur propre contenu n'auront aucun problème à contourner ce problème car il y peu de chances qu'un texte écrit à la main mal analysé. Cependant, il a été souvent observé que des sites entièrement rédigés par des humains et jamais dupliqués (généralement de bonne qualité de surcroît) ont été sandboxés. Notre opinion personnelle est que l'analyse de texte n'entre pas en compte dans les effets Sandbox, même si le texte de mauvaise qualité peut pré disposer un site à engendrer des pénalités et aussi rendre plus difficile une sortie de Sandbox.


Audit manuel

Merci à Henk Van Ess' Search Bistro, l'auteur de Eval.Google, qui suggère que Google révise manuellement les nouveaux sites qui reçoivent un très important nombre de liens entrants, reçoivent un trafic important ou déclenchent des paramètres spécifiques. Ce nombre de sites audités manuellement serait en hausse drastique. Cette théorie n'est peut-être pas fausse, car Craig Manning, un représentant de Google au SES de New York a précisé que Google auditait les sites manuellement comme par exemple ChristopherReeve.org ou Tsunami.Blogspot.com pour voir si un grand nombre de liens ou le bon positionnement était valide. Craig ajouta que c'était une manière de garder les sites de mauvaise qualité d'arriver à un bon positionnement grâce à des techniques apparentées au Google Bombing.

Au sein de l'industrie du référencement, nombreux sont ceux qui rejettent l'idée de l'audit manuel car cela serait trop cher et pas assez efficace pour Google. Google se glorifie de privilégier une technologie juste et automatique, ce qui irait à l'encontre d'un jugement subjectif d'un humain.

L'audit manuel est certainement une explication qui rentre parfaitement dans la logique car cela expliquerait les inconsistances et les applications de la Sandbox, ainsi que le temps de pénalité variable, mais aussi le nombre important de sites qui présentent des traces d'optimisation pour le référencement.


Principaux mythes et contre-exemples

Pour chaque règle sur la Sandbox, il existe un contre-exemple, alors que très peu de règles irréfutables existent. Il est important de préciser certains facteurs d'exceptions qui sortent du domaine de compréhension du phénomène.

Sortir de la Sandbox en quelques semaines : nous n'avons pas directement observé ce phénomène, mais il a été parfois rapporté sur les forums et personnellement une fois. Pour le site que nous avons audité, il était de très grande qualité en termes de design, contenu et ergonomie. Cependant, nous ne pouvons pas dire si ces facteurs ont influencé une sortie rapide.
Extensions de nom de domaine : Il a été rapporté que les sites en .org étaient moins vulnérables que les .com, .net et autres extensions (.info, .tv, etc...). Cependant, notre expérience nous montre, notamment directement avec SEOmoz.org, que cela n'est pas une certitude. Les seules extensions de nom de domaine qui ne sont pas affectés sont les .mil (militaire), .gov (gouvernement) et .edu (education).
Liens de confiance : il paraît que certains liens entrants en provenance de sites de confiance comme DMOZ, .gov & .edu ou de gros sites d'actualité comme CNN, Reuters ou AP peut contribuer à faire sortir un site de la Sandbox. Alors que des liens depuis ces sites peuvent signifier de la grande qualité d'un site, il n'est pas acquis qu'ils puissent faire sortir un site immédiatement, mais ils peuvent raccourcir le temps de pénitence. Nous avons observé plusieurs sites qui avaient des backlinks de ce type et qui sont pourtant restés sandboxés plusieurs mois après l'apparition de ces liens.
Avoir une relation chez Google : la rumeur circule sur les forums qu'une relation avec un employé de Google peut vous aider à sortir de la Sandbox. Nous croyons que c'est totalement faux, avec l'exception d'un collègue qui a montré son site à Matt Cutts lors d'une rencontre à New York et qui a vu son site être désandboxé 2 semaines après. Cependant, nous ne pouvons être sûr s'il s'agit d'une coïncidence ou d'autre chose. Notre théorie est que le site a été pénalisé à tort et que Google a rectifié le tir. Ceci dit, nous supposons que le prix de 1500$ pour participer à la conférence SES a été une bonne affaire pour le propriétaire du site.

Solutions possibles et suggestions

De nombreuses suggestions ont émergé concernant la prévention des effets de la Sandbox, mais peu se sont trouvées efficaces. L'utilisation de sous-domaines ou nom de domaine existant a rencontré un succès mitigé, alors que d'autres comme "ne pas faire ce type de liens" sont une pure perte. Les meilleurs conseils que nous avons entrevus sont :

Cibler une audience non commerciale ou des sujets connexes :
Si vous savez que vous construisez un site extraordinaire qui va recevoir énormément de liens, le meilleur conseil est de cibler les sujets d'éducation en premier. Nous recommandons aussi de cibler quelque chose de valable et intéressant pour une large audience. Par exemple, si vous devez faire un site sur l'immobilier de Boston, il vaut mieux démarrer par de l'actualité ou un blog qui rapporte la tendance du marché et des informations plutôt que de pousser un simple service. Des services comme Google Maps intégré à des listings de biens immobilier peuvent aussi recevoir de nombreux liens.
L'idée derrière cette stratégie est de valider les liens reçus au début de la vie d'un site afin d'essayer d'éviter la Sandbox. Cette stratégie est difficile à contrôler et à mettre en place. Cependant, si vous visez un gros trafic et des backlinks rapides et pertinents c'est sans doute la meilleure façon d'éviter la pénalité.
Construire des liens naturels et éviter les Blogrolls :
Un des éléments les plus communs dans les effets Sandbox sur des sites "naturels" est leur addition dans les blogrolls. Ces liens apparaissent sur toutes les pages qui se comptent parfois par milliers dans l'index de Google. Ils apparaissent comme une cause probable de sandboxage. Le meilleur moyen d'éviter cela est de regarder vos logs de visite pour trouver les referers qui proviennent de blogrolls et ensuite de demander le retrait du lien. Avec un peu de chance, le sympathique bloggeur va comprendre et vous retirer de son blogroll. Cela peut paraître ridicule de se soumettre à de telles extrémités, mais la réalité commerciale du Web cela peut vous être bénéfique à court et long terme. Naturellement, si vous avez vous-même un blog sur votre site, il est plus facile de rester en dehors du blogroll, mais vous vous coupez aussi de la possibilité d'apparaître dans de bons annuaires de blogs et d'une éventuelle source de trafic (ex : Technocrati, Blogwise, etc.)
Paraître dans les news : Cela peut paraître difficile, mais être remarqué par les plus grands services de news, portails d'actualité et journaux en ligne peut être une superbe façon d'éviter la Sandbox. La légitimité de ces sources rend le backlink si pertinent que cela peut aider à éviter une pénalité. Nous avons remarqué ces effets à 2 reprises.
Construire des sites de qualité exceptionnelle
Le conseil peut paraître prétentieux, mais cela représente tout de même la réalité. Les sites qui ont réussi à échapper au filtre de Google sont souvent des sites qui sont des sources inestimables d'information pour leur audience. De plus, l'ergonomie, l'architecture et le design sont de grande qualité sur les sites observés. Si votre site ressemble à un de ceux du Fortune 500, vous êtes sur le bon chemin ! Cela peut être une coïncidence, mais ces types de sites n'ont pas été sandboxé ou un audit manuel est entré en ligne de compte. Dans tous les cas, cette méthode de construction de site ne concerne pas seulement la Sandbox, mais aussi l'acquisition rapide de liens, la confiance du visiteur et un succès général du projet. Il n'y a aucune raison de ne pas essayer.
Ne pas se reposer sur le trafic émanant de Google : Si vous savez que votre site va tomber dans la Sandbox, vous pouvez opter pour exclure Google du schéma en capitalisant sur du trafic émanant d'autres sources. Le meilleur moyen est de cibler des mots clefs concurrentiels sur Yahoo!, MSN et Ask Jeeves qui reçoivent des milliers de requêtes depuis ces moteurs chaque jour. Aussi, votre structure de liens et votre construction de site vont demander de la puissance pour être compétitif, mais c'est largement plus facile de cibler ces moteurs plutôt que Google. Vous pouvez aussi cibler d'autres sources de trafic comme Wikipedia, Technocrati ou des communautés spécifiques (blogs & forums). Si vous optez pour cette méthode, soyez créatifs et surtout pas brouillon. Après tout, vous cherchez tout de même à sortir de la Sandbox et être validé sur Google.

Prédictions et conclusions

L'existence de la Sandbox de Google et son impact sur les résultats de recherche sont difficiles à percevoir pour le néophyte. Il y a ceux qui argumentent que Google est devenu moins spammé, alors que d'autres assurent du contraire. Dans le même ordre d'idée, il est question de la pertinence de Google dans les débats. Ce qui a émergé de cette étude de 18 mois est qu'il est certain que la Sandbox a réduit le niveau de spam et de manipulation des liens visant à augmenter la popularité d'un site afin d'améliorer le positionnement dans les résultats de Google.

Ainsi, la meilleure façon d'éviter la pénalité est de ne pas utiliser de techniques de spam. Malheureusement, depuis que Google souhaite moins de spam, les sites légitimes qui sont éjectés des meilleures positions sont en augmentation. Il est important, afin d'éviter tout analyse redondante et d'être conscient des qualités du filtre, de s'identifier facilement. Bien que ceux qui préfèrent attendre soient nombreux, nous n'approuvons pas cette approche car "attendre" n'est jamais un bon conseil en matière de promotion de site Web.

Le futur semble projeter d'autres phénomènes similaires à la Sandbox par Google. Malgré la frustration des webmasters, notre opinion est que les ingénieurs de Google sont contents du succès de leur filtre et qu'ils ne prévoient pas de l'enlever de sitôt. Pour le long terme, nous prédisons que les filtres anti-spam et analyses sophistiquées de liens vont émerger pour remplacer la Sandbox. Le brouillon actuel du filtre suggère que les sites légitimes qui sont sandboxés vont être de moins en moins nombreux grâce à une constante évolution des filtres des moteurs de recherche.


source


Mardi 04 Octobre 2005


Dans la même rubrique :

moteurs de recherche - 16/11/2005

|1| >>