Webmaster : Demystification du duplicate content
Source : Google Webmaster Central Blog
Le Duplicate Content. Il doit y avoir un soucis à ce niveau. Nous n’arrêtons pas d’en parler, et les gens n’arrêtent pas de nous demander comment ça fonctionne. J’entends par exemple des webmasters redoutant une “pénalité pour duplicata”.
Soyons clairs une bonne fois pour toute : il n’y a aucune pénalité pour duplicata, du moins pas dans le sens que vous pensez.
Il existe des pénalités liées à l’idée de proposer exactement le même contenu qu’un autre site — par exemple si vous pompez du contenu depuis d’autres sites sans rien n’y ajouter. Ces stratégies sont clairement sous-lignées (et déconseillées) dans notre charte du webmaster.
- Ne créez pas plusieurs pages, sous-domaines ou domaines présentant un contenu en grande partie identique.
- Évitez… les programmes d’affiliation, sans véritable contenu informatif.
- Si votre site fait partie d’un programme d’affiliation, assurez-vous qu’il est utile aux internautes. Présentez un contenu pertinent et original pour inciter les internautes à visiter votre site en premier.
(Remarque : Bien qu’utiliser le contenu publié sur d’autres sites soit déconseillé, que d’autres pompent sur vous est une autre histoire ; consultez ce billet si vous craignez d’être la cible d’un tel comportement).
Cependant, la plupart des webmasters que j’ai pu entendre ne font pas allusion à ce que je viens de décrire ; ils font souvent référence à de multiples adresses pointant vers le même contenu. Par exemple, www.example.com/skates.asp?couleur=noir&marque=riedell et www.example.com/skates.asp?marque=riedell&couleur=noir. Ce type de contenu peut éventuellement affecter les performances de votre site, mais n’entraîne en aucun cas des pénalités. Voici un extrait de notre article traitant du duplicata :
Le contenu en double n’entraîne pas de conséquences négatives particulières pour votre site sauf si l’objectif semble être de tromper et de manipuler les résultats des moteurs de recherche. En cas de problèmes de contenu en double, et si vous ne suivez pas les recommandations indiquées ci-dessus, nous nous chargeons de choisir la version du contenu à afficher dans nos résultats de recherche.
Ce type de duplicata est assez commun, et la plupart des CMS de le prennent pas bien en charge. Quand des gens vous disent que ce type de duplicata peut affecter votre site, ce n’est pas à cause de pénalités, mais à cause de la façon dont fonctionnent les sites web et les moteurs de recherche.
La majorité des moteurs de recherche aiment la diversité ; ils veulent vous proposer dix résultats différents, et pas dix adresses pointant toutes vers le même contenu. A cette fin, Google essaye de filtrer les documents dupliqués afin que les internautes rencontrent moins de redondances. Vous trouverez plus de détails sur ce billet, qui explique :
- Lorsque nous détectons un contenu dupliqué, comme des variations dans les adresses, nous regroupant les différentes adresses.
- Nous sélectionnons ce que nous pensons être l’adresse la plus représentative du groupe pour l’afficher dans les résultats.
- Nous appliquons alors les propriétés de toutes les adresses contenues dans un groupe à l’adresse que nous avons choisi, comme la popularité.
Voici les différents effets possibles pour vous :
- Dans l’étape 2, ce que Google considère comme l’adresse la plus représentative pourrait ne pas correspondre à vos idées. Si vous souhaitez pouvoir contrôler quelle adresse s’affiche, vous devrez nous le spécifier via votre sitemap.
- Dans l’étape 3, si nous ne sommes pas en capacité de détecter toutes les adresses d’une même page, nous ne pourrons pas regrouper leurs propriétés. Ceci pourrait atténuer le signal déterminant le classement de ce contenu dans nos résultats en les répartissant en plusieurs adresses différentes.
Dans la plupart des cas, Google arrive a gérer ce type de duplicata. Cependant, faites attention au contenu dupliqué sur plusieurs domaines. Si vous construisez un site basé sur la duplication des données, vous devriez y repenser à deux fois dans le cas où votre modèle économique dépend du trafic de recherche (sauf si cela bénéficie à l’internaute). Par exemple, les partenaires du site Amazon se plaignent souvent du classement de leurs produits. Est-ce parce que Google fait tout pour les masquer ? Non ; mais comment espèrent-ils dépasser Amazon s’ils proposent exactement le même catalogue ? Amazon est une source reconnu (plus que n’importe lequel de leurs partenaires), et l’internaute lambda voudra sûrement consulter la fiche originale du produit sur Amazon, sauf si le site partenaire comporte des informations supplémentaires.
Enfin, pensez aux effets des duplicata sur votre bande passante. Les duplicata sont souvent source d’exploration inutile ; quand le robot Google découvre 10 adresses sur votre site, il doit explorer chacune de ces adresses avant de savoir s’elles contiennent la même information ou pas. Plus le robot Google passe du temps sur du duplicata, et moins il en passera sur le reste de votre site.
En résumé : le “duplicate content” peut affecter votre site de multiples façons. Cependant, sauf si c’est une action délibérée, il n’y aura aucune pénalité. Ceci implique :
- Vous n’avez pas à demander une reconsidération lorsque vous supprimer du contenu innocemment dupliqué.
- Si vous débutez dans la conception de site, ne vous souciez pas trop de ces détails : la majorité des moteurs de recherche ont des techniques pour les détecter et les gérer.
- Aidez vos amis webmasters en ne perpétuant pas le mythe du “duplicate content” et de ses pénalités ! Vous avez toutes les cartes en main pour l’éviter, et y remédier. Voici quelques articles pour bien commencer.