Le duplicate content, en français contenu dupliqué, est une monnaie courante qu’on peut observer un peu partout sur internet. On parle de contenu dupliqué quand deux articles sur des pages de sites différents se ressemblent comme deux gouttes d’eau.
Il y a quelques années, la pratique de plagiat était une façon de créer du contenu rapidement pour plus vite référencé son site. Cette technique de référencement est aujourd’hui pénalisé par les moteurs de recherche.
Malheureusement, nous observons que le «duplicate content» perdure, par négligence, sans intention malveillante. Ce type de pratique peut arriver par accident, ou par mauvaise connaissance. Le plagiat de contenu n’est pas systématiquement un acte de vol de contenu, mais l’usage de contenu dupliqué à des conséquences négatives sur le référencement de votre site par les moteurs de recherche.
Alors qu’elles sont les bonnes pratiques ?
Qu’est-ce qu’un duplicate content en SEO ?
Selon le célèbre moteur de recherche Google, un duplicate content fait référence aux contenus substantiels entre deux pages à l’url différente et qui sont similaires. Le duplicate content est alors la façon d’identifier deux contenus qui se ressemblent.
Votre site peut présenter 4 types de «duplicate content»
– Pages au contenu identique, mais comportant la méta balise TITLE et méta description différente
– Pages au contenu différent, mais comportant les mêmes balises TITLE et méta description
– Pages au contenu identique et aux mêmes balises TITLE et méta description. Ce cas s’appelle page miroir.
– Plusieurs Urls pointant vers une même page.
Voici des types de contenus dupliqués, mais que les moteurs de recherche ne considère pas comme du duplicate content :
– Les articles et fiches produits de site de ventes, présents sur plusieurs urls,
– La version imprimable des pages d’un site,
– Les pages mobiles type AMP (Accelerated Mobile Pages).
Savoir différencier le duplicate content SEO externe et interne
Le duplicate content interne fait référence au contenu identique sur un même site. Le duplicate content externe quant à lui concerne les duplications de contenus d’un autre site vers son site. Il est assez difficile de gérer un duplicate content externe du fait qu’on n’a pas forcément accès à la source du site original. La duplication en externe se passe surtout entre des sites e-commerce ou de marketplaces (Amazon, Cdiscount…).
En tant que « Webmaster », la publication de billets de blogues, des communiqués de presse, des descriptions de produits ou des reportages dupliqués partiellement ou totalement d’autres sources peut avoir des conséquences majeures sur son site. En effet, les moteurs de recherche priorisent les sites apportant une valeur ajoutée et les classent en haut de la liste.
Il est donc important de savoir diversifier le style rédactionnel. Il se peut également qu’on veuille publier des articles avec un message similaire sur un même site. Au pire, ce site sera sanctionné par Google.
Il ne faut pas s’attendre à ce que son site soit bien placé dans les SERP de Google si l’on a copié son contenu d’après les sources d’autres sites. On doit mettre une « valeur ajoutée » à ses contenus pour être priorisé par Google. Optez pour des contenus originaux, pertinents avec des mots clés spécifiques.
Les différents niveaux de plagiat en SEO :
C’est quoi le contenu « Boilerplate » ?
Un contenu boilerplate regroupe tout texte original réutilisé dans la rédaction de nouveaux contenus sans être réellement modifié. Pour identifier ce genre de contenu sur un site, Google cherche si les blocs de texte présent sur une page ne sont point similaires à d’autres pages du site. Il est donc important de rédiger des contenus différents pour des produits identiques qu’on poste sur son site même si leurs caractéristiques sont les mêmes. Le cas échéant, les présentations sur les pages différentes contribueraient à réduire la notoriété du site au lieu de mieux le référencer. Le contenu boilerplate peut aussi s’agir d’un bouton présent sur l’ensemble de ses pages. Un bouton simple comme « imprimer cette page » mal paramétré peut par exemple être perçu comme une duplication de contenu par Google.
Qu’est-ce que le contenu « near-duplicate » ?
À la différence du contenu boilerplate, le near-duplicate s’applique aux textes légèrement modifiés, inspirés des contenus déjà présents sur un site. En effet, Google dispose d’un algorithme spécifique pour détecter ce genre de contenu. Il est donc important de vérifier le taux de plagiat de ses textes avant de les publier sur son site.
Les conséquences SEO du duplicate content ? Que risquez-vous ?
Pour le cas des pages similaires, Google essaiera de trouver la source d’origine du contenu et privilégiera l’indexation de la page d’origine par rapport aux autres pages incluant du contenu dupliqué.
Le Duplicate Content est géré par un filtre dans le référencement de Google et non par une pénalité. La page source est correctement indexée par Google, mais la où les pages dupliquées seront retirées, des résultats ne sont pas pour autant désindexés. Le site qui compte des pages du type «duplicate content» conserve son PageRank, sauf dans le cas de vol de contenu avéré.
En juin 2016 par Andrey Lipattsev en charge de la « Search Quality » chez Google précisait : « vous n’aurez pas de pénalité, mais vous ne serez pas forcément bien référencé. »
Il est essentiel de contrôler le pourcentage de plagiat de ses articles avant de les publier officiellement sur son site.
Voici quelques outil pour détecter le duplicate content :
Quels sont les bonnes pratiques en termes de contenu SEO
Exemple de page considérée comme du «duplicate content» par Google fréquemment rencontré : les pages à la fois en http et en https. Un mauvais paramétrage de la migration HTTP à HTTPS engendre à une double indexation du site, soit une indexation pour votre site en HTTP et en HTTPS. Il convient donc de bien paramétrer la migration du protocole HTTPS.
Autres exemples : les pages archives ou les tags catégories qui sont laissés libres d’indexation dans les CMS. La solution : utiliser des extensions comme Yoast pour désactiver l’indexation de ces contenus.
Quant aux pages dupliquées la meilleure solution reste de modifier le contenu. Mais dans les cas ou ses pages sont très similaires, par exemple des landing pages personnalisées pour des campagnes publicitaires, l’usage d’une balise canonique est recommandée.
L’utilisation de l’attribut canonical
Lorsque vous avez plusieurs pages avec un contenu similaire, il est important d’utiliser l’attribut canonical. Cela indique aux moteurs de recherche la page originale que vous souhaitez indexer et classer. Cela évite également les pénalités pour contenu dupliqué. L’attribut canonical est un moyen simple et efficace d’éviter la duplication de contenu.
Utilisation de citations et de références
Les citations et les références sont des moyens utiles d’éviter la duplication de contenu. Si vous utilisez des informations d’une autre source, il est important de citer cette source. Cela montre que vous n’essayez pas de voler le contenu et que vous respectez les droits d’auteur. Les références peuvent également ajouter de la crédibilité à votre contenu.
Création de contenu unique
Lorsque vous créez du contenu, il est important de le rendre unique. Cela signifie qu’il ne doit pas être une copie d’un autre contenu existant. Des outils tels que Copyscape peuvent vous aider à vérifier si votre contenu est unique. La création de contenu unique peut aider à améliorer votre référencement et à établir votre réputation en ligne.
Réécriture de contenu existant
La réécriture de contenu est une autre façon d’éviter la duplication de contenu. Si vous avez déjà du contenu similaire, vous pouvez le réécrire pour en faire un contenu unique. Cela peut être fait en changeant la structure de la phrase, en utilisant des synonymes ou en ajoutant des informations supplémentaires. La réécriture du contenu peut prendre du temps, mais cela peut aider à améliorer votre référencement et à établir votre réputation en ligne.
Utilisation de l’outil de paraphrase
Si vous n’avez pas le temps de réécrire manuellement votre contenu, il existe des outils de paraphrase en ligne qui peuvent vous aider à créer du contenu unique. Ces outils fonctionnent en prenant votre contenu existant et en le réécrivant à l’aide de synonymes et de phrases différentes. Cependant, il est important de noter que ces outils ne sont pas toujours précis et que le contenu peut perdre en qualité. Il est donc important de relire et de réviser votre contenu avant de le publier.
Vérification régulière du contenu
Enfin, il est important de vérifier régulièrement votre contenu pour vous assurer qu’il n’y a pas de duplication. Les outils tels que Copyscape peuvent vous aider à vérifier si votre contenu est unique. Vous pouvez également utiliser des outils de surveillance en ligne pour surveiller votre contenu et détecter toute duplication. En vérifiant régulièrement votre contenu, vous pouvez éviter les pénalités de contenu dupliqué et maintenir votre réputation en ligne.
Conclusion
La duplication de contenu peut nuire à votre référencement et à votre réputation en ligne. L’utilisation de l’attribut canonical, des citations et des références, ainsi que la création de contenu unique sont des moyens efficaces d’éviter la duplication de contenu. En suivant ces conseils, vous pouvez améliorer votre référencement et établir une réputation en ligne solide.
Mot de la fin
Au-delà des problèmes de SEO qu’engendre le plagiat de contenu, le vol de contenus est soumis au droit d’auteur, moral et patrimonial, régit notamment par les articles L.111-1 et L.123-1 du code la propriété intellectuelle. Ça ne rigole pas 🙁
N’hésitez pas un faire appel à un consultant en référencement.