Contenu dupliqué : C’est quoi ? Quels outils utiliser ?

Si vous suivez ce blog de façon régulière alors vous savez que je suis l’admin de The Oueb cependant je suis aussi à la tête d’autres portails où la cible n’a, en général, aucune notion de SEO.

Chaque jour qui passe me confirme que cette idée de contenu dupliqué est très souvent inconnue lorsque l’on sort de cette sphère.

Combien de fois ai-je du refuser des textes, car ceux-ci étaient déjà publiés sur le propre site du professionnel ? Je ne les compte plus ...

La plupart du temps la réponse est la suivante : « Mais ce texte est sur mon site, JE l’ai rédigé et ça ne me dérange pas de le copier chez vous ».

Ca ne VOUS dérange pas, mais moi oui et je vous explique pourquoi.

Reprenons les bases

Petite définition de mon cru pour débuter :

« Un texte est considéré comme dupliqué à partir du moment où celui-ci est publié de façon similaire sur plusieurs sites (et que Google le sait). »

À la base, je suis d’accord, il n’y a « pas de mal » à ce qu’un texte soit copié / collé d’un site à l’autre.

D’ailleurs, cette notion de contenu dupliqué n’a pas été « inventée » par les éditeurs de sites.

Fut une époque où nous étions bien contents de pouvoir remplir automatiquement des dizaines de sites (quel que soit le format), mais un jour Google a décidé d’y mettre un terme.

En effet, si l’on se place du point de vue des visiteurs, quel est l’intérêt pour eux d’avoir 10, 20 ou 50 sites qui présentent tous, à peu de chose près, le même contenu ? Aucun !

Du coup, Google a décidé de déclasser de ses résultats les sites ayant un contenu trop similaire à d’autres.

Les annuaires de sites ont été les grands perdants de la mise en place de ce filtre. Beaucoup d’entre eux ont perdu leurs positions et n’ont pas eu le courage de faire le ménage dans leur base.

C’est à ce moment que la chasse au contenu dupliqué fut ouverte. Depuis le discours est le suivant :

« Pour ne pas disparaître des résultats de Google vous devez publier sur votre site, des textes qui n’ont pas déjà été publiés ailleurs. »

Ceci explique pourquoi il est fondamental de proposer des textes originaux à chaque fois que vous allez présenter vos services sur un site.

Cependant, il est important d’apporter un bémol concernant cette notion de duplication. Ce n’est pas parce deux phrases de votre texte sont dupliquées que cela va pénaliser votre site.

De même, côté éditeur d’annuaires ou de portails en tout genre. Ce n’est pas parce que vous avez dix articles dupliqués dans votre base que Google va vous sanctionner.

Tout est une question de proportion.

  • Avoir 50 articles publiés, dont 20 dupliqués, c’est trop (40% de duplication)
  • Avoir 500 articles publiés, dont 50 dupliqués, ça passe (10% de duplication)

Aujourd’hui, nous ne sommes pas en mesure d’avancer avec certitude ce qu'est un taux de duplication acceptable.

Il me semble (et cela n’engage que moi) qu’en dessous de 20 à 30% de duplication cela ne pose pas de problème.

Cependant, il est essentiel de faire le nécessaire pour limiter au maximum cette notion de duplication de votre contenu et pour cela des outils existent.

Les outils pour vérifier le contenu dupliqué

Il existe plusieurs outils en ligne qui permettent de consulter le taux de duplication d’un texte ou d’une page.

Chaque outil a son propre fonctionnement, mais dans le fond le principe reste le même. De façon très simplifiée :

  • Vous soumettez un texte (ou une page) dans l’outil
  • L’outil va analyser les résultats de Google qui correspondent à votre texte
  • L’outil compare votre texte d’origine et les résultats obtenus précédemment
  • Il vous indique si le texte ou la page peut-être considérée comme dupliquée (avec parfois le taux de duplication)

Positeo

À la base Positeo est un outil qui permet de vérifier les positions de votre site sur un mot-clé en particulier (d’où le nom). Ensuite, le service a été complété par un outil de détection du contenu dupliqué.

Utiliser Positeo pour contrôler le contenu dupliquéUtiliser Positeo pour contrôler le contenu dupliqué

Pour utiliser l’outil, il vous suffit de faire un copier / coller de votre texte ou tout simplement d’indiquer l’URL d’une page dont vous voulez vérifier le contenu.

Une fois la recherche terminée vous avez alors accès au pourcentage de duplication de votre texte.

Le résultat obtenu via PositeoLe résultat obtenu via Positeo

Ce service est totalement gratuit (juste un cadre Adsense sur la page), mais souffre malheureusement de son succès.

Malgré toute la bonne volonté de l’admin, entre 10h00 et 18h00, l’outil est presque inutilisable à cause du nombre de requêtes envoyées.

Plagium

Plagium a pas mal évolué au cours des derniers mois et donne à chaque fois une impression un peu plus pro, ce qui est une très bonne chose.

Page d'accueil de PlagiumPage d'accueil de Plagium

L’option de base vous permet de vérifier gratuitement un texte ou une URL. Le résultat apparaît alors de la façon suivante :

Le résultat avec le taux de duplicationLe résultat avec le taux de duplication

Un clic sur l’URL indiqué vous permet de voir exactement le texte qui est considéré comme dupliqué.

Une option bien utile pour les cas où la duplication est moins évidente que dans mon exemple.

Surligné, en jaune, le texte qui pose problèmeSurligné, en jaune, le texte qui pose problème

L’outil fonctionne bien, mais, avec un compte gratuit, le nombre d’utilisations est limité par jour.

Après je n’ai pas essayé de contourner celui-ci, mais je suppose qu’en changeant d’adresse IP il est possible de repartir à 0.

Dans tous les cas, si vous appréciez ce service sachez que d’autres options, cette fois-ci payantes vous permettent d’aller plus loin : vérification de fichiers, mise en place de recherche récurrente, mise en place d’alertes, possibilité d’utiliser une API, ...

En fonction du crédit que vous prendrez, chaque recherche est facturée entre 5 et 10 centimes.

Plagiarisma

Plagiarisma va vous permettre de vérifier votre contenu sur 3 moteurs de recherche, dont Google, à la condition de vous inscrire sur le site (gratuitement).

Vous pourrez alors vérifier un texte, une URL ou un document et obtenir votre résultat en quelques secondes.

Faire une recherche sur PlagiarismaFaire une recherche sur Plagiarisma

Votre texte est décortiqué phrase par phrase et vous obtenez à la fin du tableau présentant les résultats une synthèse de cette analyse.

Celle-ci peut même être enregistrée en PDF ou vous êtes envoyée par email.

Accéder aux filtres avancésAccéder aux filtres avancés

D’autres outils sont à disposition pour des besoins plus spécifiques : comparaison entre deux textes, correction orthographique, réécriture d’article (en anglais seulement), ... Ne les ayant pas utilisés, je n’ai pas d’avis sur leur pertinence.

Là encore, vous avez la possibilité de souscrire à un compte Premium.

Cependant, à la différence des autres outils qui proposent d’acheter du crédit, Plagiarisma propose une formule à abonnement.

Pour 10$ par mois (ou moins si vous prenez plusieurs mois) je crois que cela vaut largement le coût pour ceux qui ont pas mal de vérification à faire et qui en ont marre de jongler entre différents outils.

Une version à installer sur votre ordinateur ou sur votre téléphone Android est aussi disponible. Finalement le seul point manquant serait la mise à disposition d’une API.

Copyscape

Copyscape est le poids lourd du secteur.

C’est souvent celui-ci qui est utilisé par les plateformes proposant de la rédaction de contenu.

Pourtant je ne le fais apparaître qu’en dernier, car il ne permet pas gratuitement (même avec un compte) de vérifier un texte (mon besoin principal).

Par contre, vous pourrez tout de même contrôler le contenu d’une URL pour tester l’outil (attention, car si vous vous connectez sans crédit sur votre compte vous ne pourrez pas faire ces quelques vérifications).

Vérifiez que votre page n'a pas été copiée avec CopyscapeVérifiez que votre page n'a pas été copiée avec Copyscape

Les options Premium sont légion et vous permettent de mettre en place une véritable machine de guerre pour garder un œil sur vos textes.

Chaque recherche vous est facturée 5 centimes (achat de crédit en amont).

Développer son propre script pour détecter le contenu dupliqué

La dernière solution peut consister à développer son propre script pour répondre le plus parfaitement possible à ses besoins.

Certes cela demande un peu de connaissance, mais au pire vous pouvez toujours faire sous-traiter la chose.

À titre d’exemple, j’ai adapté pour The Oueb ce script que j’ai trouvé en faisant une simple recherche dans Google (faites-en autant, il y a d’autres exemples disponibles).

Cela me permet d’avoir sous la main une page personnelle (et donc pas surutilisée et bloquée par Google) pour les cas où les autres outils ne seraient pas disponibles, mais surtout ça me permet de contrôler en continu les textes proposés par les inscrits (après validation manuelle).

Pour les plus curieux, ci-dessous le principe du script :

  • Choisir un site dont le contenu n’a pas été vérifié récemment.
  • Récupérer l’ensemble des textes du site en question.
  • Pour chaque texte, interroger Google et pour chaque résultat obtenir le pourcentage de contenu dupliqué
  • N’afficher que les résultats qui ne proviennent pas de theoueb.com et qui ont plus de 30% de contenu dupliqué.
  • S’il y a des résultats correspondant à ces critères, les enregistrer dans une table à part.
  • Mettre une alerte dans l’administration du site lorsqu’il y a une entrée dans cette table.
  • Mettre à jour le site en indiquant sa dernière date de contrôle.

Ensuite il ne reste plus qu’à planifier le tout via une tâche cron toutes les x minutes pour que cela se fasse sans intervention de votre part (pas trop souvent non plus pour que l’IP de votre serveur ne soit pas bloquée par Google).

Le contrôle manuel tout de même indispensable

Quelle que soit la façon de faire, ces outils doivent servir pour générer des alertes, mais je n’aurais pas suffisamment confiance en eux pour déterminer si un texte est effectivement « trop » dupliqué ou pas.

J’ai déjà constaté de nombreuses fois que des pages qui me remontent en tant que contenu dupliqué ne l’étaient pas vraiment dans les faits.

Certes les deux textes avaient la même thématique et donc un vocabulaire similaire.

Il arrive aussi que des tournures de phrases se ressemblent fortement. Ce n’est pas pour autant que le texte A est une copie du texte B.

Ces outils peuvent comparer, mais ne savent pas lire (pas encore en tout cas) et c’est pourquoi l’intervention humaine me semble toujours indispensable.

Qu’en est-il de votre côté, faites-vous particulièrement attention au contenu dupliqué ? Avez-vous d’autres outils ou méthode à nous proposer ?






Envie de recevoir encore plus de bons conseils ?

Guide Market Samurai

Si oui, rejoignez nos abonnés et vous recevrez chaque semaine du contenu exclusif et de qualité. En plus de cela, je vous enverrez gratuitement une copie du guide Dominez votre niche : Les secrets du Samouraï. Il suffit d’un clic sur le bouton orange ci-dessous !


Les commentaires c'est cool ! (Je m’exprime)


Personnellement j'utilise l'outil gratuit de positeo et je considère qu'en dessous de 30% c'est acceptable, le soucis c'est que si un texte a été "synonymisé" ces outils ne le détecteront pas mais google si, avec la structure de la phrase.

Sarah le 19/06/2013


@Sarah

On en revient donc à la tout fin de l'article :)

Xavier le 19/06/2013


Et oui l'intervention humaine restera toujours la meilleure des choses.
Les outils en question font déjà une bonne part du travail.
Mais pour le reste nous n'avons pas le choix que d'intervenir.
Merci pour l'article.

Aurélien le 21/06/2013


@Sarah, je ne suis pas tout à fait d'accord avec toi, car un texte spinné comme il faut varie la structure des phrase (parfois bien plus qu'un mauvais rédacteur)

Perso, j'aime bien positeo, même si c'est très frustrant de ne pas pouvoir l'utiliser durant quasi toute la plages plage d'heures ouvrables (la rançon du succès sans doute). Mais pour moi le DC ne se limite pas à une description à + de 50% de DC, lorsqu'il y a 4 ou 5 descriptions à 40%, je pense que c'est aussi négatif.

Shelko le 21/06/2013


Intéressant l'idée du script maison.

Je cherche justement un script qui me permettent de scanner toutes les pages de mes sites pour vérifier si je me fait pomper du contenus.
Actuellement, je le fait manuellement, page par page chaque année et ça commence à être fastidieux.

Si quelqu'un à une solution pratique, ou un script qui marche avec copyscap pour vérifier en un clic toutes les URL d'un site, ça m’intéresse!

Sinon j'ai parfois vus quelques sites don il était impossible de copier / coller le texte. ça peut être une solution ?

Aurelie le 21/08/2013


Bonjour,

Tout comme mon ami Shelko, mon outil préféré (et de loin) pour la vérification de contenu dupliqué reste Positéo.

Personnellement, je n'accepte pas les phrases dupliquées, même si le texte dans son intégralité fait ressortir un faible taux de DC, car j'estime que ce sont des signaux qui doivent obligatoirement alerter le zoo en furie de notre ami Gogole premier et même s'il n'y a pas sanction, je suppose qu'il doit y avoir surveillance accrue et que du coup, vous vous traînez continuellement une épée de Damoclès au-dessus de la tête.

Pour finir, l'idée du script maison est plutôt intéressante, encore faut-il être capable de le coder/adapter.

Amicalement,

Bruno

Bruno le 06/09/2013


Pour ma part je vérifie manuellement mon contenu car même en utilisant positeo, qui reste un outil efficace et qui me facilite beaucoup mon travail, ne me donne pas un résultat exact. Donc l'intervention humaine est obligatoire dans ce cas pour ne pas déranger Mr Google qui ne cesse de sanctionner tout.

Monique le 03/10/2013


La duplication est une souvent une plaie. En généralisant le propos, on la voit bien sûr sur certains sites Internet, et plus souvent encore dans les annuaires. Je la vois aussi dans les travaux universitaires et ces outils facilitent considérablement le travail. Ils ne remplacent pas l’intervention humaine, mais ils la facilitent quand même beaucoup.

Merci, Xavier, pour cette synthèse.

Le Corrigeur le 10/10/2013



Envie de laisser un mot ?