Google identifie un contenu dupliqué avant de crawler une page

Le géant de la recherche a confirmé que son robot Googlebot (Google Panda), était capable de détecter du duplicate content avant d’avoir exploré les pages web.

C’est confirmé, Google n’a pas besoin d’explorer vos pages web pour révéler les contenus en doublons. John Muller de la société californienne, a répondu sur Twitter à la question d’un webmaster qui voulait savoir comment le robot pouvait déterminer qu’un contenu était dupliqué lorsqu’une page possédait une version française et anglaise.

Une question pertinente et qui semble traverser le temps dans la mesure ou une page web, est souvent traduite en deux, trois, quatre, voire cinq langues différentes.

Google et le contenu dupliqué en 2018

Voici la réponse de John Muller :

Souvent, le robot peut reconnaitre qu’un élément est dupliqué, même sans avoir à analyser la page où il se trouve. Ça peut arriver lorsqu’il décèle une incohérence entre l’URL et son contenu.

En l’occurence, ça pourrait être dans le fait d’avoir paramétré une règle de langue qui s’appliquerait pour les différents éléments. Dans ce cas là, nous essayons de déterminer les correspondances entre eux :

« langue=Anglais »

« langue=Francais »

« langue=Allemand »

Si jamais nous constatons que toutes ces pages pointent vers le contenu anglais, excepté peut-être si « langue=Spanish » pointe vers la version espagnole, nous considérerons alors que le paramétrage de langue n’est pas pertinent sur cette page et il est possible que nous puissions manquer la page qui possède un contenu unique »

Cet exemple est axé sur la langue, mais le propos peut aussi s’appliquer pour un contenu dans la même langue. Entre les lignes, ce que John Muller veut dire c’est que l’algorithme va probablement déterminer qu’une page a un contenu en doublon si jamais elle partage des paramètres dans son d’URL avec d’autres pages similaires.

Les éditeurs web peuvent éviter le fait d’avoir un contenu dupliqué, en faisant attention à la façon dont ils paramètrent leurs URL. Par ailleurs, Mueller concède que la plupart du temps, ce n’est pas forcément la faute du webmaster car Google a de nombreux critères d’évaluations et également des bugs.

Source : Search Engine Land