google-machine-learning-blog

Google utilise le Machine Learning pour l’exploration, l’indexation et le classement

L’apprentissage automatique est au coeur des spéculations concernant le moteur de recherche. Google utilise en effet le Machine Learning dans ses différents services, notamment lorsqu’il s’agit de crawler, d’indexer ou bien de positionner une page.

Récemment, John Mueller porte parole de la société californienne, a apporté quelques précisions sur le rôle fondamental de l’Intelligence Artificielle dans l’algorithme de Google. Son propos tournait initialement sur le rôle de Panda, mais l’expert SEO n’a pas vraiment précisé à quel point, le machine learning était déployé pour le crawler.

Pour rappel, Google Panda est l’algorithme de Google qui depuis 2011, crawle les pages web afin d’identifier les contenus de bonne ou mauvaise qualité. Vous pouvez aller sur cette page pour en savoir plus sur les autres algorithmes.

Mueller a finalement ouvert le sujet sur l’utilisation en général du Machine Learning dans le moteur de recherche.

Il évoque notamment le RankBrain. Cet algorithme fut déployé en 2015 et son travail consiste à interpréter les expressions, le sens des mots et analyser les requêtes ambigües pour comprendre le besoin qui se cache derrière la recherche de l’internaute.

Voici d’ailleurs l’interview Greg Carrado, Directeur de recherche sur l’intelligence artificielle chez Google sur RankBrain  :

 Google se base donc sur l’IA pour mieux savoir comment crawler, indéxer ou positionner des pages.

…je pense que le machine learning a un gros potentiel pour mieux comprendre les pages. C’est pas simplement une solution d’automatisation. C’est pas comme-ci nous pouvions valider ou non certaines pages et laisser le programme le faire à son tour. Ça nécessite du travail pour bien faire fonctionner l’apprentissage automatique.

Revenons brièvement sur ces expressions :

  • Crawler : Exploration et analyse des contenus d’une page web.
  • *Indéxation : Référencement dans le catalogue du moteur de recherche.
  • Positionnement : Rang dans les pages de résultats (SERPs).

* Google est récemment passé de l’indexation desktop vers celui du mobile. On en parle dans notre article sur la migration vers le Mobile First.

Le déploiement de l’apprentissage automatique pourrait impacter la gestion des budgets crawl. Pour information, le budget crawl c’est : Temps d’analyse d’une page + Analyse de la qualité de son contenu.

Voici un schéma pour comprendre le Budget Crawl :

Google-budget-crawl-schéma

Sachez que GoogleBot passe un temps défini à explorer vos pages pour en examiner les contenus et les indéxer. Selon qu’ils soient enfouis profondément ou non dans votre arborescence, va déterminer les ressources que Google va allouer via ses serveurs pour l’exploration.

C’est une notion qui concerne surtout les sites à gros volumes de pages. Par exemple, un site comme Amazon aura des milliers de pages, pertinentes ou non, le robot va tenter de les examiner jusqu’à ce qu’il estime avoir passé un temps suffisant à la tache.

C’est pourquoi il est essentiel de travailler le maillage interne de votre site et faire remonter le contenu important dans l’architecture, afin que GoogleBot puisse rapidement y accéder.

Les SEOs ont appris à manipuler le crawl Google via robots.txtnofollowp. Pourtant il faudra désormais prendre en compte le fait qu’il soit de plus en plus réactif et moins facile à manipuler.

Amhet Fall

Chef de projet webmarketing

 
Lire les articles précédents :
Obtenez du trafic ultra-qualifié grâce à Guides Shopping !

En 2016, on dénombrait plus de 204 000 boutiques en ligne en France, selon la FEVAD. Face aux acteurs du...

Fermer