L’internet ressemble a une gigantesque bibliothèque où des milliers de nouveaux livres sont enregistrés et organisés à tout moment. Comment les bibliothécaires savent-ils dans quelle section ranger ces nouveaux livres? Comment le personnel sait-il quels livres vous présenter pour vous aider dans vos recherches? Les moteurs de recherche et leurs algorithmes démystifient ce temple virtuel des connaissances. Sans eux, les utilisateurs seraient comme Thésée dans le labyrinthe, mais sans le fil d’Ariane.

Les robots d’exploration : d’une page à l’autre

Les robots d’exploration mènent la charge

Les nouvelles pages Web ne s’ajoutent pas instantanément à l’index des moteurs de recherche. Tout commence avec les robots d’exploration. Ces adorables petites créatures virtuelles sont responsables de la découverte et de la collecte de données sur le contenu des pages Web. Les robots prennent connaissance de nouvelles pages de deux façons : les sitemaps, et le retour à des explorations différentes.

Les sitemaps

Lorsqu’une nouvelle page voit le jour, elle est ajoutée au sitemap (ou plan du site Web), contrôlés par les propriétaires des sites Web. Ceux-ci peuvent décider de certaines actions à prendre par les robots. Par exemple, un propriétaire peut décider de ne pas donner accès à certaines pages aux les robots d’exploration. Il peut également demander une nouvelle exploration, en raison de changements majeurs ou d’un problème d’indexation.

Un retour en territoire exploré

Une autre façon pour les robots d’exploration de découvrir de nouvelles pages est un retour à des pages déjà explorées. Les robots naviguent de lien en lien afin de répertorier le plus grand nombre de pages inexplorées possibles. Si un lien mène à une page, alors inexplorée, les petites créatures rapportent l’information et la page est alors indexée.

Comment les moteurs sélectionnent-ils les informations à présenter?

Une fois que les robots ont rapporté les informations, les pages sont classées selon leur contenu et une série de facteurs. Ces facteurs, gérés et évalués par différents algorithmes, permettent d’évaluer la pertinence des pages pour une recherche donnée.

  • L’analyse des mots clefs de recherche. Le sens des mots est analysé pour gérer des erreurs d’orthographe, des synonymes possibles et le genre d’information recherché. Si les mots utilisés concernent un sujet d’actualité, le moteur de recherche le prendra en compte.
  • Les correspondances. Le moteur de recherche analyse le nombre de répétitions des mots clefs utilisés. Une page est plus probable d’être suggérée si ces mots se trouvent par exemple dans le titre ou les premiers paragraphes. Le moteur analyse aussi si la page contient du contenu pertinent, comme des photos ou des graphiques. Finalement, on vérifie si les pages sont rédigées dans la même langue celle que des mots clefs utilisés.
  • L’utilité des pages. Ici, on vérifie si le contenu est d’actualité, la répétition des mots clefs cherchés et si la page est ergonomique. Une page ergonomique signifie qu’elle s’adapte à l’appareil utilisé, comme un téléphone intelligent ou une tablette. S’agit-il d’une page référencée par d’autres sites Web discutant du même sujet? S’agit-il d’une page spam? Toutes les réponses à ces questions sont analysées.
  • Le contexte. Les moteurs chercheront à suggérer des pages Web pertinentes au contexte de l’utilisateur. Ils prennent en compte la situation géographique de l’utilisateur, sa langue de préférence et son historique de recherches avec ce moteur.

Une fois tous ces facteurs analysés et pris en compte, les moteurs iront extraire dans leur index les pages Web représentant le meilleur potentiel de répondre à votre recherche.

Écrivez à infolettre.analytiqueweb@gmail.com, ou rendez-vous sur notre page Facebook L’analytique Web pour tous.