La soumission d’un plan de site XML peut fournir aux moteurs de recherche une ventilation complète de chaque page du site Web que vous souhaitez qu’ils indexent. Il s’agit donc d’une étape essentielle de votre stratégie d’optimisation des moteurs de recherche (SEO). Toutefois, pour obtenir les meilleurs résultats possibles, vous devrez utiliser un validateur de sitemap pour vous assurer que vous n’envoyez pas de fichiers contenant des erreurs.

Dans cet article, nous allons vous expliquer ce que sont les validateurs de sitemap et comment ils fonctionnent. Ensuite, nous vous guiderons à travers les erreurs courantes que vous pourriez rencontrer en utilisant un validateur de sitemap et comment les résoudre. C’est parti !

Qu’est-ce qu’un validateur de sitemap ?

Un sitemap est un fichier qui contient une liste de toutes les URL de votre site Web que vous souhaitez faire indexer par les moteurs de recherche. Les sitemaps sont disponibles au format XML ou HTML, le premier étant l’option la plus populaire.

Techniquement, vous n’avez pas besoin de soumettre un sitemap de votre site Web à Google ou à d’autres moteurs de recherche. Ces plateformes utilisent des robots d’exploration pour naviguer sur votre site, identifier chaque URL et indexer ces pages. Toutefois, la création d’un plan du site vous donne un contrôle total sur les URL que les moteurs de recherche indexent et celles qu’ils ne devraient pas indexer (comme le contenu privé ou redondant).

Dans la plupart des cas, vous utiliserez des sitemaps générés automatiquement. Si vous utilisez WordPress, des plugins SEO tels que Yoast peuvent vous aider à créer des sitemaps que vous pouvez soumettre à Google Search Console :

Yoast SEO sitemap settings
  • https://www.facebook.com/lafactoryworld
  • https://twitter.com/lafactory
  • Gmail
  • https://www.linkedin.com/company/lafactory-inc

Un validateur de sitemap est un outil qui peut traiter ces fichiers XML ou HTML et s’assurer qu’ils ne contiennent aucune erreur. Par « erreurs », nous entendons :

  • Les pages que les moteurs de recherche ne peuvent pas explorer
  • les erreurs 404
  • erreurs 401
  • Trop d’URL dans le sitemap
  • URLs non canonique

Si votre sitemap contient l’une de ces erreurs, les moteurs de recherche risquent de ne pas être en mesure d’indexer toutes les pages que vous répertoriez. La lecture manuelle des fichiers XML pour trouver les problèmes peut prendre beaucoup de temps, et vous devez également tester les URL. Heureusement, les validateurs de sitemap vous permettent d’éviter tout ce travail et de commencer à corriger les erreurs qu’ils identifient.

Comment utiliser un validateur Sitemap

L’utilisation d’un validateur de sitemap est simple. Selon l’outil que vous utilisez, vous devrez peut-être télécharger un fichier XML ou fournir l’URL du plan du site de votre site. Cette dernière option peut s’appliquer si vous utilisez un outil tel que XML Sitemap Validator.

XML Sitemap Validator
  • https://www.facebook.com/lafactoryworld
  • https://twitter.com/lafactory
  • Gmail
  • https://www.linkedin.com/company/lafactory-inc

Saisissez l’URL du plan du site que vous souhaitez vérifier et l’outil vous renverra un rapport contenant toutes les erreurs qu’il aura trouvées.

An XML validation report
  • https://www.facebook.com/lafactoryworld
  • https://twitter.com/lafactory
  • Gmail
  • https://www.linkedin.com/company/lafactory-inc

Si vous obtenez un rapport clair et sans problème, les moteurs de recherche peuvent indexer les URL contenues dans le sitemap. Vous pouvez soumettre sans crainte le sitemap à Google, Bing, Yandex ou à tout autre moteur de recherche. Toutefois, si vous rencontrez des erreurs, vous devrez savoir comment les corriger. Cela nous amène à la section suivante.

5 erreurs courantes de sitemaps et comment les corriger

Malheureusement, certains sitemaps ne sont pas parfaitement validés, mais nous allons aborder certaines des erreurs les plus courantes que les validateurs de sitemaps peuvent trouver dans les fichiers que vous leur soumettez. Commençons par parler des pages présentant des « problèmes » d’exploration

1. Pages avec des problèmes de crawling

Les problèmes d’exploration font partie des problèmes les plus courants que les validateurs renvoient. Cette erreur signifie que le service n’a pas pu explorer l’une des pages de votre sitemap.

En général, lorsque le validateur ou le moteur de recherche ne peut pas explorer une page, cela signifie l’un des scénarios suivants :

    • La page est trop longue à charger.

Si votre site Web est trop long à charger, la connexion avec le robot d’exploration s’interrompt. Cela signifie que certaines pages risquent de ne pas être indexées.

    • Votre site Web utilise trop de redirections.

Lorsque les redirections ne sont pas configurées correctement, votre site Web peut se retrouver dans une boucle de redirection. Cela signifie que les moteurs de recherche ne pourront pas l’explorer.

    • Le site Web empêche les moteurs de recherche de l’explorer. Vous pouvez configurer WordPress pour qu’il bloque les robots d’exploration (à l’aide de balises noindex

) afin que votre site Web ne soit pas indexé. En général, vous pouvez le faire pendant la construction de votre site ou la création de pages privées.

  • La page renvoie un code d’erreur autre que 404 ou 401.

Les validateurs de sitemap peuvent analyser les erreurs 404. Toutefois, les autres codes d’erreur HTTP donnent lieu à un avertissement de type « problème de crawling ».

L’erreur « crawling issues » peut être ambiguë. Cependant, vous pouvez déterminer le problème exact en visitant l’URL en question. Si la page se charge rapidement et correctement, il se peut que votre site Web empêche les moteurs de recherche de l’explorer.

Si la page se charge sans erreur, nous vous recommandons de tester les temps de chargement de votre site Web pour voir s’il y a des problèmes de performance. Sinon, vous devriez voir des codes d’erreur spécifiques ou des cas de redirections multiples.

2. erreurs 404

les erreurs 404 dans un sitemap sont faciles à résoudre. Si une page n’existe plus, vous pouvez supprimer cette entrée du plan du site manuellement ou mettre en place une redirection pour cette page. La meilleure option pour vous dépendra du fait que cette page reçoit toujours du trafic.

L’analyse du site Web à partir de la Google Search Console et d’autres services révélera si une page 404 reçoit encore des visiteurs. Dans ce cas, le mieux est de mettre en place une redirection vers la page ou l’article pertinent le plus proche, afin de ne pas perdre ce trafic. Tant que vous n’utilisez qu’une seule redirection, celle-ci n’entraînera pas d’erreur de validation de sitemap.

3. erreurs 401

Une erreur 401 « non autorisée » dans un sitemap signifie que les robots d’exploration ne peuvent pas accéder à une page spécifique parce qu’ils n’ont pas les autorisations nécessaires. Cette erreur apparaît généralement lorsque vous avez affaire à une page qui nécessite que les utilisateurs se connectent.

A 401 unauthorized error
  • https://www.facebook.com/lafactoryworld
  • https://twitter.com/lafactory
  • Gmail
  • https://www.linkedin.com/company/lafactory-inc

La seule solution à cette erreur consiste à supprimer les pages nécessitant une autorisation du plan du site. Toute page que seuls les utilisateurs connectés peuvent voir ne doit pas être indexée. Sinon, les visiteurs qui cliquent dessus dans les pages de résultats des moteurs de recherche (SERP) se retrouveront face à une erreur 401.

4. Trop d’URL dans le plan Sitemap

Les moteurs de recherche peuvent explorer d’énormes sites Web contenant des milliers de pages. Cependant, d’après notre expérience, les sitemaps commencent à afficher des erreurs si vous répertoriez près de (ou plus de) 50 000 pages.

Si c’est votre cas, bravo pour l’effort fourni. 50 000 pages, c’est beaucoup. Cependant, la plupart des sites Web de plus de 50 000 pages ont probablement plusieurs URL provenant de contenus générés par les utilisateurs. Dans ce cas, vous devez donner la priorité aux pages les plus importantes de votre site tout en supprimant les entrées sitemap que les utilisateurs ne souhaitent pas voir apparaître dans les SERP.

5. URL non canonique dans le plan Sitemap

Parfois, les moteurs de recherche peuvent être déroutés lorsqu’ils voient plusieurs versions d’une URL pour la même page. Par exemple, il est possible d’accéder à une simple page de blog en utilisant l’une des URL suivantes :

  • http://yourwebsite.com
  • http://www.yourwebsite.com
  • https://yourwebsite.com
  • https://www.yourwebsite.com

En pratique, toutes ces URL peuvent mener à la même page (si vous redirigez le trafic HTTP vers HTTPS). Toutefois, les moteurs de recherche pourraient considérer ces URL comme quatre entrées différentes dans un sitemap, ce qui entraînerait des erreurs de validation.

La façon la plus simple de résoudre ce problème est de désigner une URL canonique pour votre site Web WordPress. Les plugins de référencement tels que Yoast attribuent automatiquement des URL canoniques à votre site. Si vous utilisez un fichier XML généré par un plugin de référencement, vous ne devriez pas rencontrer l’erreur « non-canonique » lorsque vous utilisez un validateur de sitemap.

Conclusion

Au fur et à mesure que votre site Web se développe, l’utilisation d’un sitemap devient plus critique. Les sitemaps vous permettent d’indiquer aux moteurs de recherche les pages qu’ils doivent indexer et celles qu’ils doivent ignorer. En outre, l’utilisation d’un validateur de sitemap vous aidera à repérer les erreurs afin que les robots d’exploration ne rencontrent pas de problèmes lors de l’indexation de votre site Web.

Pour récapituler, les cinq erreurs les plus courantes que vous pouvez rencontrer avec un validateur de sitemap sont les suivantes :

    1. Pages présentant des problèmes d’indexation :

Vous devrez vérifier vos temps de chargement, vos redirections et visiter la page de votre site Web pour déterminer le problème exact.

    1. erreurs 404 :

Cette erreur signifie que vous devez supprimer la page inexistante de votre sitemap ou mettre en place une redirection pour celle-ci.

    1. erreurs 401 :

Envisagez de supprimer les pages à accès restreint de votre sitemap.

    1. Trop d’URL dans le sitemap :

Vous devrez peut-être être sélectif quant aux pages de votre sitemap et supprimer celles qui sont moins utiles.

  1. URLs non canoniques dans le sitemap :

Nous vous recommandons de mettre en place une URL canonique pour des pages spécifiques.

Vous avez des questions sur l’utilisation d’un validateur de sitemap ? Parlons-en dans la section des commentaires ci-dessous !