Les majuscules ou caractères accentués sont-ils acceptés dans les fichiers sitemap ?
S’il y avait un doute : qu'est-ce qu'un fichier sitemap
Le fichier sitemap est une liste d’URL (Uniform Resource Locator, c'est-à-dire à peu près adresse de page web, par exemple https://www.extraits-enrichis.fr/astuce-seo-avec-google-tag-manager/). Cette liste d’URL est destinée à fournir aux moteurs de recherche les pages et contenus que vous souhaitez indexer dans leurs résultats, c’est à dire les pages que vous souhaitez référencer.
J'ai quand même un doute : comment fonctionne les fichiers sitemap
Ce fichier doit répondre à certaines règles précises, qu’il s’agisse d’un fichier sitemap au format xml ou txt.
Pour le cas qui nous occupe, concentrons-nous sur ce qu’en dit Google : parmi les règles, on sait que le fichier doit être encodé en UTF8, que les urls renseignées doivent être absolues (commençant par https), …
Référence : https://developers.google.com/search/docs/crawling-indexing/sitemaps/build-sitemap
Des règles spécifiques mais peu précises pour les Caractères non alphanumériques et non latins
Il y a un certain nombre de caractères qui peuvent être considérés comme non latins en français, par exemple le ç et les caractères accentués.
Et malheureusement, les instructions de Google à ce sujet ne sont pas très précises.
D’où l’idée de cette page, qui consiste à vérifier si un sitemap avec des URL contenant des caractères accentués et des majuscules peut être correctement pris en compte par Google.
L'URL de cette page ne permet pas d'avoir une réponse très précise puisqu'elle ne contient qu'une majuscule simple et un seul caractère accentué, mais cette URL sera transmise à Google via un fichier sitemap pour vérifier si le sitemap est correctement traité par le moteur de recherche.
Et pourquoi faire ce "test" ?
Toi, référenceur qui passe par là, je t'entends déjà :
- Et pourquoi ne pas utiliser des URL sans majuscules et caractères accentués ?
La réponse est relativement simple :
- On n'a pas toujours le choix, et puis ça change un peu ! :)
Levons le doute : sitemap et le fameux é
Si l'encodage est correctement géré, ça peut passer.
La preuve en image : https://www.extraits-enrichis.fr/des-accents-dans-les-url-de-sitemap/