SEO technique 12 min de lecture Mis a jour le 10 janvier 2026

Sitemap, robots.txt, canonicals : guide pratique anti-indexation

Maîtrisez les outils qui contrôlent l'indexation de votre site. Configurations, erreurs fréquentes et solutions.

A retenir

  • Sitemap.xml = liste des pages à indexer (pas un ordre)
  • Robots.txt = interdire le crawl (pas l'indexation)
  • Canonical = indiquer la version préférée d'une page
  • Noindex = interdire l'indexation d'une page
  • Ces outils sont complémentaires, pas interchangeables
  • Testez toujours avant de déployer

WebTrafic

Expert SEO Technique

Agence spécialisée en SEO technique. Configuration et audit de l'indexation pour sites de toutes tailles.

Pourquoi c'est important

Le contrôle de l'indexation détermine quelles pages Google voit et référence. Des erreurs peuvent : - Bloquer l'indexation de pages importantes - Laisser des pages sensibles apparaître dans Google - Créer du contenu dupliqué - Gaspiller votre crawl budget

Ce guide vous explique comment utiliser chaque outil correctement.

Le sitemap.xml

**Qu'est-ce que c'est ?** Un fichier XML qui liste les URLs que vous souhaitez voir indexées.

**Ce que le sitemap fait :** - Aide Google à découvrir vos pages - Indique la date de dernière modification - Suggère une priorité (peu utilisé par Google)

**Ce que le sitemap NE fait PAS :** - Garantir l'indexation - Forcer une fréquence de crawl - Remplacer les liens internes

Structure du sitemap

**Exemple de sitemap simple :** ```xml <?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>https://example.com/</loc> <lastmod>2026-01-10</lastmod> </url> <url> <loc>https://example.com/services/</loc> <lastmod>2026-01-08</lastmod> </url> </urlset> ```

**Éléments :** - `<loc>` : URL de la page (obligatoire) - `<lastmod>` : Date de dernière modification (recommandé) - `<changefreq>` : Fréquence de mise à jour (ignoré par Google) - `<priority>` : Priorité relative (ignoré par Google)

Bonnes pratiques sitemap

  • Inclure uniquement les pages indexables (pas de noindex)
  • URLs canoniques uniquement (pas de doublons)
  • Maximum 50 000 URLs par fichier
  • Utiliser un index si plus de fichiers
  • Mettre à jour lastmod quand le contenu change vraiment
  • Soumettre dans Search Console
  • Déclarer dans robots.txt

Erreurs sitemap courantes

  • Inclure des pages noindex ou redirigées
  • Mettre la mauvaise date de modification
  • Oublier des pages importantes
  • URLs non canoniques dans le sitemap
  • Fichier non accessible (erreur 404/500)
  • Encoding incorrect (caractères spéciaux)

Le robots.txt

**Qu'est-ce que c'est ?** Un fichier texte à la racine du site qui donne des instructions aux robots.

**Ce que le robots.txt fait :** - Interdire le crawl de certaines parties du site - Indiquer l'emplacement du sitemap - Économiser le crawl budget

**Ce que le robots.txt NE fait PAS :** - Empêcher l'indexation (pages connues par liens peuvent être indexées) - Protéger des données sensibles - Remplacer l'authentification

Structure du robots.txt

**Exemple de robots.txt :** ``` User-agent: * Disallow: /admin/ Disallow: /panier/ Disallow: /compte/ Allow: /

Sitemap: https://example.com/sitemap.xml ```

**Syntaxe :** - `User-agent: *` = S'applique à tous les robots - `Disallow:` = Interdit le crawl - `Allow:` = Autorise le crawl (priorité sur Disallow) - `Sitemap:` = Indique le sitemap

Patterns robots.txt utiles

**Bloquer un répertoire :** `Disallow: /admin/`

**Bloquer un type de fichier :** `Disallow: /*.pdf$`

**Bloquer les paramètres d'URL :** `Disallow: /*?*`

**Autoriser un sous-répertoire bloqué :** ``` Disallow: /private/ Allow: /private/public-page/ ```

**Bloquer un robot spécifique :** ``` User-agent: GPTBot Disallow: / ```

Erreurs robots.txt courantes

  • Bloquer le site entier par erreur (Disallow: /)
  • Bloquer le CSS/JS (Google en a besoin pour le rendu)
  • Croire que Disallow = noindex
  • Utiliser pour cacher des infos sensibles
  • Syntaxe incorrecte (espace, casse)
  • Fichier inaccessible

La balise canonical

**Qu'est-ce que c'est ?** Une balise HTML qui indique la version préférée d'une page quand plusieurs URLs montrent le même contenu.

**Syntaxe :** `<link rel="canonical" href="https://example.com/page/" />`

**Quand l'utiliser :** - Pages accessibles avec et sans www - Pages avec paramètres d'URL (tri, filtres) - Contenu syndiqué/republié - Versions mobile/desktop séparées - Pagination

Exemples de canonical

**Page avec paramètres :** URL visitée : /produits/?tri=prix Canonical : /produits/

**Pagination :** URL : /blog/page/2/ Canonical : /blog/page/2/ (auto-référencement) OU : /blog/ (si vous voulez consolider)

**Version imprimable :** URL : /article/print/ Canonical : /article/

**HTTPS vs HTTP :** Toutes les versions HTTP → Canonical vers HTTPS

Règles du canonical

  • Chaque page doit avoir un canonical (même auto-référencement)
  • Pointer vers une URL indexable (pas noindex, pas 404)
  • URL absolue (https://...), pas relative
  • Un seul canonical par page
  • Cohérent avec sitemap et liens internes

Erreurs canonical courantes

  • Canonical vers une page noindex
  • Canonical vers une page redirigée
  • Chaîne de canonicals (A → B → C)
  • Canonicals contradictoires (A dit B, B dit A)
  • URL relative au lieu d'absolue
  • Canonical différent dans sitemap

La balise noindex

**Qu'est-ce que c'est ?** Une instruction pour dire à Google de ne PAS indexer une page.

**Syntaxe :** `<meta name="robots" content="noindex">` ou `<meta name="robots" content="noindex, nofollow">`

**Quand l'utiliser :** - Pages de remerciement/confirmation - Résultats de recherche interne - Pages panier/compte utilisateur - Pages de staging/test - Pages avec contenu dupliqué volontaire

Noindex vs robots.txt

**Différence cruciale :**

Actionrobots.txt Disallowmeta noindex
Empêche le crawlOuiNon
Empêche l'indexationNon (pas fiable)Oui
Page peut apparaître dans GoogleOui (si liens)Non
Google voit la directiveAvant crawlPendant crawl

Cas pratiques de configuration

**E-commerce avec filtres :** - Pages catégories : canonical auto + sitemap - Pages filtrées : canonical vers catégorie parent - Pages produits : canonical auto + sitemap

**Blog avec tags :** - Articles : canonical auto + sitemap - Pages tags : noindex ou canonical vers tag principal - Pages auteur : noindex ou canonical selon stratégie

**Site multilingue :** - Chaque version : canonical auto-référencement - Ajouter hreflang pour lier les versions - Sitemap séparé par langue ou index global

Outils de vérification

  • Google Search Console > Inspection URL : Voir le canonical détecté
  • Screaming Frog : Audit canonicals, noindex, robots
  • robots.txt Tester (Search Console) : Vérifier les règles
  • Sitemap Validator : Vérifier la syntaxe
  • View Page Source : Vérifier les balises meta

Checklist indexation

  • Sitemap.xml généré et à jour
  • Sitemap soumis dans Search Console
  • Sitemap déclaré dans robots.txt
  • robots.txt accessible et correct
  • Pas de blocage involontaire de contenu important
  • Canonical sur chaque page
  • Canonicals cohérents avec sitemap
  • noindex sur pages non indexables
  • Pas de conflit noindex + sitemap

Questions frequentes

Non, pas de manière fiable. Une page bloquée dans robots.txt peut être indexée si elle reçoit des liens. Utilisez noindex pour vraiment empêcher l'indexation.

Non, uniquement les pages indexables que vous souhaitez voir dans Google. Pas les noindex, pas les redirections, pas les erreurs.

Non, un seul. Si plusieurs sont présents, Google peut les ignorer tous.

C'est un signal fort mais pas une directive absolue. Google peut l'ignorer s'il détecte des incohérences.

Dans Search Console > Inspection URL, vérifiez le 'Canonical déclaré par Google'. S'il diffère du vôtre, il y a un problème.

noindex = ne pas indexer la page. nofollow = ne pas suivre les liens de la page. Vous pouvez utiliser l'un sans l'autre.

Besoin d'aide pour mettre en pratique ?

On regarde ensemble ce qui peut faire avancer votre projet. Premier retour sous 24h.

Sans engagement Réponse sous 24h Données confidentielles