Disallow empêche-t-il vraiment l'indexation ?

Non, pas de manière fiable. Une page bloquée dans robots.txt peut être indexée si elle reçoit des liens. Utilisez noindex pour vraiment empêcher l'indexation.

Faut-il mettre toutes les pages dans le sitemap ?

Non, uniquement les pages indexables que vous souhaitez voir dans Google. Pas les noindex, pas les redirections, pas les erreurs.

Puis-je avoir plusieurs canonicals sur une page ?

Non, un seul. Si plusieurs sont présents, Google peut les ignorer tous.

Le canonical est-il une directive ou une suggestion ?

C'est un signal fort mais pas une directive absolue. Google peut l'ignorer s'il détecte des incohérences.

Comment savoir si Google respecte mon canonical ?

Dans Search Console > Inspection URL, vérifiez le 'Canonical déclaré par Google'. S'il diffère du vôtre, il y a un problème.

noindex, nofollow : quelle différence ?

noindex = ne pas indexer la page. nofollow = ne pas suivre les liens de la page. Vous pouvez utiliser l'un sans l'autre.

Sitemap, robots.txt, canonicals : guide anti-indexation

Pourquoi c'est important

Le contrôle de l'indexation détermine quelles pages Google voit et référence. Des erreurs peuvent : - Bloquer l'indexation de pages importantes - Laisser des pages sensibles apparaître dans Google - Créer du contenu dupliqué - Gaspiller votre crawl budget

Ce guide vous explique comment utiliser chaque outil correctement.

Le sitemap.xml

**Qu'est-ce que c'est ?** Un fichier XML qui liste les URLs que vous souhaitez voir indexées.

**Ce que le sitemap fait :** - Aide Google à découvrir vos pages - Indique la date de dernière modification - Suggère une priorité (peu utilisé par Google)

**Ce que le sitemap NE fait PAS :** - Garantir l'indexation - Forcer une fréquence de crawl - Remplacer les liens internes

Structure du sitemap

**Exemple de sitemap simple :** ```xml <?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>https://example.com/</loc> <lastmod>2026-01-10</lastmod> </url> <url> <loc>https://example.com/services/</loc> <lastmod>2026-01-08</lastmod> </url> </urlset> ```

**Éléments :** - `<loc>` : URL de la page (obligatoire) - `<lastmod>` : Date de dernière modification (recommandé) - `<changefreq>` : Fréquence de mise à jour (ignoré par Google) - `<priority>` : Priorité relative (ignoré par Google)

Bonnes pratiques sitemap

Inclure uniquement les pages indexables (pas de noindex)
URLs canoniques uniquement (pas de doublons)
Maximum 50 000 URLs par fichier
Utiliser un index si plus de fichiers
Mettre à jour lastmod quand le contenu change vraiment
Soumettre dans Search Console
Déclarer dans robots.txt

Erreurs sitemap courantes

Inclure des pages noindex ou redirigées
Mettre la mauvaise date de modification
Oublier des pages importantes
URLs non canoniques dans le sitemap
Fichier non accessible (erreur 404/500)
Encoding incorrect (caractères spéciaux)

Le robots.txt

**Qu'est-ce que c'est ?** Un fichier texte à la racine du site qui donne des instructions aux robots.

**Ce que le robots.txt fait :** - Interdire le crawl de certaines parties du site - Indiquer l'emplacement du sitemap - Économiser le crawl budget

**Ce que le robots.txt NE fait PAS :** - Empêcher l'indexation (pages connues par liens peuvent être indexées) - Protéger des données sensibles - Remplacer l'authentification

Structure du robots.txt

**Exemple de robots.txt :** ``` User-agent: * Disallow: /admin/ Disallow: /panier/ Disallow: /compte/ Allow: /

Sitemap: https://example.com/sitemap.xml ```

**Syntaxe :** - `User-agent: *` = S'applique à tous les robots - `Disallow:` = Interdit le crawl - `Allow:` = Autorise le crawl (priorité sur Disallow) - `Sitemap:` = Indique le sitemap

Patterns robots.txt utiles

**Bloquer un répertoire :** `Disallow: /admin/`

**Bloquer un type de fichier :** `Disallow: /*.pdf$`

**Bloquer les paramètres d'URL :** `Disallow: /*?*`

**Autoriser un sous-répertoire bloqué :** ``` Disallow: /private/ Allow: /private/public-page/ ```

**Bloquer un robot spécifique :** ``` User-agent: GPTBot Disallow: / ```

Erreurs robots.txt courantes

Bloquer le site entier par erreur (Disallow: /)
Bloquer le CSS/JS (Google en a besoin pour le rendu)
Croire que Disallow = noindex
Utiliser pour cacher des infos sensibles
Syntaxe incorrecte (espace, casse)
Fichier inaccessible

La balise canonical

**Qu'est-ce que c'est ?** Une balise HTML qui indique la version préférée d'une page quand plusieurs URLs montrent le même contenu.

**Syntaxe :** `<link rel="canonical" href="https://example.com/page/" />`

**Quand l'utiliser :** - Pages accessibles avec et sans www - Pages avec paramètres d'URL (tri, filtres) - Contenu syndiqué/republié - Versions mobile/desktop séparées - Pagination

Exemples de canonical

**Page avec paramètres :** URL visitée : /produits/?tri=prix Canonical : /produits/

**Pagination :** URL : /blog/page/2/ Canonical : /blog/page/2/ (auto-référencement) OU : /blog/ (si vous voulez consolider)

**Version imprimable :** URL : /article/print/ Canonical : /article/

**HTTPS vs HTTP :** Toutes les versions HTTP → Canonical vers HTTPS

Règles du canonical

Chaque page doit avoir un canonical (même auto-référencement)
Pointer vers une URL indexable (pas noindex, pas 404)
URL absolue (https://...), pas relative
Un seul canonical par page
Cohérent avec sitemap et liens internes

Erreurs canonical courantes

Canonical vers une page noindex
Canonical vers une page redirigée
Chaîne de canonicals (A → B → C)
Canonicals contradictoires (A dit B, B dit A)
URL relative au lieu d'absolue
Canonical différent dans sitemap

La balise noindex

**Qu'est-ce que c'est ?** Une instruction pour dire à Google de ne PAS indexer une page.

**Syntaxe :** `<meta name="robots" content="noindex">` ou `<meta name="robots" content="noindex, nofollow">`

**Quand l'utiliser :** - Pages de remerciement/confirmation - Résultats de recherche interne - Pages panier/compte utilisateur - Pages de staging/test - Pages avec contenu dupliqué volontaire

Noindex vs robots.txt

**Différence cruciale :**

Action	robots.txt Disallow	meta noindex
Empêche le crawl	Oui	Non
Empêche l'indexation	Non (pas fiable)	Oui
Page peut apparaître dans Google	Oui (si liens)	Non
Google voit la directive	Avant crawl	Pendant crawl

Cas pratiques de configuration

**E-commerce avec filtres :** - Pages catégories : canonical auto + sitemap - Pages filtrées : canonical vers catégorie parent - Pages produits : canonical auto + sitemap

**Blog avec tags :** - Articles : canonical auto + sitemap - Pages tags : noindex ou canonical vers tag principal - Pages auteur : noindex ou canonical selon stratégie

**Site multilingue :** - Chaque version : canonical auto-référencement - Ajouter hreflang pour lier les versions - Sitemap séparé par langue ou index global

Outils de vérification

Google Search Console > Inspection URL : Voir le canonical détecté
Screaming Frog : Audit canonicals, noindex, robots
robots.txt Tester (Search Console) : Vérifier les règles
Sitemap Validator : Vérifier la syntaxe
View Page Source : Vérifier les balises meta

Checklist indexation

Sitemap.xml généré et à jour
Sitemap soumis dans Search Console
Sitemap déclaré dans robots.txt
robots.txt accessible et correct
Pas de blocage involontaire de contenu important
Canonical sur chaque page
Canonicals cohérents avec sitemap
noindex sur pages non indexables
Pas de conflit noindex + sitemap

Sitemap, robots.txt, canonicals : guide pratique anti-indexation

A retenir