Pourquoi c'est important
Le contrôle de l'indexation détermine quelles pages Google voit et référence. Des erreurs peuvent : - Bloquer l'indexation de pages importantes - Laisser des pages sensibles apparaître dans Google - Créer du contenu dupliqué - Gaspiller votre crawl budget
Ce guide vous explique comment utiliser chaque outil correctement.
Le sitemap.xml
**Qu'est-ce que c'est ?** Un fichier XML qui liste les URLs que vous souhaitez voir indexées.
**Ce que le sitemap fait :** - Aide Google à découvrir vos pages - Indique la date de dernière modification - Suggère une priorité (peu utilisé par Google)
**Ce que le sitemap NE fait PAS :** - Garantir l'indexation - Forcer une fréquence de crawl - Remplacer les liens internes
Structure du sitemap
**Exemple de sitemap simple :** ```xml <?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>https://example.com/</loc> <lastmod>2026-01-10</lastmod> </url> <url> <loc>https://example.com/services/</loc> <lastmod>2026-01-08</lastmod> </url> </urlset> ```
**Éléments :** - `<loc>` : URL de la page (obligatoire) - `<lastmod>` : Date de dernière modification (recommandé) - `<changefreq>` : Fréquence de mise à jour (ignoré par Google) - `<priority>` : Priorité relative (ignoré par Google)
Bonnes pratiques sitemap
- Inclure uniquement les pages indexables (pas de noindex)
- URLs canoniques uniquement (pas de doublons)
- Maximum 50 000 URLs par fichier
- Utiliser un index si plus de fichiers
- Mettre à jour lastmod quand le contenu change vraiment
- Soumettre dans Search Console
- Déclarer dans robots.txt
Erreurs sitemap courantes
- Inclure des pages noindex ou redirigées
- Mettre la mauvaise date de modification
- Oublier des pages importantes
- URLs non canoniques dans le sitemap
- Fichier non accessible (erreur 404/500)
- Encoding incorrect (caractères spéciaux)
Le robots.txt
**Qu'est-ce que c'est ?** Un fichier texte à la racine du site qui donne des instructions aux robots.
**Ce que le robots.txt fait :** - Interdire le crawl de certaines parties du site - Indiquer l'emplacement du sitemap - Économiser le crawl budget
**Ce que le robots.txt NE fait PAS :** - Empêcher l'indexation (pages connues par liens peuvent être indexées) - Protéger des données sensibles - Remplacer l'authentification
Structure du robots.txt
**Exemple de robots.txt :** ``` User-agent: * Disallow: /admin/ Disallow: /panier/ Disallow: /compte/ Allow: /
Sitemap: https://example.com/sitemap.xml ```
**Syntaxe :** - `User-agent: *` = S'applique à tous les robots - `Disallow:` = Interdit le crawl - `Allow:` = Autorise le crawl (priorité sur Disallow) - `Sitemap:` = Indique le sitemap
Patterns robots.txt utiles
**Bloquer un répertoire :** `Disallow: /admin/`
**Bloquer un type de fichier :** `Disallow: /*.pdf$`
**Bloquer les paramètres d'URL :** `Disallow: /*?*`
**Autoriser un sous-répertoire bloqué :** ``` Disallow: /private/ Allow: /private/public-page/ ```
**Bloquer un robot spécifique :** ``` User-agent: GPTBot Disallow: / ```
Erreurs robots.txt courantes
- Bloquer le site entier par erreur (Disallow: /)
- Bloquer le CSS/JS (Google en a besoin pour le rendu)
- Croire que Disallow = noindex
- Utiliser pour cacher des infos sensibles
- Syntaxe incorrecte (espace, casse)
- Fichier inaccessible
La balise canonical
**Qu'est-ce que c'est ?** Une balise HTML qui indique la version préférée d'une page quand plusieurs URLs montrent le même contenu.
**Syntaxe :** `<link rel="canonical" href="https://example.com/page/" />`
**Quand l'utiliser :** - Pages accessibles avec et sans www - Pages avec paramètres d'URL (tri, filtres) - Contenu syndiqué/republié - Versions mobile/desktop séparées - Pagination
Exemples de canonical
**Page avec paramètres :** URL visitée : /produits/?tri=prix Canonical : /produits/
**Pagination :** URL : /blog/page/2/ Canonical : /blog/page/2/ (auto-référencement) OU : /blog/ (si vous voulez consolider)
**Version imprimable :** URL : /article/print/ Canonical : /article/
**HTTPS vs HTTP :** Toutes les versions HTTP → Canonical vers HTTPS
Règles du canonical
- Chaque page doit avoir un canonical (même auto-référencement)
- Pointer vers une URL indexable (pas noindex, pas 404)
- URL absolue (https://...), pas relative
- Un seul canonical par page
- Cohérent avec sitemap et liens internes
Erreurs canonical courantes
- Canonical vers une page noindex
- Canonical vers une page redirigée
- Chaîne de canonicals (A → B → C)
- Canonicals contradictoires (A dit B, B dit A)
- URL relative au lieu d'absolue
- Canonical différent dans sitemap
La balise noindex
**Qu'est-ce que c'est ?** Une instruction pour dire à Google de ne PAS indexer une page.
**Syntaxe :** `<meta name="robots" content="noindex">` ou `<meta name="robots" content="noindex, nofollow">`
**Quand l'utiliser :** - Pages de remerciement/confirmation - Résultats de recherche interne - Pages panier/compte utilisateur - Pages de staging/test - Pages avec contenu dupliqué volontaire
Noindex vs robots.txt
**Différence cruciale :**
| Action | robots.txt Disallow | meta noindex |
|---|---|---|
| Empêche le crawl | Oui | Non |
| Empêche l'indexation | Non (pas fiable) | Oui |
| Page peut apparaître dans Google | Oui (si liens) | Non |
| Google voit la directive | Avant crawl | Pendant crawl |
Cas pratiques de configuration
**E-commerce avec filtres :** - Pages catégories : canonical auto + sitemap - Pages filtrées : canonical vers catégorie parent - Pages produits : canonical auto + sitemap
**Blog avec tags :** - Articles : canonical auto + sitemap - Pages tags : noindex ou canonical vers tag principal - Pages auteur : noindex ou canonical selon stratégie
**Site multilingue :** - Chaque version : canonical auto-référencement - Ajouter hreflang pour lier les versions - Sitemap séparé par langue ou index global
Outils de vérification
- Google Search Console > Inspection URL : Voir le canonical détecté
- Screaming Frog : Audit canonicals, noindex, robots
- robots.txt Tester (Search Console) : Vérifier les règles
- Sitemap Validator : Vérifier la syntaxe
- View Page Source : Vérifier les balises meta
Checklist indexation
- Sitemap.xml généré et à jour
- Sitemap soumis dans Search Console
- Sitemap déclaré dans robots.txt
- robots.txt accessible et correct
- Pas de blocage involontaire de contenu important
- Canonical sur chaque page
- Canonicals cohérents avec sitemap
- noindex sur pages non indexables
- Pas de conflit noindex + sitemap