Configuration optimale du sitemap.xml et robots.txt en 2026 pour maximiser la visibilité IA · bots autorisés, sitemap-index, hreflang alternates, exclusions intelligentes.
robots.txt · le minimum 2026
Voici le strict minimum à avoir ·
# Allow all classic crawlers User-agent: * Allow: / # AI bots (autoriser tous) User-Agent: GPTBot Allow: / User-Agent: ClaudeBot Allow: / User-Agent: PerplexityBot Allow: / User-Agent: Google-Extended Allow: / User-Agent: MistralAI-User Allow: / # Bloquer les zones admin Disallow: /wp-admin/ Disallow: /wp-login.php # Sitemap Sitemap: https://votresite.fr/sitemap.xml
sitemap.xml · structure recommandée
Pour un site multilangue (FR + EN), voici la structure ·
- Sitemap-index (
sitemap.xml) qui pointe vers plusieurs sitemaps thématiques ·pages.xml,blog.xml,images.xml - hreflang alternates dans chaque entry ·
<xhtml:link rel="alternate" hreflang="fr-FR" href="..."> - lastmod ISO 8601 ·
2026-05-08T10:00:00+00:00 - Priorité · 1.0 home, 0.9 piliers, 0.8 articles principaux, 0.5 articles secondaires, 0.3 mentions légales
- changefreq ·
weeklypour blog,monthlypour pages produit,yearlypour mentions légales
Exclusions intelligentes
Ce qu'il ne faut pas mettre dans le sitemap · pages tag pauvres (< 3 articles), archives auteur si l'auteur n'a pas de bio, paginated pages (/page/2/), contenu privé, paramètres URL non-canoniques (?s=, ?utm_source=).
Sur WordPress · Yoast/RankMath/IA RANK GEO génèrent un sitemap propre par défaut. À vérifier dans Search Console · 'Pages exclues' = pages reconnues mais non-indexables (correct si tags pauvres).
AI-specific · sitemap dédié bots IA ?
Pas en 2026. La spécification reste un seul sitemap.xml standard. Les bots IA crawlent le même sitemap que Googlebot. La différence se fait sur robots.txt (autoriser/bloquer par bot) et llms.txt (index sémantique pour LLMs).
Si vous voulez segmenter l'expérience · différents <priority> par section, mais pas de sitemap distinct AI vs Google.
Questions fréquentes
Faut-il un sitemap par langue ?+
Idéalement oui · sitemap-fr.xml et sitemap-en.xml listés dans le sitemap-index. Sinon un seul sitemap avec hreflang alternates · Google et les LLMs supportent les deux.
Le sitemap doit-il être référencé dans robots.txt ?+
Oui · ligne Sitemap: https://... à la fin de robots.txt. Standard depuis 2007. Permet aux crawlers de découvrir le sitemap sans deviner son emplacement.
Combien d'URLs maximum dans un sitemap ?+
50 000 URLs ou 50 MB par fichier (spec sitemap.org). Au-delà, splitter en sitemap-index. La majorité des sites WordPress ont < 5000 URLs · 1 sitemap suffit.
RSS feed remplace-t-il le sitemap ?+
Non · ils sont complémentaires. RSS = nouveautés (10-50 derniers articles). Sitemap = catalogue complet. Les LLMs lisent surtout le sitemap.
Quand modifier robots.txt ?+
Idéalement, configuration initiale 1 fois et plus toucher. Modifications uniquement si · ajout d'un nouveau bot IA (rare), restructuration majeure du site, blocage temporaire d'une section en maintenance.