IA RANK GEOIA RANK GEO
Technique

Sitemap.xml et robots.txt en 2026 : que doit-on mettre dedans pour les IA ?

Par Thomas Kolbé5 min de lecture

Configuration optimale du sitemap.xml et robots.txt en 2026 pour maximiser la visibilité IA · bots autorisés, sitemap-index, hreflang alternates, exclusions intelligentes.

robots.txt · le minimum 2026

Voici le strict minimum à avoir ·

# Allow all classic crawlers
User-agent: *
Allow: /

# AI bots (autoriser tous)
User-Agent: GPTBot
Allow: /
User-Agent: ClaudeBot
Allow: /
User-Agent: PerplexityBot
Allow: /
User-Agent: Google-Extended
Allow: /
User-Agent: MistralAI-User
Allow: /

# Bloquer les zones admin
Disallow: /wp-admin/
Disallow: /wp-login.php

# Sitemap
Sitemap: https://votresite.fr/sitemap.xml

sitemap.xml · structure recommandée

Pour un site multilangue (FR + EN), voici la structure ·

  • Sitemap-index (sitemap.xml) qui pointe vers plusieurs sitemaps thématiques · pages.xml, blog.xml, images.xml
  • hreflang alternates dans chaque entry · <xhtml:link rel="alternate" hreflang="fr-FR" href="...">
  • lastmod ISO 8601 · 2026-05-08T10:00:00+00:00
  • Priorité · 1.0 home, 0.9 piliers, 0.8 articles principaux, 0.5 articles secondaires, 0.3 mentions légales
  • changefreq · weekly pour blog, monthly pour pages produit, yearly pour mentions légales

Exclusions intelligentes

Ce qu'il ne faut pas mettre dans le sitemap · pages tag pauvres (< 3 articles), archives auteur si l'auteur n'a pas de bio, paginated pages (/page/2/), contenu privé, paramètres URL non-canoniques (?s=, ?utm_source=).

Sur WordPress · Yoast/RankMath/IA RANK GEO génèrent un sitemap propre par défaut. À vérifier dans Search Console · 'Pages exclues' = pages reconnues mais non-indexables (correct si tags pauvres).

AI-specific · sitemap dédié bots IA ?

Pas en 2026. La spécification reste un seul sitemap.xml standard. Les bots IA crawlent le même sitemap que Googlebot. La différence se fait sur robots.txt (autoriser/bloquer par bot) et llms.txt (index sémantique pour LLMs).

Si vous voulez segmenter l'expérience · différents <priority> par section, mais pas de sitemap distinct AI vs Google.

Questions fréquentes

Faut-il un sitemap par langue ?+

Idéalement oui · sitemap-fr.xml et sitemap-en.xml listés dans le sitemap-index. Sinon un seul sitemap avec hreflang alternates · Google et les LLMs supportent les deux.

Le sitemap doit-il être référencé dans robots.txt ?+

Oui · ligne Sitemap: https://... à la fin de robots.txt. Standard depuis 2007. Permet aux crawlers de découvrir le sitemap sans deviner son emplacement.

Combien d'URLs maximum dans un sitemap ?+

50 000 URLs ou 50 MB par fichier (spec sitemap.org). Au-delà, splitter en sitemap-index. La majorité des sites WordPress ont < 5000 URLs · 1 sitemap suffit.

RSS feed remplace-t-il le sitemap ?+

Non · ils sont complémentaires. RSS = nouveautés (10-50 derniers articles). Sitemap = catalogue complet. Les LLMs lisent surtout le sitemap.

Quand modifier robots.txt ?+

Idéalement, configuration initiale 1 fois et plus toucher. Modifications uniquement si · ajout d'un nouveau bot IA (rare), restructuration majeure du site, blocage temporaire d'une section en maintenance.

Sources et lectures complémentaires

Vous voulez l'appliquer à votre site ?

IA RANK GEO Pro fait tout cela automatiquement sur votre site WordPress.

Plugin installé en 2 min. Score GEO temps réel sur tous vos articles. Génération auto via Mistral · meta + FAQ + Quick Answer + Topic Clusters. Suivi quotidien des citations sur ChatGPT, Claude, Perplexity, Gemini. Lite gratuit à vie. Pro à partir de 19 €/mois.

  • Score GEO 80+ par défaut · 14 critères auto-évalués sur chaque article
  • Génération Mistral incluse · meta, FAQ, Quick Answer, Answer-Ready Blocks · pas de clé API à gérer
  • Suivi citations IA quotidien · ChatGPT, Claude, Perplexity, Gemini, AI Overviews · alertes concurrents
  • RGPD by design · génération en France via Mistral · zéro fuite vers OpenAI ou Anthropic

Sans engagement · annulable en 1 clic depuis le portail Stripe · résiliation transparente