En référencement, on s’occupe aussi des fichiers que personnes ne voient jamais. Le Robots.txt est un de ces fichiers qui peut aider comme nuire à votre référencement. On va voir comment s’en servir au mieux pour le SEO.
Définition du Robots.txt
Pourquoi robots.txt ?
Par définition, le robots.txt est un fichier au format texte, d’où le.txt, destiné comme son nom l’indique aux robots des moteurs de recherche et autres comme on va le voir.
Parce qu’en plus des moteurs de recherche, d’autres services ou outil ont créé leur propre robot (crawler) pour récupérer des datas sur les sites web. Comme par exemple l’outil Semrush, Ahref, Majestic SEO…
Où se trouve le fichier robots.txt ?
En règle générale, le fichier robots.txt se trouve à la racine d’un site web. Il va donner les directive principales aux moteurs de recherche. Il est donc placé en première ligne.
Pour le voir, il suffit donc de charger votre site et d’ajouter /robots.txt.
Comment modifier le fichier Robots.txt
C’est un simple fichier texte, il est donc modifiable avec le bloc note tout simplement.

Avantages du robots.txt
- Il permet en un seul fichier de donner des directives à tous les crawlers en quelques lignes de texte.
- Il permet d’orienter les moteurs de recherche vers un plan sitemap.xml
- Il permet d’optimiser le crawl et l’indexation des pages d’un site web en écartant les pages inutiles au référencement et en spécifiant des délais de crawl.
- Et bien d’autres trucs qu’on va voir un peu plus loin.
Inconvénients du robots.txt
- Le fichier donne des directives à respecter. Mais techniquement, il ne peut pas « bloquer » le parcours des crawlers. Certains crawlers sont créés par des personnes malveillantes qui ne suivront pas ces directives.
- Certains crawlers ne vont pas comprendre les directives dans le bon sens et donc parcourir ce qu’il ne faut pas.
- Si vous tentez de bloquer l’accès à une page mais que cette page est liée sur internet par un lien, Google et les autres moteurs de recherche finiront par l’indexer. Il faut donc utiliser d’autres techniques pour ça, le .htaccess par exemple, un autre fichier caché.
Comment faire un fichier robots.txt optimisé
Lexique
Pour créer et modifier un fichier robots.txt, il faut connaitre certains codes:
- * : Tous … on peut l’utiliser pour les User-agent ou les pages
- $ : A la fin. Permet de bloquer certaines choses, on va le voir plus bas
- # : commentaire. Vous utiliser ce signe pour que la ligne ne soit pas interprétée
- User-agent : le.s robot.s concerné.s
- Allow : Autoriser
- Disallow : Ne pas autoriser
- Sitemap : Adresse du fichier sitemap.xml (vu plus bas)
- Crawl-delay : Permet de spécifier et de régler le nombre de secondes que doit attendre le robot entre chaque requêtes successives
Création du fichier
Le robots.txt est rédigé en blocs de directives. Chaque bloc contient généralement 2 parties:
- Le user-agent : à qui est destinées la directive
- L’action : ce que le moteur peut ou ne peut pas faire.
ATTENTION: une ligne par action et user-agent. Sinon votre fichier sera mal interprété.
Pour l’exemple, prenons le fichier robots.txt généré par défaut sur un blog WordPress:
User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
On y voit 3 lignes qui signifient:
- User-agent: * : Règles pour TOUS les user-agent (avec le * pour TOUS)
- Allow: /wp-admin/admin-ajax.php : Vous avez le droit d’aller sur cette page
- Disallow: /wp-admin/ : mais pas dans le reste de ce dossier
Si le fichier autorise la page admin-ajax.php, c’est pour une raison bien simple. Cette page permet de mettre à jour des informations en tâche de fond, donc sans recharger une page. Par exemple pour des ajouts de commentaires ou toute autre action d’un plugin. Comme cette page est appelé par un navigateur (qui est aussi un robot avec son propre User-agent), on ne peut pas le bloquer sinon ça causerait des soucis d’interactions. En gardant à l’esprit que le navigateur chrome a déjà plus d’une dizaine d’User agent différents et les autres aussi, il serait un peu compliqué de tous les lister dans ce fichier. On autorise donc par défaut tous les User-agent.
Passons à l’optimisation:
Signaler un fichier de sitemap.xml dans le Robots.txt
Le sitemap.xml est un fichier XML qui regroupe des données pour les moteurs de recherche. C’est données, ce sont les urls des pages d’un site internet. Elles sont listées dans ce fichier et servent de « plan de site » pour les moteurs de recherche.
Ces fichiers sont donc utiles (plus ou moins aujourd’hui) pour faire connaitre rapidement de nouveau contenus publiés aux moteurs de recherche qui vont préférer vérifier ce fichier logiquement avant de faire tout le tour de votre site internet. C’est une question d’économie de ressource pour le moteur de recherche qui parcourt des millions de sites par jour.
On utilise donc le code suivant:
Sitemap: https://jeremy-allard.com/sitemap.xml
Sitemap: https://jeremy-allard.com/sitemap.rss
Les deux lignes renvoient les moteurs de recherche et autres vers deux formats différents de plan de site. Un en XML, l’autre en RSS
Bloquer l’indexation de la racine d’un répertoire mais pas les pages qui sont dedans:
Disallow: /dev/$
Ici, on bloque l’indexation du répertoire /dev/ qui pourrait afficher la liste de tous les fichiers qui y sont. En revanche, on laisse la possibilité de crawler /dev/petit-test-seo.html
Empêcher un robot particulier de naviguer sur un site web
Pour une raison ou une autre, vous voulez peut-être que Google vous indexe vos pages , mais vous ne souhaitez pas que robots de services de référencement passent chez vous. Par exemple, vous voulez bloquer le Bot de Majestic SEO:
User-agent: MJ12bot
Disallow: /
Eviter l’indexation de certains fichiers
Disallow: /*.png$
Ici, on ne veut pas que nos images perso au format PNG soient indexées.
Empêcher plusieurs Robots
On les spécifie séparement et on applique la directive à la fin.
User-agent: Rogerbot
User-agent: Exabot
User-agent: MJ12bot
User-agent: Dotbot
User-agent: Gigabot
User-agent: AhrefsBot
User-agent: SemrushBot
User-agent: SemrushBot-SA
Disallow: /
Avec commentaire, craw-delay et petite annonce
# Bonjour nous recherchons un référencement Freelance pour notre site
# contactez-nous par mail à recrutement@site.com
User-agent: *
Crawl-delay: 10
# test black hat
Disallow: /un-truc-pas-bien.html
Le fichier Robots.txt est visible de tous, et les référenceurs le consultent régulièrement. Certaines boites en profitent pour laisser des annonces de recrutement. Quelques exemples:
- Glassdoor
- TripAdvisor
Voilà, vous savez tout pour optimiser les passages des crawlers des moteurs de recherche et autres sur votre site.
Pour être certains de ne pas faire de bêtises, faites valider votre fichier par la Search Console de Google avec son validateur de fichier Robots.txt
Si vous avez des choses à rajouter, n’hésitez pas dans les commentaires.