Fichier robots.txt WordPress, Guide 2021

Écrit par kévin Tsamo

Une méthode permettant de contrôler votre budget de crawl est la configuration du fichier robots.txt. Ce fichier indique aux moteurs de recherche ce qu’ils doivent ou ne doivent pas explorer et indexer (enregistrer et rendre accessibles au public en tant que résultats de recherche). Les termes «robots», «araignées», «spiders», «bot» dans cet article sont des synonymes.

Bien qu’il ne soit pas indispensable, le fichier Robots.txt vous donne beaucoup de contrôle sur la façon dont Google et les autres moteurs de recherche peuvent indexer votre site. Lorsqu’il est utilisé correctement, il peut améliorer la fréquence d’exploration de votre site ce qui peut avoir un impact sur vos efforts en terme de SEO. Si vous êtes curieux de savoir comment poursuivez la lecture ! Nous verrons en profondeur les cas utilisations d’un fichier robots.txt, comment le créer et quelques bonnes pratiques pour en tirer profil de vos efforts.

Qu’est ce qu’un fichier robots.txt ?

Un fichier robots.txt est un simple fichier en format texte placé à la racine d’un site. Celui-ci vise à empêcher ou interdire aux robots d’exploration des moteurs de recherche d’indexer certaines parties de votre site WordPress. On comprend par là qu’il s’agit du premier fichier analysé par les moteurs de recherche avant même de commencer l’exploration de vos contenus.

Au tout début d’Internet, chaque programmeur développait des «robots» également appelés «agents utilisateurs» pour explorer et indexer les pages sur le Web. Parfois, ces robots se frayaient un chemin vers les pages ayant un contenu privé et ne voulant pas être visible sur la toile.

Pour résoudre ce problème, Martijn Koster, néerlandais ayant créé le premier moteur de recherche au monde (Aliweb), a proposé un ensemble de normes auxquelles chaque robot devrait adhérer. Ces normes ont été proposées et adoptées en 1994 sous le nom de «Protocole d’exclusion des robots» (REP).

Aujourd’hui même si les robots de moteurs de recherche comme Google, Yahoo et Bing se tiennent aux instructions du fichier, il n’existe aucune garantie qu’un petit bot respecte assurément les instructions du fichier robots.txt. Il est donc conseillé d’utiliser d’autres moyens de blocage comme la protection de fichiers par mot de passe si vous souhaitez protéger vos informations en empêchant leur récupération par les robots d’exploration.

Remarque : Une page bloquée par un robots.txt peut tout de même être indexée les moteurs de recherche sérieux et qui respectent les instructions des fichiers robots.txt si elle est référencée sur d’autres sites.

Dans les résultats de la recherche, il montrera seulement l’url, généralement le titre ou le snippet n’apparaissent pas. 

page bloquée par Robots.txt
Résultats Google avec une page bloquée par Robots.txt – Source Search Engine Land

Le message se lit comme suit:

Une description de ce résultat n’est pas disponible en raison du fichier robots.txt de ce site – en savoir plus.

Pourquoi le fichier robots.txt est-il important en référencement naturel ?

Le robots.txt permet de restreindre l’accès à des parties sensible de votre site, mais pas que. Il est possible de certaines parties ne soit pas significatif pour votre stratégie. L’exclusion des robots sur ces parties de votre site peut s’avérer extrêmement avantageuse pour votre de référencement naturel SEO.
Par exemple:

  • Le robots.txt permet d’optimiser les ressources (budget de crawl) des moteurs de recherche en leur empêchant de perdre du temps sur les pages de faible valeur. Cela permet de s’assurer que les moteurs de recherche se concentrent sur l’exploration des pages qui ont de la valeur pour votre entreprise.
  • Le fait de bloquer les bots d’exploration permet de limiter l’utilisation des ressources serveur allouées par votre hébergeur. Cette optimisation peut influencer la vitesse de chargement de vos pages par exemple.
  • Le robots.txt permet aussi d’indiquer le sitemap aux spiders ce qui permet d’améliorer la vitesse d’indexation de vos pages.

Contenu d’un fichier robots.txt

Un fichier robots.txt est composé de plusieurs sections de «directives ou instructions», applicable sur chaque agent utilisateur.

Exemple d’un fichier robots.txt :

Voici à quoi peut ressembler un fichier robots.txt pour un site Web WordPress:

# fichier pour les robots du site http://www.adressedevotresite.com/
User-Agent: * 
Disallow: /wp-admin
Allow: /wp-admin/admin-ajax.php
User-Agent: Googlebot-Image

Sitemap: http://www.adressedevotresite.com/sitemap_index.xml

Expliquons l’anatomie de ce fichier robots.txt en nous basant sur l’exemple ci-dessus:

  • # indique la présence d’un commentaire
  • User-agent : le user-agent indique à quels moteurs de recherche les directives qui suivent sont destinées.
  • Le * indique que les directives sont destinées à tous les moteurs de recherche.
  • Disallow : il s’agit d’une directive indiquant quel contenu n’est pas accessible au user-agent auquel s’applique la directive.
  • Allow : il s’agit d’une directive indiquant quel contenu est accessible au user-agent auquel elle s’applique.
  • /wp-admin/: c’est le répertoire qui est inaccessible pour le user-agent.
  • Sitemap: il s’agit d’une directive indiquant l’emplacement URL du sitemap aux moteurs de recherche. 

En résumé: ce fichier robots.txt indique à tous les moteurs de recherche de ne pas explorer le répertoire /wp-admin/ à l’exception du fichier /wp-admin/admin-ajax.php .

Analysons plus en détail les différents composants des fichiers robots.txt:

Agents utilisateurs ou users agents

L’agent utilisateur est le nom du robot d’exploration spécifique à chaque moteur de recherche. Il existe des centaines d’agents utilisateurs. Voici une liste de noms des agents utilisateurs les plus utilisés.

  • Googlebot pour Google
  • Googlebot-Image pour Google Image
  • Bingbot pour Bing
  • Slurp pour Yahoo
  • Baiduspider pour Baidu
  • DuckDuckBot pour DuckDuckGo

Vous pouvez appliquer des directives sur l’ensemble d’agents utilisateurs en utilisant l’astérisque (*) ou sur des moteurs de recherche spécifiques.

# Directive applicable sur l'ensemble des robots d'exploration
User-Agent: * 
# Directive applicable uniquement sur les robots d'exploration Google
User-Agent: Googlebot  

Les directives

Les directives sont des règles que vous voulez que les agents utilisateurs appliquent dans le fichier robots.txt. Voici une liste de directives prises en charge par les bots.

Disallow

La directive Disallow est utilisée pour indiquer aux moteurs de recherche de ne pas accéder aux fichiers et aux pages appartenant à un chemin spécifique.  Directive pour bloquer votre entier pour chaque moteur de recherche.

User-agent: * 
Disallow: /

Allow

La directive Allow permet aux moteurs de recherche d’explorer un sous-répertoire ou une page, même dans un répertoire par ailleurs interdit. Par exemple, vous pouvez empêcher les moteurs de recherche d’accéder à tous les articles de votre blog à l’exception d’un seul.

User-agent: Bingbot 
Disallow: / blog
Allow: / blog / post-title /

Directive Sitemap

Cette directive est utilisée pour spécifier l’emplacement de votre (vos) sitemap (s) aux moteurs de recherche. 

Si vous avez déjà soumis vos sitemaps via la Search Console, cela est quelque peu redondant pour Google. Cependant, il indique aux autres moteurs de recherche où trouver votre plan du site, c’est donc toujours une bonne pratique.

Plan du site: https://www.domain.com/sitemap.xml
User-agent: *
Disallow: / blog /
Allow: / blog / post-title /

Notez que vous n’avez pas besoin de répéter la directive sitemap plusieurs fois pour chaque agent utilisateur. Il est donc préférable d’inclure des directives de plan de site au début ou à la fin de votre fichier robots.txt. 

Crawl-Delay

La directive Crawl-Delay demande au robot d’attendre un certain nombre de secondes après avoir exploré une page. Google ne prend plus en charge cette directive, contrairement à Bing  et Yandex. Voici un exemple de fichier robots.txt utilisant la directive Crawl-Delay

User-agent: Slurp
Crawl-delay: 5

Visit-time

L’instruction Visit-time indique à quel moment les robots peuvent explorer votre site web. Cela peut être utile si vous ne voulez pas que les robots viennent explorer votre durant les heures où le trafic « humain » est le plus élevé.

User-agent: *
Visit-time: 2100-0500 # only visit between 21:00 (9PM) and 05:00 (5AM) UTC (GMT)

Comment trouver votre fichier robots.txt ?

Pour accéder ou vérifier si votre site possède un fichier robots.txt il suffit de vous rendre à l’adresse monsite.com/robots.txt à partir de votre navigateur. Pour mon cas, mon fichier se trouve à l’adresse kevintsamo.com/robots.txt.

Si vous obtenez une page d’erreur 404 à cette adresse cela signifie tout simplement que votre site ne dispose pas de fichier robots.txt

Si vous obtenez une page blanche cela signifie que votre site possède un fichier robots.txt vide. Pour exemple le fichier robots.txt de Disney est vide

Notez que tout le monde peut accéder à votre fichier « robots.txt » grâce à l’url monsite.com/robots.txt. N’utilisez donc jamais le fichier « robots.txt » pour cacher du contenu sur votre site internet car les utilisateurs et robots malveillants connaîtront exactement les URLs et/ou dossiers que vous souhaitez ne pas indexer.

Comment créer ou modifier votre fichier robots.txt sous WordPress ?

Si votre site est développé sous une version récente de WordPress celui-ci possède par défaut un fichier robots.txt virtuel. Ce fichier existant et fonctionnel n’est par contre pas accessible depuis votre Cpanel, ce qui veut dire que vous ne pouvez pas le modifier. Pour le faire vous devez créer personnellement votre propre fichier.

Il existe deux possibilités pour la création d’un fichier robots.txt, la méthode manuelle et la méthode automatique à partir de plugins WordPress. Je vous propose de découvrir en détaille.

Créer un fichier robots.txt manuellement.

Pour créer votre fichier robots.txt manuellement sous WordPress, vous avez besoin d’un éditeur de texte. Je vous recommande Brackets, Notepad++ ou Sublime Text. Si non même l’éditeur classique Bloc-notes de votre SE fera le travail.

Une fois en possession de votre éditeur de texte il vous suffit de définir les directives à respecter par les robots d’exploration et enregistrer votre fichier sous le nom de robots.txt.

À noter que les spiders sont sensible à la casse, ce qui veux dire que si vous ne respecter pas le format de nomenclature ( respect des majuscule et minuscules, instruction par ligne) votre fichier ne sera pas pris en compte ou sera mal compris par les différents agents utilisateurs.

Vous pouvez alors vous connecter à votre serveur à l’aide d’un logiciel client FTP comme Filezilla ou directement depuis votre gestionnaire de fichier et transférer le fichier à la racine de votre site. Cet emplacement (la racine) peut varier d’un hébergeur à un autre. En général, il s’agit du répertoire public_html. Chez d’autres hébergeurs vous le trouverez sous l’appellation www.

 Accès-au répertoire racine-depuis une connexion FTP
Accès-au répertoire racine public_html depuis une connexion FTP
répertoire public_html
Accès au répertoire racine public_html depuis le gestionnaire de fichier SiteGround

Voici un petit résumé de ce que vous devez faire pour créer votre fichier robots.txt manuellement à partir de WordPress.

  1. Installer l’éditeur de texte de votre choix
  2. Créer un nouveau fichier et définir des directives pour l’ensemble des agents utilisateur en respectant la casse
  3. Enregistrer votre fichier sous le nom de robots.txt
  4. Connecter votre serveur à votre client FTP
  5. Transférer le fichier à la racine de votre serveur

Créer un fichier robots.txt automatiquement à partir de plugin

Pour vous simplifier la vie, mais aussi si vous n’avez pas accès aux registres de votre site, vous pouvez créer et éditer votre robots.txt WordPress à l’aide d’un plugin. J’aborderai le sujet avec vous principalement sur deux plugins (que je trouve meilleurs) mais le principe reste le même dans l’ensemble. Comme prérequis vous devez avoir installer et activer le plugin que vous aurez choisi.

Créer et modifier le fichier robots.txt à l’aide de RankMath plugin

RankMath est un plugin SEO que j’affectionne particulièrement pour sa simplicité et ses multiple fonctionnalités. Rendez-vous dans «réglages généraux» depuis votre menu WordPress ensuite cliquez sur «Modifier le robots.txt». Vous allez tomber sur les directives par défaut crées lors de votre installation WordPress.

Créer le fichier robots.txt sur rankmath
Accéder à l’éditeur de fichier robots.txt depuis RankMath

Modifier le fichier selon vos préférences en ajoutant des directives à suivre par les différents agents utilisateurs et cliquer sur «Sauvegarder les modifications». Le tout est joué! Votre fichier robots.txt est fonctionnel.

Modifier le fichier robots.txt
Modifier le fichier robots.txt depuis RankMath

Créer et modifier le fichier robots.txt à l’aide du plugin Yoast SEO

Pour créer votre fichier robots.txt à partir de YOAST SEO, il vous suffit de vous rendre dans les paramètres de l’extension et sélectionner «Outils» puis « Éditeur de fichiers» et attendre le chargement de la nouvelle fenêtre qui s’affiche.

Accéder à l'éditeur Yoast SEO
Éditeur de fichiers Yoast SEO

Une fois l’éditeur ouvert vous pouvez renseigner vos directives. Si vous n’avez pas encore de fichier dédié, cliquez sur le bouton «Créer le fichier robots.txt» pour en créer un. Si nos modifier au besoin.

Créer un fichier robots.txt-sur Yoast SEO
Créer ou modifier votre fichier
NB: Si un fichier robots.txt est déjà présent dans le dossier racine de votre site, l'option de modification à partir de plugin n’aura aucun effet sur les robots d'exploration. Vous devrez modifier le fichier directement à partir d'un FTP, ou le supprimer, puis le modifier à partir de votre plugin.

Tester votre fichier robots.txt

Il est possible de tester votre fichier robots.txt WordPress dans la Google Search Console pour vous assurer qu’il est correctement configuré. Cet outil de test vous indique si votre fichier robots.txt empêche les robots de Google d’explorer des URL spécifiques sur votre site avec éventuellement les erreurs et avertissements qu’il trouve.

tester votre fichier robots txt
Tester votre fichier robots.txt à partir de l’outil de test proposé par Google

Vous pouvez également vérifier si vos URLs importants sont bien explorées par Google en les collant directement  dans l’outil d’inspection d’ URL de la Search Console. S’il est bloqué par robots.txt, vous devriez voir un message comme ceci «Bloqué par le fichier robots.txt»

Meilleures pratiques sur l’utilisation du fichier robots.txt

Vous pouvez optimiser les performances de votre fichier robots.txt en respectant ces recommandations:

  • Bloquez uniquement les pages qui n’ont pas de valeur niveau SEO comme les pages de connexion, remerciement..; 
  • Ecrivez chacune de directive en tenant compte de la casse pour être sûr que les robots les comprennent bien;
  • Utilisez un seul groupe de directives par agent utilisateur;
  • Soyez aussi spécifique que possible;
  • Faites toujours un test après la configuration de votre fichier robots.txt pour être certain que vous n’avez rien bloqué par accident ;
  • N’utilisez pas la balise noindex dans votre fichier robots.txt car ce format n’est plus pris en charge par Google par exemple
  • Veillez à ne pas bloquer les fichiers JavaScript et CSS de votre site ;
  • Placez toujours le fichier robots.txt dans le répertoire racine de votre site ;
  • Veillez à bien nommer votre fichier “robots.txt” si non celui-ci ne sera pas pris en charge par les robots;
  • Ajoutez l’emplacement de votre plan de site à votre fichier robots.txt.

Quelques erreurs à éviter sur votre fichier robots.txt

Erreur n ° 1 – Utiliser Robots.txt pour empêcher l’indexation du contenu

Si vous «interdisez» l’accès à un dossier dans le fichier Robots.txt, les robots légitimes ne l’exploreront pas. Mais cela ne garanti pas que votre dossier ne sera pas indexé. Les robots exploreront le contenu du dossier s’il est lié à des sources externes. Donc si un autre site renvoi un lien vers un dossier bloqué dans votre fichier robots.txt, les bots le suivront à travers un index.

Vous pouvez ajouter une balise meta noindex pour empêcher les robots de l’indexer.

<meta name = "robots" content = "noindex">

Remarque: si vous utilisez un plugin WordPress tel que RankMath, Yoast SEO ou All in One SEO; vous pouvez le faire sans modifier aucun code directement dans les paramètres de configuration d’une page ou article. 

Erreur ° 2 – Utiliser Robots.txt pour protéger le contenu privé

Si vous avez du contenu privé tel sue des PDF, cours au format vidéo le blocage du répertoire via le fichier Robots.txt vous aidera certes à ne pas l’afficher dans les résultats de la SERP, mais ce n’est pas suffisant. N’oubliez pas que votre fichier robots.txt peut être visible de tous. Cela dit en appliquant directement des restrictions à des ressources pareilles les personnes qui s’intéressent à votre fichier robot.txt pourront avoir accès facilement à votre contenu privé.

Dans ce cas l’idéal serait de protéger votre contenu privé à l’aide d’une connexion d’identification.

Erreur n ° 3 – Utiliser Robots.txt pour empêcher le contenu dupliqué d’être indexé

On ne le dira jamais assez, le contenu en double est un ennemi juré pour vos efforts SEO. Il peut être tentant d’utiliser le fichier robots.txt pour empêcher les agents utilisateurs d’explorer vos contenus dupliqués. Encore une fois, il n’y a aucune garantie que les robots des moteurs de recherche ne trouveront pas ces contenus via des sources externes.

Les meilleures pratiques en ce qui concerne les contenus dupliqués restent de:

  • Supprimer tout simplement le contenu double
  • Créer des redirection 301 pour rediriger les robots d’indexation et les visiteurs vers le contenu qui vous semble plus original
  • Utiliser la balise rel = « canonical » pour indiquer au moteurs de recherche quelle est l’URL d’origine d’une page spécifique.

Conclusion

Nous voici arrivés au terme de notre voyage. Les fichiers robots.txt même s’ils ne sont pas indispensables pour votre référencement ils peuvent jouer un rôle majeur sur la manière dont les moteurs de recherche exploitent votre site et optimiser vos budgets de crawl.

Nous avons fait le tour et vous devriez être en mesure de savoir ce qu’est un fichier robots.txt, comment le trouver, le créer ou le modifier sur la base de quelques erreurs courantes.

J’espère que ce guide vous a plu. N’hésitez pas à me laisser un commentaire si vous avez d’autres questions sur l’utilisation de votre fichier robots.txt WordPress.

Je serai également ravi de savoir comment vous avez configuré votre fichier robots.txt et quelles ont été vos motivations.

Articles récents

Guide Complet Des Fichiers Sitemaps WordPress

Le sitemap fait parti du protocole d’inclusion qui fournit aux moteurs de recherche des informations détaillées sur l’ensemble des pages d’un site, leurs relations internes et leurs contenus (images, vidéos…) afin de garantir à ceux-ci la possibilité d’être facilement indexer et référencer dans les résultats de recherche.

Google Search Console – Le Guide Complet 2021

La Google Search console vous semble compliquée à utiliser ? Dans notre guide complet, vous découvrirez pas à pas son fonctionnement, comment la configurer sur votre site WordPress et comment en tirer profil de ses métriques pour améliorer votre positionnement Google dans la SERP.

L’essentiel sur les erreurs 404 pour le SEO

Les erreurs 404 peuvent être nocives pour la performance SEO et UX de votre site. Découvrez dans cet article leur impact sur votre site, comment les trouver, comment les corriger.

10 Meilleurs Logiciels D’infographie (2021)

Il existe plusieurs logiciels d'infographie disponibles sur le marché avec ensemble de fonctionnalités donnant des capacités infinies en matière de création. Les visuels peuvent être d'une grande valeur pour votre communication. C'est ce que nous révèlent ces quelques...

Google Maps, Comment ajouter votre entreprise en 8 étapes

Lorsque vous possédez un business ou commerce local, travailler sur votre référencement local est essentiel si vous voulez accroître rapidement la visibilité de votre entreprise. Une des premières choses à faire est de créer votre fiche Google My Business afin d’être...

Optimisation des Images SEO : Guide complet 2021

L'optimisation des images est d'une grande importance dans l'amélioration technique du référencement d'un site web. Comme le dit l’adage, une image vaut mille mots. Il est donc important d’avoir un regard attentif sur ce sujet....

Meilleurs banques d’images gratuites

Il peut être angoissant de trouver de belles images lorsqu’on lance dans un projet. Cette liste des meilleurs banques d’images gratuites vous faciliter la vie !

Bonjour, je suis Kevin Tsamo

Bonjour, je suis Kevin Tsamo

Passionné de nouvelles technologies et de Marketing Digital, j’ai créé ce blog dans le but de partager mes expériences et découvertes en matière de digital.

Articles liés

0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.