Une méthode permettant de contrôler votre budget de crawl est la configuration du fichier robots.txt WordPress. Ce fichier indique aux moteurs de recherche ce qu’ils doivent ou ne doivent pas explorer et indexer (enregistrer et rendre accessibles au public en tant que résultats de recherche). Les termes «robots», «araignées», «spiders», «bot» dans cet article sont des synonymes.
Bien qu’il ne soit pas indispensable, le fichier Robots.txt WordPress vous donne beaucoup de contrôle sur la façon dont Google et les autres moteurs de recherche peuvent indexer votre site. Lorsqu’il est utilisé correctement, il peut améliorer la fréquence d’exploration de votre site ce qui peut avoir un impact sur vos efforts en terme de SEO. Si vous êtes curieux de savoir comment poursuivez la lecture ! Nous verrons en profondeur les cas utilisations d’un fichier robots.txt, comment le créer et quelques bonnes pratiques pour en tirer profil de vos efforts.
Guide Complet sur les fichiers Robots.txt sur WordPress et leurs impacts SEO
Qu’est ce qu’un fichier robots.txt WordPress?
Un fichier robots.txt est un simple fichier en format texte placé à la racine d’un site. Celui-ci vise à empêcher ou interdire aux robots d’exploration des moteurs de recherche d’indexer certaines parties de votre site WordPress. On comprend par là qu’il s’agit du premier fichier analysé par les moteurs de recherche avant même de commencer l’exploration de vos contenus.
Au tout début d’Internet, chaque programmeur développait des «robots» également appelés «agents utilisateurs» pour explorer et indexer les pages sur le Web. Parfois, ces robots se frayaient un chemin vers les pages ayant un contenu privé et ne voulant pas être visible sur la toile.
Pour résoudre ce problème, Martijn Koster, néerlandais ayant créé le premier moteur de recherche au monde (Aliweb), a proposé un ensemble de normes auxquelles chaque robot devrait adhérer. Ces normes ont été proposées et adoptées en 1994 sous le nom de «Protocole d’exclusion des robots» (REP).
Aujourd’hui même si les robots de moteurs de recherche comme Google, Yahoo et Bing se tiennent aux instructions du fichier, il n’existe aucune garantie qu’un petit bot respecte assurément les instructions du fichier robots.txt. Il est donc conseillé d’utiliser d’autres moyens de blocage comme la protection de fichiers par mot de passe si vous souhaitez protéger vos informations en empêchant leur récupération par les robots d’exploration.
Remarque : Une page bloquée par un robots.txt peut tout de même être indexée les moteurs de recherche sérieux et qui respectent les instructions des fichiers robots.txt
si elle est référencée sur d’autres sites.
Dans les résultats de la recherche, il montrera seulement l’url, généralement le titre ou le snippet n’apparaissent pas.
Le message se lit comme suit:
Une description de ce résultat n’est pas disponible en raison du fichier robots.txt de ce site – en savoir plus.
Pourquoi le fichier robots.txt est-il important en référencement naturel ?
Le robots.txt permet de restreindre l’accès à des parties sensible de votre site, mais pas que. Il est possible de certaines parties ne soit pas significatif pour votre stratégie. L’exclusion des robots sur ces parties de votre site peut s’avérer extrêmement avantageuse pour votre de référencement naturel SEO.
Par exemple:
- Le robots.txt permet d’optimiser les ressources (budget de crawl) des moteurs de recherche en leur empêchant de perdre du temps sur les pages de faible valeur. Cela permet de s’assurer que les moteurs de recherche se concentrent sur l’exploration des pages qui ont de la valeur pour votre entreprise.
- Le fait de bloquer les bots d’exploration permet de limiter l’utilisation des ressources serveur allouées par votre hébergeur. Cette optimisation peut influencer la vitesse de chargement de vos pages par exemple.
- Le robots.txt permet aussi d’indiquer le sitemap aux spiders ce qui permet d’améliorer la vitesse d’indexation de vos pages.
Contenu d’un fichier robots.txt WordPress
Un fichier robots.txt est composé de plusieurs sections de «directives ou instructions», applicable sur chaque agent utilisateur.
Exemple d’un fichier robots.txt WordPress:
Voici à quoi peut ressembler un fichier robots.txt pour un site Web WordPress:
# fichier pour les robots du site http://www.adressedevotresite.com/
User-Agent: *
Disallow: /wp-admin
Allow: /wp-admin/admin-ajax.php
User-Agent: Googlebot-Image
Sitemap: http://www.adressedevotresite.com/sitemap_index.xml
Expliquons l’anatomie de ce fichier robots.txt en nous basant sur l’exemple ci-dessus:
- # indique la présence d’un commentaire
- User-agent : le
user-agent
indique à quels moteurs de recherche les directives qui suivent sont destinées. - Le
*
indique que les directives sont destinées à tous les moteurs de recherche. Disallow
: il s’agit d’une directive indiquant quel contenu n’est pas accessible auuser-agent
auquel s’applique la directive.- Allow : il s’agit d’une directive indiquant quel contenu est accessible au
user-agent
auquel elle s’applique. /wp-admin/
: c’est le répertoire quiuser-agent
.- Sitemap: il s’agit d’une directive indiquant l’emplacement URL du sitemap aux moteurs de recherche.
En résumé: ce fichier robots.txt WordPress indique à tous les moteurs de recherche de ne pas explorer le répertoire /wp-admin/
à l’exception du fichier /wp-admin/admin-ajax.php .
Analysons plus en détail les différents composants des fichiers robots.txt:
Agents utilisateurs ou users agents
L’agent utilisateur est le nom du robot d’exploration spécifique à chaque moteur de recherche. Il existe des centaines d’agents utilisateurs. Voici une liste de noms des agents utilisateurs les plus utilisés.
- Googlebot pour Google
- Googlebot-Image pour Google Image
- Bingbot pour Bing
- Slurp pour Yahoo
- Baiduspider pour Baidu
- DuckDuckBot pour DuckDuckGo
Vous pouvez appliquer des directives sur l’ensemble d’agents utilisateurs en utilisant l’astérisque (*) ou sur des moteurs de recherche spécifiques.
# Directive applicable sur l'ensemble des robots d'exploration
User-Agent: *
# Directive applicable uniquement sur les robots d'exploration Google
User-Agent: Googlebot
Les directives
Les directives sont des règles que vous voulez que les agents utilisateurs appliquent dans le fichier robots.txt. Voici une liste de directives prises en charge par les bots.
Disallow
La directive Disallow est utilisée pour indiquer aux moteurs de recherche de ne pas accéder aux fichiers et aux pages appartenant à un chemin spécifique. Directive pour bloquer votre entier pour chaque moteur de recherche.
User-agent: *
Disallow: /
Allow
La directive Allow permet aux moteurs de recherche d’explorer un sous-répertoire ou une page, même dans un répertoire par ailleurs interdit. Par exemple, vous pouvez empêcher les moteurs de recherche d’accéder à tous les articles de votre blog à l’exception d’un seul.
User-agent: Bingbot
Disallow: / blog
Allow: / blog / post-title /
Directive Sitemap
Cette directive est utilisée pour spécifier l’emplacement de votre (vos) sitemap (s) aux moteurs de recherche.
Si vous avez déjà soumis vos sitemaps via la Search Console, cela est quelque peu redondant pour Google. Cependant, il indique aux autres moteurs de recherche où trouver votre plan du site, c’est donc toujours une bonne pratique.
Plan du site: https://www.domain.com/sitemap.xml
User-agent: *
Disallow: / blog /
Allow: / blog / post-title /
Notez que vous n’avez pas besoin de répéter la directive sitemap plusieurs fois pour chaque agent utilisateur. Il est donc préférable d’inclure des directives de plan de site au début ou à la fin de votre fichier robots.txt WordPress.
Crawl-Delay
La directive Crawl-Delay demande au robot d’attendre un certain nombre de secondes après avoir exploré une page. Google ne prend plus en charge cette directive, contrairement à Bing et Yandex. Voici un exemple de fichier robots.txt utilisant la directive Crawl-Delay
User-agent: Slurp
Crawl-delay: 5
Visit-time
L’instruction Visit-time indique à quel moment les robots peuvent explorer votre site web. Cela peut être utile si vous ne voulez pas que les robots viennent explorer votre durant les heures où le trafic « humain » est le plus élevé.
User-agent: *
Visit-time: 2100-0500 # only visit between 21:00 (9PM) and 05:00 (5AM) UTC (GMT)
Comment trouver votre fichier robots.txt WordPress ?
Pour accéder ou vérifier si votre site possède un fichier robots.txt il suffit de vous rendre à l’adresse monsite.com/robots.txt à partir de votre navigateur. Pour mon cas, mon fichier se trouve à l’adresse kevintsamo.com/robots.txt.
Si vous obtenez une page d’erreur 404 à cette adresse cela signifie tout simplement que votre site WordPress ne dispose pas de fichier robots.txt.
Si vous obtenez une page blanche cela signifie que votre site possède un fichier robots.txt vide. Pour exemple au moment ou j’écris cet article, le fichier robots.txt de Disney est vide.
Notez que tout le monde peut accéder à votre fichier « robots.txt » grâce à l’url monsite.com/robots.txt. N’utilisez donc jamais le fichier « robots.txt » pour cacher du contenu sur votre site internet car les utilisateurs et robots malveillants connaîtront exactement les URLs et/ou dossiers que vous souhaitez ne pas indexer.
Comment créer ou modifier votre fichier robots.txt WordPress ?
Si votre site est développé sous une version récente de WordPress celui-ci possède par défaut un fichier robots.txt virtuel. Ce fichier existant et fonctionnel n’est par contre pas accessible depuis votre Cpanel, ce qui veut dire que vous ne pouvez pas le modifier. Pour le faire vous devez créer personnellement votre propre fichier.
Il existe deux possibilités pour la création d’un fichier robots.txt, la méthode manuelle et la méthode automatique à partir de plugins WordPress. Je vous propose de découvrir en détaille.
Créer un fichier robots.txt WordPress manuellement.
Pour créer votre fichier robots.txt manuellement sous WordPress, vous avez besoin d’un éditeur de texte. Je vous recommande Brackets, Notepad++ ou Sublime Text. Si non même l’éditeur classique Bloc-notes de votre SE fera le travail.
Une fois en possession de votre éditeur de texte il vous suffit de définir les directives à respecter par les robots d’exploration et enregistrer votre fichier sous le nom de robots.txt.
À noter que les spiders sont sensible à la casse, ce qui veux dire que si vous ne respecter pas le format de nomenclature ( respect des majuscule et minuscules, instruction par ligne) votre fichier ne sera pas pris en compte ou sera mal compris par les différents agents utilisateurs.
Vous pouvez alors vous connecter à votre serveur à l’aide d’un logiciel client FTP comme Filezilla ou directement depuis votre gestionnaire de fichier et transférer le fichier à la racine de votre site. Cet emplacement (la racine) peut varier d’un hébergeur à un autre. En général, il s’agit du répertoire public_html
. Chez d’autres hébergeurs vous le trouverez sous l’appellation www
.
public_html
depuis le gestionnaire de fichier SiteGroundVoici un petit résumé de ce que vous devez faire pour créer votre fichier robots.txt manuellement à partir de WordPress.
- Installer l’éditeur de texte de votre choix
- Créer un nouveau fichier et définir des directives pour l’ensemble des agents utilisateur en respectant la casse
- Enregistrer votre fichier sous le nom de robots.txt
- Connecter votre serveur à votre client FTP
- Transférer le fichier à la racine de votre serveur
Créer un fichier robots.txt WordPress automatiquement à partir de plugin
Pour vous simplifier la vie, mais aussi si vous n’avez pas accès aux registres de votre site, vous pouvez créer et éditer votre robots.txt WordPress à l’aide d’un plugin. J’aborderai le sujet avec vous principalement sur deux plugins (que je trouve meilleurs) mais le principe reste le même dans l’ensemble. Comme prérequis vous devez avoir installer et activer le plugin que vous aurez choisi.
Créer et modifier le fichier robots.txt à l’aide de RankMath plugin
RankMath est un plugin SEO que j’affectionne particulièrement pour sa simplicité et ses multiple fonctionnalités. Rendez-vous dans «réglages généraux» depuis votre menu WordPress ensuite cliquez sur «Modifier le robots.txt». Vous allez tomber sur les directives par défaut crées lors de votre installation WordPress.
Modifier le fichier selon vos préférences en ajoutant des directives à suivre par les différents agents utilisateurs et cliquer sur «Sauvegarder les modifications». Le tout est joué! Votre fichier robots.txt est fonctionnel.
Créer et modifier votre fichier robots.txt WordPress à l’aide du plugin Yoast SEO
Pour créer votre fichier robots.txt WordPress à partir de YOAST SEO, il vous suffit de vous rendre dans les paramètres de l’extension et sélectionner «Outils» puis « Éditeur de fichiers» et attendre le chargement de la nouvelle fenêtre qui s’affiche.
Une fois l’éditeur ouvert vous pouvez renseigner vos directives. Si vous n’avez pas encore de fichier dédié, cliquez sur le bouton «Créer le fichier robots.txt» pour en créer un. Si nos modifier au besoin.
NB: Si un fichier robots.txt est déjà présent dans le dossier racine de votre site, l'option de modification à partir de plugin n’aura aucun effet sur les robots d'exploration. Vous devrez modifier le fichier directement à partir d'un FTP, ou le supprimer, puis le modifier à partir de votre plugin.
Tester votre fichier robots.txt WordPress.
Il est possible de tester votre fichier robots.txt WordPress dans la Google Search Console pour vous assurer qu’il est correctement configuré. Cet outil de test vous indique si votre fichier robots.txt empêche les robots de Google d’explorer des URL spécifiques sur votre site avec éventuellement les erreurs et avertissements qu’il trouve.
Vous pouvez également vérifier si vos URLs importants sont bien explorées par Google en les collant directement dans l’outil d’inspection d’ URL de la Search Console. S’il est bloqué par robots.txt, vous devriez voir un message comme ceci «Bloqué par le fichier robots.txt»
Meilleures pratiques sur l’utilisation du fichier robots.txt WordPress.
Vous pouvez optimiser les performances de votre fichier robots.txt en respectant ces recommandations:
- Bloquez uniquement les pages qui n’ont pas de valeur niveau SEO comme les pages de connexion, remerciement..;
- Ecrivez chacune de directive en tenant compte de la casse pour être sûr que les robots les comprennent bien;
- Utilisez un seul groupe de directives par agent utilisateur;
- Soyez aussi spécifique que possible;
- Faites toujours un test après la configuration de votre fichier robots.txt pour être certain que vous n’avez rien bloqué par accident ;
- N’utilisez pas la balise noindex dans votre fichier robots.txt WordPress car ce format n’est plus pris en charge par Google par exemple
- Veillez à ne pas bloquer les fichiers JavaScript et CSS de votre site ;
- Placez toujours le fichier robots.txt dans le répertoire racine de votre site ;
- Veillez à bien nommer votre fichier “robots.txt” si non celui-ci ne sera pas pris en charge par les robots;
- Ajoutez l’emplacement de votre plan de site à votre fichier robots.txt WordPress.
Quelques erreurs à éviter sur votre fichier robots.txt
Erreur n ° 1 – Utiliser Robots.txt pour empêcher l’indexation du contenu
Si vous «interdisez» l’accès à un dossier dans le fichier Robots.txt de votre site, les robots légitimes ne l’exploreront pas. Mais cela ne garanti pas que votre dossier ne sera pas indexé. Les robots exploreront le contenu du dossier s’il est lié à des sources externes. Donc si un autre site renvoi un lien vers un dossier bloqué dans votre fichier robots.txt, les bots le suivront à travers un index.
Vous pouvez ajouter une balise meta noindex pour empêcher les robots de l’indexer.
<meta name = "robots" content = "noindex">
Remarque: si vous utilisez un plugin WordPress tel que RankMath, Yoast SEO ou All in One SEO; vous pouvez le faire sans modifier aucun code directement dans les paramètres de configuration d’une page ou article.
Erreur ° 2 – Utiliser Robots.txt pour protéger le contenu privé
Si vous avez du contenu privé tel sue des PDF, cours au format vidéo le blocage du répertoire via le fichier Robots.txt vous aidera certes à ne pas l’afficher dans les résultats de la SERP, mais ce n’est pas suffisant. N’oubliez pas que votre fichier robots.txt peut être visible de tous. Cela dit en appliquant directement des restrictions à des ressources pareilles les personnes qui s’intéressent à votre fichier robot.txt pourront avoir accès facilement à votre contenu privé.
Dans ce cas l’idéal serait de protéger votre contenu privé à l’aide d’une connexion d’identification.
Erreur n ° 3 – Utiliser Robots.txt pour empêcher le contenu dupliqué d’être indexé
On ne le dira jamais assez, le contenu en double est un ennemi juré pour vos efforts SEO. Il peut être tentant d’utiliser le fichier robots.txt pour empêcher les agents utilisateurs d’explorer vos contenus dupliqués. Encore une fois, il n’y a aucune garantie que les robots des moteurs de recherche ne trouveront pas ces contenus via des sources externes.
Les meilleures pratiques en ce qui concerne les contenus dupliqués restent de:
- Supprimer tout simplement le contenu double
- Créer des redirection 301 pour rediriger les robots d’indexation et les visiteurs vers le contenu qui vous semble plus original
- Utiliser la balise rel = « canonical » pour indiquer au moteurs de recherche quelle est l’URL d’origine d’une page spécifique.
Conclusion
Nous voici arrivés au terme de notre voyage. Les fichiers robots.txt même s’ils ne sont pas indispensables pour votre référencement ils peuvent jouer un rôle majeur sur la manière dont les moteurs de recherche exploitent votre site et optimiser vos budgets de crawl.
Nous avons fait le tour et vous devriez être en mesure de savoir ce qu’est un fichier robots.txt WordPress, comment le trouver, le créer ou le modifier sur la base de quelques erreurs courantes.
J’espère que ce guide vous a plu. N’hésitez pas à me laisser un commentaire si vous avez d’autres questions sur l’utilisation de votre fichier robots.txt WordPress.
Je serai également ravi de savoir comment vous avez configuré votre fichier robots.txt et quelles ont été vos motivations.