Qu'est-ce que le fichier robots.txt? Comment l'utiliser?

Tout savoir sur le fichier robots.txt

Le fichier robots.txt est un petit fichier que l'on retrouve généralement à la racine de son site web. Robots.txt donne des indications aux robots de crawl des moteurs de recherche sur les zones de votre site à indexer ou pas. Il peut-être utile pour le référencement de sites web. 

Robots txt

Comment se présente le fichier robots.txt

Vous trouverez généralement le fichier robots.txt à cette adresse : https://www.example.com/robots.txt. Il s'agit, comme l'extension .txt l'indique, d'un fichier texte facilement modifiable avec un logiciel comme Bloc-notes ou Notepad++ par exemple. Son nom doit être obligatoirement en minuscule.

A quoi sert le fichier robots.txt précisément?

Robots.txt donne l'instruction aux robots d'accéder ou pas à une page ou tout un dossier de votre site internet. Robots.txt peut donner des instructions selon le nom d'un robot. Un robot de crawl peut-être aussi appelé "agent" ou "spider". 

Vous ne voulez pas qu'une partie de votre site apparaisse en ligne? Il suffira alors d'indiquer cette instruction sur le fichier robots.txt. Les robots consultent le fichier robots.txt avant d'explorer et d'indexer les pages de votre site. 

Un fichier robots.txt absent ne donne aucune instruction aux robots de crawl. Votre site sera donc accessible pour tous les robots sans exceptions. 

A noter que les robots malveillants ne respectent pas le fichier robots.txt.

Comment donner des instructions au fichier robots.txt

Voici le contenu d'un fichier robots.txt basique :

User-agent: *   ➔ Cette ligne s'adresse à tous les robots de crawl qui respectent le fichier robots.txt
Allow: /           ➔ cette directive autorise tous les robots à accéder et indexer l'ensemble du site web sans restrictions 
Sitemap: https://www.blogtoo.net/sitemap.xml    cette ligne indique l'emplacement du sitemap de votre site

A noter que chaque instruction est indiqué sur une ligne.

Une autre instruction de robots.txt pour explorer et indexer toutes les pages d'un site web

User-agent: *
Disallow: Cette directive est identique à la précédente puisqu'elle ne bloque pas l'accès à l'ensemble du site
Sitemap: https://www.blogtoo.net/sitemap.xml

Bloquer l'accès à un site web via le fichier robots.txt


User-agent: *
Disallow: / Cette directive bloque l'accès à tous les robots d'exploration pour l'ensemble de votre site web
Sitemap: https://www.blogtoo.net/sitemap.xml

Bloquer l'accès à un dossier avec le fichier robots.txt

User-agent: *
Disallow: / dossier/ Cette directive bloque l'accès à tous les robots d'exploration pour l'ensemble de ce dossier de votre site web
Sitemap: https://www.blogtoo.net/sitemap.xml

Bloquer l'accès à une page avec le fichier robots.txt

User-agent: *
Disallow: / info.html Cette directive bloque l'accès à tous les robots d'exploration pour la page info.html de votre site web
Sitemap: https://www.blogtoo.net/sitemap.xml

Autoriser l'accès à un dossier mais pas à une page grâce au fichier robots.txt

User-agent: *
Disallow: / info.html
Allow: /dossier/
Sitemap: https://www.blogtoo.net/sitemap.xml


Bloquer l'accès à une page pour le robot de crawl Google avec le fichier robots.txt

User-agent: Googlebot
Disallow: / info.html Cette directive bloque l'accès au robot d'indexation de Google pour la page info.html de votre site web
Sitemap: https://www.blogtoo.net/sitemap.xml


Post a Comment

Plus récente Plus ancienne