Skip to content
Tags

Robots.txt

July 25, 2016

Beaucoup de gens connaissent le fichier robots.txt. Placé dans le répertoire racine du serveur WEB, il permet d’indiquer aux moteurs de recherche les répertoires à éviter.

Bien entendu, ce fichier n’est donné qu’à titre indicatif et seuls les moteurs de recherche sérieux le prennent en compte. Il est relativement facile de créer un fichier robots.txt

Dans le cas de mon site WEB, celui contient les informations suivantes:

User-agent: *
Disallow: /cgi-bin/
SITEMAP: http://www.koikonfait.com/sitemap.xml

Pas davantage. Pour mieux comprendre:

La partie “User-agent” permet de définir quels user agents a le droit de passer et lequel sera interdit (comprendre: persona non grata). À priori, il est contre-productif d’interdire l’accès à certains moteurs de recherche. Si vous aimez la politique du fou, vous pouvez interdire à Google d’indexer votre site. Pourquoi pas? Google respecte vos prescriptions à la lettre.

Idem pour les autres moteurs de recherches. Encore faut-il avoir avoir accès aux logs de votre serveur pour connaître la liste des robots qui passent sur votre site. Si votre site est hébergé, il est probable que vous n’ayez pas accès à l’information. Dans le cas où vous héberger votre site, cette information se trouve généralement dans /var/logs/apache2.

Certains robots semblent stupides voire gênants (je citerai majestic par exemple). D’autres peuvent surprendre (comme Baidu, le moteur de recherche chinois). D’autres plus justifiés comme BingBot (le moteur de recherche de Microsoft). Personnellement, je ne fais pas de sectarisme: tout le monde a accès.

En revanche, j’ai interdit l’accès au répertoire “/cgi-bin/” qui est censé recevoir des programmes exécutables. C’est une vieille habitude qui n’a aucun sens car ce répertoire est vide sur mon serveur!

Il existe également une directive très intéressante que, personnellement, je n’utilise pas:

Crawl-delay: 10

Cette information permet d’indiquer aux moteurs de recherche d’attendre 10 secondes entre chaque requête. Cela permet de limiter la charge du serveur. Personnellement, je n’ai pas pris la peine de régler ce paramètre. Je ne suis pas sûr qu’il soit respecté. Mais la raison principale, c’est que mon serveur est prévu “pour tenir le choc”. Est-ce que les moteurs de recherche sont des sauvages?

Oui pour Bing, le moteur de recherche de Microsoft. Il est capable d’envoyer 5 requêtes dans la même seconde. Pas très fair-play. De son côté, Google va être incroyable. Ses requêtes sont régulièrement espacées. Généralement d’au moins 5 secondes (avec des exceptions). Dans le cas de redirection (type 301 ou 302), il ne va pas se forcer à lire la page immédiatement, il va la mettre dans sa liste “à scanner”. Je n’imagine pas l’algorithme mis en place mais il présente de gros avantages: fair-play avec le site WEB et économique pour la bande passante Google. Une stratégie “gagnant-gagnant”.

 

Advertisements

From → Webmaster

Leave a Comment

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: