« 6 Raisons Indiscutables Pour Commenter Les Autres Blogs | Home | 5 dangereux outils SEO à ne pas mettre entre toutes les mains »

juil 08 2008

Ce que votre fichier Robots.txt peut apprendre à vos concurrents.

Posté Par SeoMan a 0:15 Dans Referencement, SEO

Première visite ici? Suivez les articles du blog via RSS. Merci pour votre visite!

robots.txt seo serp sem htaccess

Vous êtes vous déjà posé des questions sur votre robots.txt ?Comment les bots utilisent t il ce fameux robotos.txt , il est probable que depuis sa création vous n’y avez pas jeté un seul coup d’œil.Il est grand temps de le redécouvrir et de voir comment les bots le voient, et surtout ce que vos concurrents peuvent y découvrir….
Vous seriez surpris(e) du nombre de sites de grandes boites qui utilisent le fichier robots.txt juste comme moyen pour éloigner les bots des moteurs de recherche de certains répertoires sur leur site, mais ce qu’ils oublient c’est qu’ils viennent de publier des clés pour accéder à ces répertoire qu’ils souhaitent cacher à leurs concurrents .Comment ca ?Parceque beaucoup de personnes créent leurs robots.txt pensant que les bots n’indexant pas ces pages,personne ne les trouvera…mais quand vous incluez ces répertoires dans votre fichier robots.txt, vous dites haut et fort aux personnes réelles et mal intentionnées exactement les répertoires que vous souhaitez garder secret surtout que la majorité de ces répertoires ne sont pas protégés par du htacess ou par un login/mdp.
Un autre point que les personnes oublient un peu vite en préparant leurs robots.txt pour préparation d’un point non encore annoncé sur leur site et en préparant leurs optimisation SEO en avance de phase, c’est de divulguer des informations un peu trop vite.bonjour la concurrence et les lancements ratés à cause d’un robots.txt mal protégé.Idéalement pensez toujours à protéger votre robots.txt par un mot de passe.
Vous ne souhaitez plus vous soucier du fichier robots.txt ?relisez le attentivement et notez les répertoires top secret à exclure, ensuite retirer ces répertoire du robots.txt , rajouter une protection à ces pages (répertoire) et rajouter le meta tag(html) robots sur chacune de ces pages(HEAD) en le customisant selon ce que l’on veut avoir :

<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">

<META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Si vous travaillez sur une nouveauté pour votre site mais qui fait l’objet d’un secret concurrentiel ?Toujours protéger votre repertoire par un mot de passe (htacess) .Pour les projets stratégiques, la meilleure des solutions est de le garder offline jusqu’a la derniere minute.
Toujours manœuvrez le fichier robots.txt avec délicatesse sous peine de divulguer des informations concurrentielles à des boites concurrentes et pensez à le faire faire par des experts pour ne pas avoir l’effet inverse, il est arrivé qu’un fichier robots.txt mal écrit interdise le référencement de tout le site aux moteurs de recherche.Dernier point, pensez à jeter un petit coup d’œil au robots.txt de certains grands sites, vous seriez surpris du nombre d’infos intéressantes qu’on peut y déceler…

Si ce post vous a intéressé n’hésitez pas à vous abonnez aux flux RSS flux rss seo adsense referencement ou les recevoir directement par Mail 

@+

Related Posts Plugin for WordPress, Blogger...


4 Commentaires to “Ce que votre fichier Robots.txt peut apprendre à vos concurrents.”

  1. Fil Verton 08 juil 2008 at 4:55

    Comment faire pour que le robot détecte un lien actif sur tous les types de blog et non sur un seul ?
    Par exemple,le robot de technorati ne détecte que les liens de bloglemonde (et quelques uns) et non hautetfort ?

  2. SeoManon 08 juil 2008 at 19:51
    @filvert :
    ce que je comprends de ta question , c’est que certains crawler ne visitent pas forcément certains blogs ou nouveaux posts , pour hautefort qui est sur dotclear
    voila une liste de ping xml à rajouter
    blogbuzzmachine - http://rpc.blogbuzzmachine.com/RPC2
    topicexchange - http://topicexchange.com/RPC2
    google blog search - http://blogsearch.google.com/ping/RPC2
    pingomatic - http://rpc.pingomatic.com/
    dotclear - http://services.dotclear.net/ping

    pour technorati à la différence google l’indexation se fait sur la base du ping xml.
    j’ai par contre ma petit idée pour les blogs le monde : ils sont sous wordpress qui est bien mieux outillé en terme de ping je vous conseilles à l’occassion le plugin de ping sous wordpress http://www.maxblogpress.com/plugins/mpo/mpo-use/

    un conseil, passes en hébergement propre plutôt que sur des plateformes de blogging comme ca tu as une liberté plus grande sur ce type de problématiques.
    dis moi si ca répond à ta question ?
    @+

  3. Jean Lucon 12 juil 2008 at 15:27

    Bonjour,

    “Idéalement pensez toujours à protéger votre robots.txt par un mot de passe”

    Comment faire pour protéger le fichier robots.txt à la racine du site avec un mot de passe ?
    merci

  4. SeoManon 12 juil 2008 at 16:00
    @Jean Luc
    Pas de possibilité de le protéger à ma connaissance à la racine sinon il est inutile.
    Pour éviter tout de même de donner les paths des répertoires sensibles dans ce robots.txt , les répertoires type admin ou autres ne doivent pas y étre mentionnés , les protéger par un .htacess et ne pas mettre de lien depuis le front vers ces répertoires .
    Une autre possiblité un peu hard est de n’autoriser la lecture du robots.txt que pour les crawlers…et ils sont nombreux et relativement volatiles , dur dur de maintenir une liste à jour.
    pour creuser le .htacess
    http://www.csoft.net/docs/htaccess.html.fr

    @+