Vidéo: Comment OPTIMISER LE CRAWL de Google ? - Hacking SEO 2025
Vous pouvez utiliser un fichier texte de robot pour empêcher un moteur de recherche d'explorer votre site Web ou une partie de votre site. Par exemple, vous pouvez avoir une version de développement de votre site Web où vous travaillez sur les modifications et les ajouts pour les tester avant qu'ils ne deviennent une partie de votre site Web en direct. Vous ne voulez pas que les moteurs de recherche indexent cette copie "en cours" de votre site Web car cela entraînerait un conflit de contenu dupliqué avec votre site Web actuel. Vous ne souhaitez pas non plus que les utilisateurs trouvent vos pages en cours. Vous devez donc empêcher les moteurs de recherche de voir ces pages.
Le travail du robot texte consiste à donner aux moteurs de recherche des instructions sur ce que ne devrait pas être sur votre site Web. Ceci est un fichier texte simple que vous pouvez créer en utilisant un programme comme le Bloc-notes, puis enregistrez avec le nom de fichier robots. SMS. Placez le fichier à la racine de votre site Web (par exemple www. votredomaine .com / robots.txt), où les araignées s'attendent à le trouver. En fait, chaque fois que les moteurs de recherche viennent sur votre site, la première chose qu'ils recherchent est le fichier texte de votre robot. C'est pourquoi vous devriez toujours avoir un fichier texte robots sur votre site, même s'il est vide. Vous ne voulez pas que la première impression des araignées de votre site soit une erreur 404 (l'erreur qui survient lorsqu'un fichier est introuvable).
Avec un fichier texte robots, vous pouvez exclure sélectivement des pages, des répertoires ou le site entier. Vous devez écrire le code HTML juste, ou les araignées l'ignorent. La syntaxe de commande que vous devez utiliser provient du protocole d'exclusion des robots (REP), qui est un protocole standard pour tous les sites Web. Et c'est très exact. seules les commandes spécifiques sont autorisées, et elles doivent être écrites correctement avec un emplacement spécifique, des majuscules / minuscules, de la ponctuation et des espaces. Ce fichier est un endroit où vous ne voulez pas que votre webmestre soit créatif.
Un fichier texte de robot très simple pourrait ressembler à ceci:
User-agent: * Disallow: / personal /
Ce fichier texte de robots indique à tous les robots des moteurs de recherche qu'ils sont les bienvenus pour explorer n'importe où sur votre site Web sauf pour le répertoire nommé / personal /.
Avant d'écrire une ligne de commande (telle que Disallow: / personal /), vous devez d'abord identifier le (s) robot (s) auquel vous vous adressez. Dans ce cas, la ligne User-agent: * s'adresse à tous les robots car elle utilise un astérisque, connu sous le nom de caractère caractère générique car il représente n'importe quel caractère. Si vous souhaitez donner des instructions différentes à différents moteurs de recherche, comme le font de nombreux sites, écrivez des lignes d'agent utilisateur séparées, suivies de leurs lignes de commande spécifiques.Dans chaque ligne User-agent:, vous remplacez le caractère astérisque (*) par le nom d'un robot spécifique:
User-agent: Googlebot attirerait l'attention de Google.
User-agent: Slurp répondrait à Yahoo!.
Utilisateur-agent: MSNBot adresserait Microsoft Live Search.
Notez que si le fichier texte de votre robot contient des instructions User-agent: * ainsi qu'une autre ligne User-agent: spécifiant un robot spécifique, le robot spécifique suit les commandes que vous lui avez données individuellement au lieu de . instructions plus générales.
Vous pouvez saisir quelques commandes différentes dans un robot. Fichier txt:
-
Hors site entier. Pour exclure le robot de l'ensemble du serveur, utilisez la commande:
Disallow: /
Cette commande supprime toutes les pages Web de votre site de l'index de recherche, alors faites attention pas > Pour ce faire, sauf si c'est ce que vous voulez vraiment. Exclusion d'un répertoire.
-
(Attention, généralement, vous voulez être beaucoup plus sélectif que d'exclure un répertoire entier.) Pour exclure un répertoire (y compris tout son contenu et ses sous-répertoires), placez-le dans les barres obliques: Disallow: / perso /
Hors page.
-
Vous pouvez écrire une commande pour exclure uniquement une page particulière. Vous utilisez uniquement une barre oblique au début et devez inclure l'extension de fichier à la fin. Voici un exemple: Disallow: / private-file. htm
Diriger les araignées vers votre carte du site.
-
En plus de Disallow:, une autre commande utile pour vos efforts SEO spécifie où le robot peut trouver votre plan du site - la page contenant des liens dans votre organisation de site, comme une table des matières: Plan du site: // www. ton domaine. com / sitemap. xml
Il convient de noter qu'en plus des commandes listées précédemment, Google reconnaît également Allow. Ceci est applicable à Google seulement et peut confondre d'autres moteurs, vous devriez donc éviter de l'utiliser.
Vous devez toujours inclure à la fin du fichier texte de votre robot une sitemap: ligne de commande. Cela garantit que les robots trouvent votre carte du site, ce qui les aide à mieux naviguer sur votre site afin que davantage de votre site soit indexé.
Quelques remarques sur la syntaxe du fichier texte des robots:
Les commandes sont sensibles à la casse, vous avez donc besoin d'un D majuscule dans Disallow.
-
Il devrait toujours y avoir un espace après les deux points après la commande.
-
Pour exclure un répertoire entier, placez une barre oblique
-
après ainsi que avant le nom du répertoire. Si vous utilisez une machine UNIX,
-
tout est sensible à la casse. Tous les fichiers non spécifiquement exclus sont disponibles pour spidering et indexation.
-
Pour consulter la liste complète des commandes, des noms de robots et des instructions sur l'écriture de fichiers texte de robots, accédez aux pages Robot Web.
Pour plus de sécurité, faites-le partie de la maintenance hebdomadaire de votre site afin de vérifier le fichier texte de votre robot. C'est un commutateur marche / arrêt si puissant pour les efforts de référencement de votre site qu'il mérite un coup d'oeil régulier pour s'assurer qu'il est toujours "sur" et fonctionne correctement.
