Cómo configurar correctamente el fichero robots.txt

como configurar robots.txt

Comparte en tus redes...

Los buscadores siempre intentarán indexar el máximo de contenido de una web, porque lo que de alguna manera tenemos que indicarle que partes debe indexar y que partes son privadas. Para bloquear el acceso a determinadas zonas podemos usar el fichero robots.txt. El único inconveniente que tiene la configuración de este fichero es que “damos pistas” a curiosos de qué zonas de nuestra web son privadas. Ojo con esto.

 

Qué es el archivo robots.txt y para qué sirve

Cómo ya sabemos las arañas de Google los los programas que el buscador utiliza para rastrear Internet. Cuando una araña llega a tu sitio lo primero que hace es analizar el archivo robots.txt y “seguir las instrucciones“. En este fichero le indicaremos algunas cosas muy importantes a las arañas como: zonas prohibidas, frecuente de rastreo aconsejada, ubicación del fichero sitemap.xml de nuestra web, etc.

Eso si, los ficheros robots.txt no son la panacea. Algunas arañas pueden ignorar las instrucciones (sobre todo el malware) y además es público, por lo que cualquiera puede verlo tal y como te hemos indicado en el primer párrafo.

 

 

Cómo crear archivo robots.txt

El archivo robots.txt se puede crear con cualquier editor de texto plano, por ejemplo el notepad de Windows. Lo único que hay que hacer es crear un fichero con el nombre “robots.txt” y subirlo mediante FTP a la raíz de nuestra web.

Cada línea del fichero será una instrucción, donde diremos qué zonas son privadas o por ejemplo, dónde está el fichero sitemap.xml de nuestro sitio web. Vamos a ver cuales son los comandos principales para configurar correctamente un archivo robots.txt.

  • User-agent. indica qué tipo de robots debe obecer las instrucciones. Podemos usar “*” para todos o por ejemplo especificar Googlebot, para referirnos  a la araña de Google solamente.
  • Disallow. Deniega el acceso al directorio especificado. Podemos especificar más de uno, cada uno en una línea distinta. También podemos bloquearlo todo con el asterisco “*”.
  • Allow. Funciona exactamente al contrario que Disallow.
  • Sitemap. Sirve para indicar la dirección del fichero sitmap.xml
  • Crawl-delay. INdica al robot el número de segundos que debe esperar entre cada página. Puede ser útil cuando se necesite reducir la carga del servidor.

Vamos a ver algunos ejemplos de configuración, es la mejor forma de entender el funcionamiento del archivo robots.txt

  • Incluir todos los robotsUser-agent: *
  • Especificar el robot de GoogleUser-agent: Googlebot
  • Especificar el robot de BingUser-agent: Bingbot
  • Denegar todo el sitioDisallow: /
  • Permitir todo el sitioAllow: *
  • Denegar un directorioDisallow: /directorio/
  • Denegar directorios que comienzan por “algo”Disallow: /algo*/
  • Denegar una páginaDisallow: /pagina-web.htm
  • Denegar directorios y páginas que comienzan por “algo”Disallow: /algo
  • Denegar la extensión .gifDisallow: /*.gif$
  • Permitir un subdirectorioAllow: /directorio/subdirectorio/
  • Señalar el mapa del sitioSitemap: http://www.example.com/sitemap.xml

 

Validar el archivo

Cuando crees o modifiques el archivo robots.txt, siempre comprueba que los has hecho correctamente. Ten en cuenta que un simple error puede bloquear el acceso de los buscadores a tu sitio web y fastidiar tu visibilidad.

Esto se puede hacer con la herramienta Search Console de Google. Además usa siempre después la función Obtener y Procesar, la opción Explorar como Google, para asegurarte de que no hay recursos bloqueados en tu sitio.

 

 

robots-txt

 

En otro post vamos a ver algo muy interesante… ¿Funciona la desindexación con el archivo robots.txt? Es decir, si deseamos que Google deje de tener acceso a una página que hemos modificado o a un directorio… ¿Es posible hacerlo usando el archivo robots.txt? Pues bien, no se puede.

Si quieres saber como hacerlo correctamente, lee nuestro siguiente post ¿Funciona la desindexación con robots.txt?

 

Leave a comment