Posteamelo

El archivo robot.txt será lo primero que la spider intentará localizar en nuestro sitio, lo que busca es ver en un archivo que partes de un sitio puede indexar y cuales no. Así que aquí será donde le indicaremos que puede o no puede indexar, más adelante comentaré la posibilidad de incluir una etiqueta meta para hacer que no nos indexe una página en particular.

Discriminar entre Robots

El archivo robot.txt seguira los estándares del protocolo de exclusión de robots. La primera parte en este archivo hará referencia al agente de usuario, User-agent, esta etiqueta se usará para indicar que robots pueden o no pueden pasar a determinados sitios.
User-agent: *
El asterisco, indicara que todos los robot tienen que seguir las ordenes que se le dan a continuación. Cómo he indicado se puede indicar que robots pueden pasar o no, esta es una lista de los nombres que tendríamos que añadir a User-agent:

Google: Googlebot
Bing: MSNbot
Yahoo: Yahoo SLURP o sólo SLURP

Estos son los principales, de esta forma esta primera sentencia quedaría así, para indicar al robot de google que no indexe:

User-agent: Googlebot

Deshabilitar Carpetas

A continuación vamos a indicar que es lo que no tiene que indexar, esto se hará con la orden Disallow:, por ejemplo, no queremos que no indexe lo que esta contenido en la campeta de temporales de nuestro sitio, la carpeta es /tmp/, la orden la formularíamos así:

Código PHP:
Disallow: /tmp/

Podemos ir añadiendo consecutivamente cuales son las partes que estan desabilitadas para la indexación de las spider,
Disallow: /private/,
Disallow: /cache/, etc.

Deshabilitar Links

Otra orden que podemos indicar a los robots es que no indexen los link de una determinada página, imaginemos que el contenido es importante y queremos que no lo tenga en cuenta, pero hemos incluido multitud de enlaces porque es una página de recursos y no queremos que lo siga, la página se llama recursos.html, con esto iremos al archivo robots.txt y añadiremos la siguiente orden:

Código PHP:
Disallow: /links/recursos.html

Dejaremos inhabilitados todos los link de esa página para los indexizadores, pero el contenido si que lo tendrán disponible. En el caso en el que queramos desactivar una pagina dentro de nuestro sitio desde robots.txt, tendrémos que tener en cuenta los enlaces que provienen de otras páginas, quiere decir que si deshabilitamos una página de robots.txt, que esta siendo linkeada desde otros sitios, lo más probable que el robot acabe indexando la página que hemos intentado sacar de la indexación. Es importante tener esto en cuenta y solamente desactivar desde robots.txt las páginas que realmente no tienen una importancia vital en nuestra web, cómo contacto, etc.

Establecer un horario para Robots

Otro uso de robots.txt, sería indicarle a los robots cuando pueden indexar el sitio, imaginemos que tenemos nuestro sitio en un servidor con limitación de caudal, tenemos observado que ha determinadas horas el pico de usuarios de la web acaban con nuestro ancho de banda, tenemos por lo tanto preveninos para que los robots no accedan en esos momentos. La orden quedaría de la siguiente forma:
Allow: 12pm - 7pm
Permitiremos así que los robots sólo accedan en este horario, no causando molestias a los usuarios en los picos de mayor tráfico.
Distintas ordenes, estructura correcta
Los forma en la que los robots leen el archivo robots.txt, es fundamental para construir las ordenes, el robot, no leerá todo el archivo si localiza en primer lugar las directrices que tiene que seguir. Un ejemplo práctico, tenemos la hoja de contacto, que no queremos que sea indexada, en particular por el robot de google, los demás robot lo podrán indexar.

¿Cómo realizamos esa formulación?

Forma erronea

Código PHP:
User-Agent: *
Disallow: /tmp/
User-Agent: Googlebot
Disallow: /tmp/
Disallow: /contacto.html

Con este archivo realmente lo que estamos diciendo es que todos los robots no pueden indexar la carpeta /tmp/, al leer esto el Googlebot dejará de leer y comenzará a indexar el sitio.

Forma Correcta

Código PHP:
User-Agent: Googlebot
Disallow: /tmp/
Disallow: /contacto.html
User-Agent: *
Disallow: /tmp/

De esta forma el Googlebot leera lo que no puede indexar y comenzará a indexar, los demás robots buscarán la orden con asterisco que le esta indicando que no pueden leer y saltarán a indexar nuestro sitio. Es importante recordar que tenemos que ir de lo más específico a lo más general.

Metaetiqueta robots

Otra forma de indicar que tiene que hacer un robot con una página es incluir la metaetiqueta robots en la cabezera de la página, bastante útil si no tenemos acceso directo a nuestro servidor, la etiqueda se formularía de la siguiente forma:

Código:
<meta name="robots" content=" vacio de momento">

Cómo con el archivo robots con esta etiqueta le indicaremos a los robot que hacer con esta página y esto se lo indicaremos en el campo content, tenemos varios componentes:
index, el robot indexará la página.
follow, el robot seguirá los enlaces.
noindex, no indexará la página.
nofollow, el robot no seguirá los enlaces.
Una formulación completa de esta meta etiqueta en la que indicaremos al robot que indexe pero no siga los link sera:

Código PHP:
<meta name="robots" content="index, nofollow">

Spambots

Por último mencionar que ninguno de los spambots harán caso a todas las indicaciones que aquí hagamos, ya que no van a buscar nunca este archivo, su tarea no es esa, sino rastrear todo el sitio en busca de un direcciones de correo, debilidades de la web o para lo que hayan sido programados.

Reflexiones Seo sobre robots.txt

Todas estas formas que he expuesto son usadas para poder controlar que queremos que sea indexado, la cuestión principal para un seo será si en los casos que se le indica a los robots, ya sea por la metaetiquetas o a través del archivo robot.tx, que no sigan a los enlaces si realmente lo harán o nos bajará la potencia de los otros enlaces por que cuenta con estos, aún habiendole indicado que no lo haga. ¿Qué pensais?

Configurar Tus "Robots.txt"

Dejá tu comentario

Autor del Post