Posteamelo

Los archivos robots.txt restringen el acceso a un sitio por parte de los robots de motores de búsqueda que rastrean la Web. Estos robots están automatizados y, antes de acceder a las páginas de un sitio, verifican si existe un archivo robots.txt que les impida el acceso a determinadas páginas. Aunque todos los robots acreditados respetan las directivas del archivo robots.txt, algunos pueden interpretarlas de forma diferente. Sin embargo, el archivo robots.txt no es obligatorio y algunos emisores de spam y otros malhechores pueden ignorarlo. Por este motivo, es recomendable proteger la información confidencial con contraseñas.

Para consultar las URL que Google no ha podido rastrear, accede a la página URL bloqueadas de la sección de estado de las Herramientas para webmasters de Google.

El archivo robots.txt solo es necesario si tu sitio incluye contenido que no quieres que los motores de búsqueda indexen. Si vas a permitir la indexación de tu sitio por completo, el archivo robots.txt no es necesario (ni siquiera uno vacío).

Si bien Google no rastreará ni indexará el contenido de las páginas bloqueadas por robots.txt, sí que indexará las URL que encuentre en otras páginas de la Web. Como consecuencia, la URL de la página y otros datos disponibles públicamente, como el texto de anclaje en enlaces que dirigen al sitio o el título de Open Directory Project ( www.dmoz.org ), podrían aparecer en los resultados de búsqueda de Google.

Para usar un archivo robots.txt, necesitarás tener acceso al directorio raíz de tu dominio (si no estás seguro, consúltalo con tu proveedor de alojamiento web). Si no tienes acceso al directorio raíz de un dominio, puedes restringir el acceso al mismo utilizando la metaetiqueta "robots" .

dijo:
Para impedir que aparezca cualquier contenido de una página en el índice de páginas web de Google, incluso si está vinculado a otros sitios, se puede utilizar una metaetiqueta "noindex" o una etiqueta x-robots-tag. Siempre que Googlebot rastree la página, verá la metaetiqueta "noindex" y no incluirá esa página en el índice de páginas web. La cabecera HTTP "X-Robots-Tag" resulta especialmente útil para limitar la indexación de archivos que no sean HTML, como archivos gráficos y otro tipo de documentos.

Crear un archivo robots.txt

El archivo robots.txt más simple utiliza dos reglas:

User-Agent: el robot al que se aplica la siguiente regla
Disallow: la URL que quieres bloquear

Estas líneas se consideran una única entrada en el archivo. Puedes incluir todas las entradas que quieras, así como varias líneas Disallow y varios user-agents en una misma entrada.

Cada sección del archivo robots.txt es independiente y no se genera a partir de secciones anteriores. Por ejemplo:


User-agent: *

Disallow: /carpeta1/



User-Agent: Googlebot

Disallow: /carpeta2/

En este ejemplo, las únicas URL que no puede rastrear Googlebot son las de /carpeta2/.

User-agents y robots

Un user-agent es un robot específico del motor de búsqueda. La base de datos de robots web incluye numerosos robots comunes. Puedes configurar una entrada para que se aplique a un robot específico (mediante su nombre) o para que se aplique a todos los robots (mediante un asterisco). El aspecto de una entrada que se aplica a todos los robots es el siguiente:


User-agent: *

Google utiliza varios robots diferentes (user-agents). El robot que utilizamos para nuestra búsqueda web es Googlebot. El resto de nuestros robots, como Googlebot-Mobile y Googlebot-Image, siguen las reglas configuradas para Googlebot, aunque también pueden definirse reglas específicas para ellos.
Bloquear user-agents

La línea Disallow indica las páginas que quieres bloquear. Puedes insertar una URL específica o un patrón. La entrada debe comenzar con una barra inclinada (/).

Para bloquear todo el sitio, utiliza una barra inclinada.


    Disallow: /

Para bloquear un directorio y todo lo que contiene, inserta una barra inclinada después del nombre del mismo.


    Disallow: /directorio-sintítulo/

Para bloquear una página, insértala después de la línea Disallow.


    Disallow: /archivo_privado.html

Para eliminar una imagen de Google Imágenes, añade lo siguiente:


    User-agent: Googlebot-Image

    Disallow: /imágenes/perros.jpg

Para eliminar todas las imágenes de un sitio de Google Imágenes, añade lo siguiente:


    User-agent: Googlebot-Image

    Disallow: /

Para bloquear archivos de un determinado tipo (por ejemplo, .gif), añade lo siguiente:


    User-agent: Googlebot

    Disallow: /*.gif$

Para evitar que se rastreen las páginas de tu sitio, sin impedir que se muestren anuncios de AdSense en esas páginas, inhabilita el acceso de todos los robots que no sean de Mediapartners-Google. Esta opción impide que las páginas aparezcan en los resultados de búsqueda, pero permite que el robot Googlebot-Mediapartners las analice para determinar los anuncios que se publicarán. El robot Googlebot-Mediapartners no comparte páginas con el resto de user-agents de Google. Por ejemplo:


    User-agent: *

    Disallow: /



    User-agent: Mediapartners-Google

    Allow: /

Ten en cuenta que en las directivas se distingue entre mayúsculas y minúsculas. Por ejemplo, Disallow: /archivo_privado.asp bloquearía http://www.example.com/archivo_sintitulo.asp, pero permitiría http://www.example.com/archivo_sintitulo.asp. Googlebot ignora los espacios en blanco (en líneas vacías concretas) y las directivas desconocidas del archivo robots.txt.
Googlebot permite enviar archivos de sitemaps mediante el archivo robots.txt.

Concordancia mediante patrones

Googlebot respeta algunas concordancias mediante patrones, aunque no todos los motores de búsqueda lo hacen.

Puedes utilizar un asterisco (*) para que la concordancia se establezca con una secuencia de caracteres. Por ejemplo, para bloquear el acceso a todos los subdirectorios que empiecen por "privado":


    User-agent: Googlebot

    Disallow: /privado*/

Para bloquear el acceso a todas las URL que incluyan un signo de interrogación (?) (más concretamente, cualquier URL que empiece por el nombre de tu dominio, seguido de una cadena, un signo de interrogación y una cadena), añade lo siguiente:


    User-agent: Googlebot

    Disallow: /*?

Para especificar la concordancia con el final de la URL, utiliza $. Por ejemplo, para bloquear una URL que termine en .xls:


    User-agent: Googlebot 

    Disallow: /*.xls$

Puedes utilizar esta concordancia mediante patrones en combinación con la directiva Allow. Por ejemplo, si el signo ? indica el ID de una sesión, puedes excluir todas las URL que lo contengan para asegurarte de que Googlebot no rastree páginas duplicadas. Sin embargo, las URL que finalizan con dicho símbolo podrían ser la versión de la página que quieres incluir. En ese caso, configura tu archivo robots.txt del siguiente modo:


    User-agent: *

    Allow: /*?$

    Disallow: /*?

La directiva Disallow: / *? bloqueará cualquier URL que incluya el símbolo ?. Concretamente, bloqueará todas las URL que comiencen por el nombre de tu dominio, seguido de cualquier cadena, un signo de interrogación y cualquier cadena.

La directiva Allow: /*?$ permitirá cualquier URL que finalice con el símbolo ?. Concretamente, admitirá cualquier URL que comience por el nombre de tu dominio, seguido de cualquier cadena y el símbolo ?, sin caracteres después de este último.

Guarda tu archivo robots.txt descargándolo o copiando el contenido en un archivo de texto y guardándolo como robots.txt. Guarda el archivo en el directorio de nivel superior de tu sitio. El archivo robots.txt debe ubicarse en la raíz del dominio y denominarse "robots.txt". Si se ubica en subdirectorios, no será válido, ya que los robots solo lo buscan en la raíz del dominio. Por ejemplo, http://www.example.com/robots.txt es una ubicación válida, pero http://www.example.com/misitio/robots.txt no lo es.

Algúnos ejemplos más

Si necesitamos impedir que los robots accedan a determinadas secciones del sitio, escribiremos los siguientes comandos:


    User-agent: *

    Disallow: /cgi-bin/

    Disallow: /misc/sitestats/

Si lo que queremos que los robots rastreen sólo una parte de nuestra Web:


    User-agent:slurp.so/

    Disallow: /cgi-bin/

    Disallow: /secure/

    Disallow: /products/

    Disallow:/misc/sitestats/

También tenemos la opción de permitir el acceso a sólo un robot de nuestra preferencia, evitando el ingreso de los otros:


    User-agent: Googlebot/1.0

    Disallow:

    User-agent: *

    Disallow: /

Si lo que queremos es que ningún robot rastree nuestra página:


    User-agent: *

    Disallow: /

(Sitios para crear archivos Robots.txt)

DevTools Robots Generator

(Comprobar Robots.txt)

Robot Check

Robot Checker

Probar un archivo robots.txt

La herramienta de prueba de robots.txt te mostrará si el archivo robots.txt está impidiendo de forma accidental que Googlebot rastree un archivo o un directorio de tu sitio o si está permitiendo que Googlebot rastree archivos que no deben aparecer en la Web. Al introducir el texto de un archivo robots.txt propuesto, la herramienta lo lee de la misma forma que Googlebot y muestra los efectos del archivo y los posibles errores que se hayan detectado.

dijo:
Para probar el archivo robots.txt de un sitio, sigue estos pasos:

En la página principal de las Herramientas para webmasters de Google, haz clic en el sitio que quieras.
En la opción de estado, haz clic en URL bloqueadas.
Si aún no se ha seleccionado, haz clic en la pestaña Probar robots.txt.
Copia el contenido del archivo robots.txt y pégalo en el primer cuadro.
En el cuadro URL, indica el sitio en el que quieras probar el archivo.
En la lista User-agents, selecciona los user-agents que quieras.

No se guardará ninguno de los cambios que realices en esta herramienta. Para guardar un cambio, tendrás que copiar el contenido y pegarlo en el archivo robots.txt.

Esta herramienta proporciona resultados únicamente para los user-agents de Google, como Googlebot. Es posible que otros robots no interpreten el archivo robots.txt del mismo modo. Por ejemplo, Googlebot responde a una definición ampliada del protocolo de robots.txt estándar. Entiende las directivas Allow:, así como algunas concordancias mediante patrones. De esta forma, aunque la herramienta muestre líneas que incluyen estas extensiones como comprendidas, no olvides que esto afecta únicamente a Googlebot, no necesariamente a todos los robots que rastreen tu sitio web.

IMPORTANTE
No todos los motores de búsqueda reconocen el archivo robot.txt. A pesar de que la mayoría lo hace, algunos no.
robots.txt es sólo una petición. Hay algunos robots que de manera inescrupulosa pasan por alto al archivo, y rastrearán nuestro sitio de todas maneras.

Todo sobre Robots.txt (lectura extensa)

Dejá tu comentario

Autor del Post