¿Qué es Robots.txt?

Robots.txt es un archivo que esta en la raíz del sitio que informa a los motores de búsqueda a que partes acceder y a cuáles no.

Los motores de búsqueda visitan cada cierto tiempo los sitios web y rastrean el contenido de éstos a través de robots, también conocidos como arañas.

Los robots más conocidos son Googlebot que es el robot de Google, Yahoo_Slurp  de Yahoo o Msnbot de Bing. Al descubrir nuevos contenidos los robots añaden éstos a un índice, lo valoran y deciden su indexación en los resultados de búsqueda

¿Para qué sirve el Robots.txt?

Para facilitar la indexación de un sitio web el administrador del sitio debe utilizar lo que se conoce como fichero “robots.txt”.  Este fichero sirve para dar instrucciones a los robots sobre qué contenidos deben rastrear y cuáles no y cómo deberían hacerlo.

Algunas características de este fichero son:

  • Este fichero debe ser único en un sitio web, salvo que existan subdominios. En ese caso deberemos incluir un fichero robots.txt para cada uno de los subdominios y otro para el dominio principal.
  • Destacar que este fichero debe ser creado en un documento de texto normal sin formato.
  • Debemos tener cuidado con las urls ya que son sensibles a mayúsculas y minúsculas y no dejar espacios en blanco entre líneas.
  • Es importante que respetemos el nombre del fichero “robots.txt” para que sea encontrado fácilmente por los robots.
  • El fichero además debe subirse a la raíz del sitio web porque es ahí donde van a ir a buscarlo.
  • Es recomendable establecer una jerarquía en las instrucciones que le demos, ya que en un mismo fichero puede haber distintas reglas aplicadas a distintos buscadores.
  • Es aconsejable que en el fichero robots.txt hagamos mención a la ruta donde se encuentra el sitemap, que no es más que otro fichero que contendrá todas las urls que tiene el sitio web.

¿Cómo se usa el Robots.txt?

El fichero robots.txt utiliza dos comandos:

1) User-Agent: para informar sobre a qué robot se le aplica la regla escrita a continuación.

  • Si ponemos User-agent: * estaremos aplicando la regla sobre cualquier robot.
  • Si por contrario, utilizamos por ejemplo User-agent: Googlebot le estaremos diciendo que la regla contenida a continuación es aplicable solo al robot de Google específico para Web.

2) Disallow: para informar sobre la URL que queremos bloquear
Si no queremos que sea indexado todo lo contenido del directorio imágenes pondríamos “disallow: /imágenes/”.

Funcionalidades del fichero robots.txt:

  • Evitar que algunas partes de tu sitio web sean rastreadas e indexadas por los buscadores.  Ejemplo de ello podrían ser los pasos en una pasarela de pago, la intranet o los retornos de formulario con las páginas de ok/error.
  • Permite evitar que se indexe contenido duplicado. Por ejemplo, en el caso que tuviéramos una página de productos en nuestro sitio web y además aparte utilizáramos una Landing Page para atraer al usuario (replica del texto de la de productos) podríamos evitar ser penalizados por duplicidad de contenidos  diciéndole al robot que no indexe la Landing Page.
  • Impedir el acceso a algunos robots a contenidos de tu sitio web.

Ejemplos de Robots.txt

To allow all robots complete access
User-agent: *
Disallow:

(or just create an empty «/robots.txt» file, or don’t use one at all)

To exclude all robots from part of the server
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

En primer lugar con “User-agent: *” indican que las reglas se aplican a todos los robots que intenten acceder. 

Además, indican con Disallow: /carpeta/ indica que no desea ser rastreado, indexado

Ejemplo de Robots.txt para WordPress

User-agent: *                Indica que estas reglas son aplicables a todos los buscadores
Disallow: /cgi-bin/         Indica que no indexen programas que pudiese haber en cgi-bin
Disallow: /wp-admin/    Indica que no indexen la carpeta de administración
Disallow: /wp-includes/   Indica que no indexen las librerías que utiliza WordPress

Disallow: /wp-content/plugins/   Indica que no indexen los plugins, que pueden contener html en ellos
Disallow: /wp-content/cache/      Indica que no indexen la caché
Disallow: /wp-content/themes/   Indica que no indexen los temas instalados

Disallow: /trackback/            Indica que no indexen los trackback (avisos entre blogs)
Disallow: /feed/                    Indica que no indexen el feed – listado de artículos
Disallow: /comments/           Indica que no indexen los comentarios
Disallow: /category/*/*          Indica que no indexen las subcategorias (si es que están bajo “category”)
Disallow: */trackback/          Indica que no indexen subdirectorios de trackback
Disallow: */feed/                  Indica que no indexen subdirectorios de feed
Disallow: */comments/          Indica que no indexen subdirectorios de comentarios
Disallow: /*?                         Indica que no indexe búsquedas, que incluyen el símbolo ?
Allow: /wp-content/uploads/ Indica que indexe todos los ficheros que hemos subido al blog: imágenes, vídeos, etc.

 

 

Mas detalles

 

Generador en linea de Robots.txt