Haz una pregunta »

La importancia del fichero robots.txt

Agosto 2015


El fichero robots.txt en tu sitio Web




Por lo general, siempre intentamos que nuestras páginas Web sea indexadas lo mejor posible por lo robots de los motores de búsqueda. Pero puede suceder que ciertas de nuestras paginas sean confidenciales (o estén en trabajo), o simplemente que nuestro objetivo no sea difundirlas en estos motores. Por lo tanto, debemos impedir que estos robots las indexen.

Esto se puede conseguir utilizando un fichero texto llamado robots.txt que se encuentra en la raíz de nuestro sitio Web. Este fichero indica al robot del motor de búsqueda que explorará nuestro sitio Web, acerca de lo que puede y no puede hacer en nuestro sitio. Cuando el robot de un motor de búsqueda llega a un sitio Web (por ejemplo http://www.misitio.info/), éste buscará el fichero presente en la dirección http://www.misitio.info/robots.txt. Si este fichero existe, el robot lo lee y sigue las indicaciones existentes. Si no lo encuentra, realiza la lectura y registro de la página que ha venido a visitar así como de las que pueden estar asociadas, ya que no hay ninguna prohibición.

Estructura


En un sitio Web únicamente debe existir un fichero robots.txt, y debe encontrase en la raíz del mismo. El nombre del fichero (robots.txt) siempre debe ser creado en minúsculas. Su estructura es la siguiente:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /personal/
Disallow: /entrabajos/
Disallow: /suscriptores/precio.html

En este ejemplo:
  • User-agent: * significa que el acceso es acordado a todos los agentes (todos los robots).
  • El robot no explorará los directorios /cgi-bin/, /tmp/, /personal/ y /entrabajos/ del servidor ni el fichero /suscriptores/precio.html


El directorio /tmp/, por ejemplo, corresponde a la dirección http://www.misitio.info/tmp/. Cada directorio a excluir de la indexación del robot debe tener una línea Disallow: especifica. El comando Disallow: permite indicar que todo lo que comience con la expresión indicada no debe ser indexado.

De este modo:
Disallow: /personal no permitirá la indexación de http://www.misitio.info/personal/index.html, ni de http://www.misitio.info/personal.html.

Disallow: /personal/ no indexará http://www.misitio.info/personal/index.html, sino se aplicará a la dirección http://www.misitio.info/personal.html

Por otro lado el fichero robots.txt no debe contener líneas en blanco.
El signo (*) únicamente es aceptado en el campo User-agent.
No puede servir de comodín como en el ejemplo:
Disallow: /entrabajos/*.
Lo contrario no existe, es decir un campo permitir, como Allow:.
Finalmente, el campo de descripción (User-agent, Disallow) puede ser escrito en mayúsculas o en minúsculas.
Las líneas que comienzan con un signo " # ", es decir todo lo que se encuentra a derecha de este signo en una línea, es considerado como un comentario.

Algunos comandos clásicos e importantes del fichero robots.txt:


Disallow:/ Permite excluir todas las páginas del servidor.
Disallow: Permite no excluir ninguna página del servidor.
Un fichero robots.txt vacío o inexistente dará el mismo resultado.
User-Agent : googlebot Permite identificar un robot particular (aquí, el de google).
User-agent: googlebot
Disallow:
User-agent: *
Disallow:/ Permite al robot de google indexar todo, pero rechaza a los otros robots.

Sitemap y robots.txt


Para ayudar a Google, Yahoo y otros, y sobretodo a los motores que no tienen una interfaz con la posibilidad de indicarles el fichero sitemap de un sitio Web, podemos agregar esta indicación en el fichero, utilizando la siguiente sintaxis:
Sitemap: http://www.misitio.info/sitemap.xml

Generador de fichero robots.txt


Si deseas crear un fichero robots.txt fácilmente, y estar seguro que sea valido, puedes utilizar un generador de robots.txt.

Tener en cuenta también esta indicación encontrada en la Web


Un internauta ha descubierto que Google tomaba en cuenta una instrucción llamada “noindex” cuando era insertada en el fichero robots.txt de un sitio Web, como por ejemplo:
User-agent:Googlebot
Disallow:/personal/
Disallow:/entrabajos/
Noindex:/clientes/

Mientras que la instrucción “Disallow” indica a los robots que no tomen en cuenta el contenido de un directorio (es decir que no lo indexen, y no tome en cuenta los enlaces), “Noindex” se limitaría a la no indexación de páginas, pero identificando los enlaces que contienen. Un equivalente de la etiqueta meta “Robots” que contendría de algún modo la información "Noindex, Follow". Google habría indicado que esto estaría en prueba, y que únicamente es soportado por Google. Por lo tanto, a utilizar y probar con precaución…

Consulta este artículo sin tener que estar conectado, descárgalo gratis aquí en formato PDF:
La-importancia-del-fichero-robots-txt.pdf

Consulta también

En la misma categoría

Robots.txt, un fichier important
Por bg62 el 25 de abril de 2008
Robots.txt, um arquivo importante
Por pintuda el 4 de julio de 2011
El artículo original fue escrito por bg62. Traducido por Carlos-vialfa.
El documento «La importancia del fichero robots.txt» de CCM (es.ccm.net) se encuentra disponible bajo una licencia Creative Commons. Puedes copiarlo o modificarlo siempre y cuando respetes las condiciones de dicha licencia y des crédito a CCM.