Es posible conocer todo el contenido de una página web haciendo una consulta muy simple en google. Se puede saber lo que el sitio publica y el motor de búsqueda ha indexado mediante la siguiente consulta:
Site:sitioweb.com inurl:sitioweb
De esta forma, google arrojará como resultado todos los links del sitio sitioweb.com que contengan la cadena sitioweb en su url, es decir todos los indexados. Esta información es útil para saber que otros documentos está publicando el sitio que no podemos ver navegándolo. Esta información podría recolectarse mediante la utilización de herramientas de auditoría web, pero es más simple si otro realiza el procesamiento y muestra la dirección IP.
Sin embargo, el administrador del sitio web puede decirle a google y a otros buscadores, que cierto contenido no aparezca en los resultados de las búsquedas. Es allí donde entra en juego el archivo robots.txt. Este archivo, que no es absolutamente necesario que exista, se sitúa en el nives mas alto del sitio, por ejemplo: http://sitioweb.com/robots.txt .
El administrador del sitio podría decir que no se indexe ciertas carpetas armando un archivo robots de la siguiente forma:
User-agent: *
Disallow: /ftp
Donde se pide que no se indexe la carpeta ftp con su contenido.
Es importante aclarar que solamente se pide que no se indexe, algunos buscadores, como google, acceden a este pedido pero otros no lo harán. Lo que google no indexa se puede descubrir analizando el sitio web con otras herramientas.
Es interesante el contenido del archivo robots del propio google, el mismo se puede acceder de desde el link: http://google.com/robots.txt donde se divisa que google no quiere que indexen sus sitios /products, /Linux, etc.
Resumiendo:
El archivo robots.txt es un estándar pero no es mandatorio. Por buenas prácticas debería estar pero el sitio web va a funcionar sin el mismo.
No es una herramienta para bloquear el acceso a contenido, no todos los buscadores prestan atención al archivo.
Es una herramienta precisa para pulir el posicionamiento de un sitio en google, si no queremos que cierta parte del sitio se indexe no se hará.
Solo en caso que se utilice el sitio web para publicar archivos (no es lo más recomendable) el archivo robots.txt puede proteger de que se indexen los mismos. Pero solo para google y los buscadores más reconocidos, no para todos.