Sobre el uso de robots.txt
Hacer accesible a los robots de los buscadores por medio del archivo robots.txt, que es simplemente un archivo de texto como sugiere su extensión. Se crea usando un simple editor de texto como Notepad o WordPad.
Utilice el archivo robots.txt en su servidor web. Este archivo indica a los rastreadores qué directorios se pueden rastrear.
El siguiente archivo robots.txt bloquea el rastreo de contenido en todos los motores de búsqueda :
User-agent: *
Disallow: /
No hay ninguna ruta, después de “Disallow:” lo que significa que se permite el rastreo a todos.
User-agent: *
Disallow:
El User-Agent es el nombre del spider del buscador y Disallow es el nombre del archivo que no quieres que indexe el spider
User-Agent: (Spider Name)
Disallow: (File Name)
Hay que hacer un nuevo bloque de código para cada buscador, pero si quieres multiplicar la lista de archivos no permitidos puedes ponerlos uno debajo de otro.
Por ejemplo -
User-Agent: Googlebot
Disallow: ejemplopaginano accesiblearobots.html
Disallow: paginano accesiblearobots.html
Disallow: paginano accesiblearobots.html
Disallow: paginano accesiblearobots.html
Google es quien decide la descripción de un elemento para una determinada búsqueda y lo decide en función de la relevancia
Para probar el archivo robots.txt de un sitio, siga estos pasos:
1. En la página principal de Herramientas para webmasters de Google, haga clic en el sitio del que desee probar el archivo robots.txt.
2. En Información del sitio, haga clic en Acceso de rastreadores.
3. Si aún no se ha seleccionado, haga clic en la pestaña Probar robots.txt.
4. Copie el contenido del archivo robots.txt y péguelo en el primer cuadro.
5. En el cuadro URL, indique el sitio en el que quiera probar el archivo.
6. En la lista User-agents, seleccione los user-agents que desee.