
En este artículo, explicamos algunas de las mejores prácticas para optimizar tu archivo robots.txt y garantizar que los motores de búsqueda puedan rastrear fácilmente tu sitio.
Te explicamos qué es y para qué se utiliza este archivo de texto al cual acceden los robots de los buscadores como Googlebot y Bing.
¿Qué es el archivo robots.txt?
El archivo robots.txt es un archivo de texto que se encuentra en la raíz de tu sitio web.
Este archivo proporciona instrucciones a los motores de búsqueda sobre qué páginas de tu sitio se pueden rastrear y cuáles no. El archivo robots.txt se creó originalmente en 1994 como una forma de ayudar a los motores de búsqueda a manejar la creciente cantidad de sitios web en Internet.
Este archivo es conocido también como protocolo de la exclusión de robots.
¿Por qué es importante el archivo robots.txt?
El archivo robots.txt es importante porque ayuda a los motores de búsqueda a rastrear tu sitio web de manera más eficiente.
Si los motores de búsqueda no pueden rastrear tu sitio web correctamente, es posible que no se indexen todas las páginas de tu sitio en los buscadores. Esto puede tener un impacto negativo en el posicionamiento de tu web en los resultados de búsqueda.
Por otro lado, el archivo robots.txt es importante porque evita que los robots o bots accedan a ciertas secciones privadas del sitio web. Esto ayuda también al crawl budget o presupuesto de rastreo que los motores de búsqueda asignan a tu página web.
¿Cómo utilizan los motores de búsqueda el archivo robots.txt?
Cuando un bot o robot de búsqueda desea acceder a tu página web, primero revisa si existe un archivo robots.txt en el directorio raíz. De no existir un robots.txt en tu servidor, los motores de búsqueda seguirán rastreando y entrando en cada directorio de tu página.
- Si una página está bloqueada en el archivo robots.txt, los motores de búsqueda no rastrearán esa página.
- Si una página no está bloqueada en el archivo robots.txt, significa que los motores de búsqueda pueden rastrearla.
Es importante tener en claro que el archivo robots.txt no es una orden, sino una directiva. Los motores de búsqueda pueden o no, hacer caso a este archivo.
Errores que debes evitar al crear el archivo robots.txt
Uno de los errores más comunes es bloquear accidentalmente el acceso a páginas importantes de tu sitio web. Esto puede suceder si colocas una regla en el archivo robots.txt que bloquea todas las páginas en un directorio determinado. Si tienes una página importante en ese directorio, se bloqueará junto con las demás.
Otro error común es no incluir suficientes reglas en el archivo robots.txt. Dependiendo del tamaño de tu sitio web y el tipo de página, necesitarás agregar reglas al archivo robots.txt para que los bots no visiten secciones privadas o que bien no aportan valor a tus usuarios.
Por ejemplo, es común en tiendas online agregar una regla al archivo robots.txt para bloquear el acceso al directorio de /checkout/ ya que esta página solo se visualiza cuando el usuario compra un producto, y no tiene valor para los visitantes o las páginas de resultados del buscador.
Mejores prácticas para crear un archivo robots.txt
Para crear un archivo robots.txt efectivo, debes seguir algunas reglas. En primer lugar, asegúrate de incluir todas las páginas que deseas que se rastreen en el archivo robots.txt.
En segundo lugar, asegúrate de no bloquear el acceso a páginas importantes de tu sitio web.
Por último, asegúrate de que el archivo robots.txt esté en el formato correcto. El archivo robots.txt debe ser un archivo de texto sin formato que se puede leer fácilmente.
El mejor consejo para crear un archivo robots.txt efectivo y que verdaderamente sirva para optimizar el proceso de rastreo de tu sitio web y evitar que los bots accedan a secciones privadas, es simplemente agregar los directorios o páginas que no queremos que se indexen o sean visibles para los usuarios.
Consejos para optimizar el rastreo de tu sitio web
Además de seguir las mejores prácticas para crear un archivo robots.txt, hay algunas cosas que puedes hacer para optimizar el rastreo de tu sitio web. En primer lugar, asegúrate de que tu sitio web esté bien estructurado y que exista un enlazado interno coherente entre tus páginas importantes.
Por último, asegúrate de que tu página web tenga un mapa de sitio. Los motores de búsqueda utilizan los sitemap.xml para rastrear tu sitio web de manera más eficiente.
También puedes agregar el mapa de sitio a tu archivo robots.txt de la siguiente manera:
Sitemap: http://www.example.com/sitemap.xml
¿Cómo probar tu archivo robots.txt?
Una vez que hayas creado tu archivo robots.txt, es importante probarlo para asegurarte de que está funcionando correctamente.
Puedes probar tu archivo robots.txt utilizando la herramienta de prueba de robots.txt de Google. Esta herramienta te permitirá ver cómo los motores de búsqueda interpretan tu archivo robots.txt.
A continuación un ejemplo de cómo Googlebot revisa el archivo robots.txt.

Ejemplos de archivos robots.txt para los motores de búsqueda
Para permitir el acceso de los robots a todo el sitio web:
User-agent: Googlebot
Allow: /
Para permitir el acceso de los robots a un directorio específico:
User-agent: Googlebot
Allow: /directorio/
Para bloquear o prohibir el acceso de los robots a una página específica:
User-agent: Googlebot
Disallow: /pagina.html
Para bloquear o prohibir el acceso de los robots a un directorio específico:
User-agent: Googlebot
Disallow: /directorio/
Para bloquear o prohibir el acceso de los robots a todo el sitio web:
User-agent: Googlebot
Disallow: /
Lista de comandos o Prompts para tu archivo robots.txt
User-agent: Este prompt es importante en tu archivo robots.txt, ya que aquí se asigna el bot o robot que debe cumplir las directivas que siguen a continuación, por ejemplo: Googlebot.
Si queremos establecer las mismas directivas para cualquier robot que visite la página, entonces en User-agent: debería ir (*).
Allow: permite el acceso al recurso especificado. Por ejemplo, «Allow: /directorio/», permite al robot el acceso completo a «directorio».
Disallow: Prohíbe el acceso al recurso especificado. «Disallow: /directorio/», prohíbe al robot acceder a «directorio».
Sitemap: Con este comando en el robots.txt se indica a los motores de búsqueda la ruta para encontrar el mapa de sitio y rastrear nuevas páginas.
Puedes ver más comandos interesantes para tu archivo robots.txt según tus necesidades aquí.
Herramientas para crear y administrar tu archivo robots.txt
Hay varias herramientas que puedes utilizar para crear y administrar tu archivo robots.txt.
Una de las herramientas más populares es la herramienta de prueba de robots.txt de Google que te mencionamos anteriormente.
Otra herramienta útil es el archivo robots.txt Generator de SEOptimer. Esta herramienta te permitirá generar un archivo robots.txt personalizado para tu sitio web.
Existen muchas opciones de generadores que te ayudarán a crear este archivo robots.txt, si es que no tienes los conocimientos técnicos para crearlo de forma manual (que es lo recomendado).
Aprovechamos y te dejamos el link a las guías de Google para crear el archivo robots.txt.
Si crees que los motores de búsqueda no están rastreando correctamente tu sitio web, es posible que debas revisar el archivo robots.txt.
En nuestra agencia de seo podemos ayudarte, contactanos.