En este artículo, te explicamos la importancia del archivo robots.txt, y cómo puedes monitorizar tu robots.txt con el software de Ryte para asegurar un gran rendimiento de tu web.
El archivo robots.txt es un simple archivo de texto en el directorio raíz de la web, que contiene instrucciones sobre las áreas de dominio a las que los rastreadores o crawlers de los motores de búsqueda deberían o no deberían acceder. El archivo utiliza el Estándar para la Exclusión de Robots, un protocolo especifica las opciones de acceso en la web para los diferentes tipos de rastreadores web. El archivo robots.txt también puede proporcionar información sobre los distintos archivos que se almacenan en el directorio, en directorios completos o en dominios.
Las inconsistencias en este archivo pueden bloquear el rastreo de áreas enteras del sitio web. Esto podría tener un impacto drástico en un negocio o empresa si, por ejemplo, la página de inicio de tu tienda online se bloquea accidentalmente para que no pudiera ser rastreada e indexada por el archivo robots.txt. Por lo tanto, es importante supervisar constantemente el archivo robots.txt y comprobar su contenido.
Si el "Ejemplo_Directorio" no debe ser rastreado por los rastreadores de los motores de búsqueda, se debe utilizar la siguiente sintaxis en el archivo robots.txt:
User-agent: *
Disallow: /Ejemplo_Directorio/
Hay muchas herramientas online diferentes para crear fácilmente el archivo robots.txt. Una vez creado, se guarda en el directorio raíz de la web desde donde puede ser accesible para los rastreadores de la web:
por ejemplo, http://www.tu-dominio.com/robots.txt
Nota: Los motores de búsqueda también pueden indexar los archivos o directorios excluidos del rastreo en el archivo robots.txt. Un comando allow or disallow en el archivo robots.txt no garantiza que la página no se rastree ni se indexe, por ejemplo, si una URL excluida de la rastreabilidad en el archivo robots.txt se enlaza desde una página externa. Sin embargo, a menudo aparece lo siguiente en lugar de la Meta descripción, ya que el bot no puede crawlear:
"Una descripción de este resultado no está disponible debido a robots.txt de este sitio"
Figura 1: Ejemplo de snippet en una página bloqueada usando el archivo robots.txt pero aún indexada
La monitorización robots.txt en Ryte Website Success es ideal tanto para SEOs profesionales como para operadores de webs pequeñas. En las grandes empresas, a menudo se realizan cambios en el archivo robots.txt sin tu conocimiento, pero en las webs más pequeñas, los operadores web suelen ser responsables de los cambios en el archivo robots.txt. En ambos casos, es importante comprobar siempre si robots.txt está siempre accesible y si su contenido ha cambiado.
La función de monitorización robots.txt en Ryte es muy fácil de usar. El informe se puede encontrar en Website Success bajo el título "Monitorización Robots.txt".
Figura 2: monitorización de Robots.txt con Ryte
Ryte envía un ping al archivo robots.txt de tu web cada hora para verificar su accesibilidad (estado 200) y comprobar si hay cambios en su contenido. Aquí también se tiene en cuenta el tiempo de carga del archivo y se registran las variaciones (por ejemplo, los tiempos de espera).
Los siguientes temas técnicos y de contenido son revisados durante la monitorización:
Revisión técnica:
- ¿Es el archivo robots.txt accesible? ¿Con qué código de estado responde el archivo?
- ¿Cuál es el tiempo de carga del archivo? ¿Se le acaba el tiempo?
Revisión de contenido:
- ¿Ha cambiado el contenido del archivo? En caso afirmativo, ¿cuántas líneas se han añadido o eliminado?
- ¿Cómo es el contenido específico de la versión actual de robots.txt y cómo era en la versión anterior?
El informe enumera todas las versiones del archivo robots.txt encontradas, incluidos sus errores de descarga y el tiempo medio de carga.
Figura 3: El tiempo medio de carga de las diferentes versiones de robots.txt
La siguiente lista contiene más detalles de las diferentes versiones.
Figura 4: Todas las versiones del archivo robots.txt
En esta tabla, puedes ver:
El tiempo de carga también se indica por separado para las diferentes versiones.
Figura 5: Detalles sobre la hora, los últimos cambios y la hora de carga
Para ver una versión más detallada, simplemente haz clic en la lupa en el lado derecho.
Figura 6: Vista detallada de las diferentes versiones
Muestra el archivo robots.txt completo en una ventana. Si los tres símbolos de los códigos de estado, la clase de documento y la hora de carga se iluminan en verde, la versión está bien y no es necesario realizar ninguna acción.
La función de monitorización robots.txt tiene una cómoda función de notificación que avisa rápidamente a los operadores web sobre los cambios en el archivo robots.txt. Si el archivo no devuelve el código de estado 200, se notificará inmediatamente al propietario del proyecto por email.
Si se detectan cambios en el contenido del archivo robots.txt, éstos se enumeran en el informe. En el caso de más de 5 cambios, se envía un correo electrónico similar solicitando al operador web que compruebe el archivo robots.txt y verifique si estos cambios fueron intencionados.
Figura 7: Ajuste de la función de notificación
La función de monitorización de robots.txt permite realizar un seguimiento del código de estado, la accesibilidad y el tiempo de carga del archivo robots.txt. La notificación te informa de cualquier anomalía, lo que significa que puedes corregir los errores tan pronto como aparezcan, evitando así una pérdida en el rendimiento o negocio de la web.
¡Feliz Optimización!
Monitoriza tus Robots.txt con Ryte FREE
Escrito el 30.07.2018 por Clara Rubio.
Clara es una apasionada del mundo digital y la tecnología. Desde siempre ha estado interesada en en estos campos, llevándolos por bandera en su vida profesional y personal. Como redactora, escribirá sobre numerosos temas, incluyendo las novedades del mundo SEO y de cómo Ryte te ayudará en tu camino al éxito digital.
Optimice su sitio web con Ryte
Demo gratuita