Rastreo e Indexación de una Web a través de su Motor de búsqueda según Google

¿Es fácil para Google rastrear tu web? Internet es un lugar enorme en constante crecimiento en el que Google debe enfrentarse con sus recursos a una cantidad casi infinita de contenidos, por lo que su robot de búsqueda de documentos sólo es capaz de encontrar, rastrear e indexar un porcentaje de ellos.

Las URL actúan como puentes entre una web y el robot de Google. Los robots tienen que ser capaces de encontrar y cruzar esos puentes con el fin de llegar al contenido de tu sitio web. Si una URL es complicadas, se gastará el tiempo en localizar y recordar el camino a seguir, pero si están bien organizadas y llevan directamente al contenido, los robots aprovecharan su tiempo para acceder a tu contenido, en lugar de rastrear páginas vacías o rastrear el mismo contenido una y otra vez a través de diferentes URL.

En la presentación de Google que os dejamos al final de post, podemos ver algunos ejemplos de qué no hacer, ejemplos reales de «hacks» y códigos caseros en URL, parámetros de enmascaramiento como parte de la ruta de URL, espacios infinitos de rastreo y mucho más. También encontraremos algunas recomendaciones para enderezar ese laberinto de URL y ayudar a los robots a encontrar más rápido el contenido, que incluyen:
• Eliminar detalles específicos del usuario en las URL:
Los parámetros de URL, que no cambian el contenido de la página, como el ID de sesión o el orden de clasificación, se pueden quitar de la URL y ponerlos en una cookie. Al poner esta información en una cookie y hacer una redirección 301 a una URL «limpia», se conserva la información y se reduce el número de URL que apuntan a un mismo contenido.
• Evitar espacios infinitos:
¿Tienes un calendario que enlaza a un número infinito de fechas pasadas o futuras (cada uno con su propia URL)? ¿Tienes datos paginados que devuelven un código de estado 200 al añadir &page=3563 a la dirección URL, incluso si no hay muchas páginas de datos? Si es así, tenemos un espacio infinito de rastreo en tu sitio web, y los robots podrían estar desperdiciando ancho de banda tratando de rastrearlo todo. Es recomendable evitar los espacios infinitos.
• Desactivar acciones que Googlebot no puede realizar:
A través del archivo robots.txt, podemos desactivar el rastreo de páginas de inicio, formularios de contacto, cestas de la compra y otras páginas cuya única funcionalidad es una acción que un robot no puede realizar. Así permitimos que los robots utilicen más tiempo en rastrear contenido con el que poder hacer algo.
• Una URL, un conjunto de contenidos:
En un mundo ideal, habría siempre una vinculación entre una URL y un determinado contenido: cada URL llevaría a una pieza de contenido única. Cuanto más cerca estemos de este ideal, más adecuado será nuestra web para el rastreo y la indexación. Si el sistema de gestión de contenidos (CMS) o la configuración actual de nuestro sitio web dificulta el rastreo, puedes usar el elemento de enlace canónico para indicar la URL preferida para un fragmento de contenido en concreto.