¿Es fácil para Google rastrear tu web? Internet es un lugar enorme en constante crecimiento en el que Google debe enfrentarse con sus recursos a una cantidad casi infinita de contenidos, por lo que su robot de búsqueda de documentos sólo es capaz de encontrar, rastrear e indexar un porcentaje de ellos.

Las URL actúan como puentes entre una web y el robot de Google. Los robots tienen que ser capaces de encontrar y cruzar esos puentes con el fin de llegar al contenido de tu sitio web. Si una URL es complicadas, se gastará el tiempo en localizar y recordar el camino a seguir, pero si están bien organizadas y llevan directamente al contenido, los robots aprovecharan su tiempo para acceder a tu contenido, en lugar de rastrear páginas vacías o rastrear el mismo contenido una y otra vez a través de diferentes URL.

En la presentación de Google que os dejamos al final de post, podemos ver algunos ejemplos de qué no hacer, ejemplos reales de “hacks” y códigos caseros en URL, parámetros de enmascaramiento como parte de la ruta de URL, espacios infinitos de rastreo y mucho más. También encontraremos algunas recomendaciones para enderezar ese laberinto de URL y ayudar a los robots a encontrar más rápido el contenido, que incluyen:
• Eliminar detalles específicos del usuario en las URL:
Los parámetros de URL, que no cambian el contenido de la página, como el ID de sesión o el orden de clasificación, se pueden quitar de la URL y ponerlos en una cookie. Al poner esta información en una cookie y hacer una redirección 301 a una URL “limpia”, se conserva la información y se reduce el número de URL que apuntan a un mismo contenido.
• Evitar espacios infinitos:
¿Tienes un calendario que enlaza a un número infinito de fechas pasadas o futuras (cada uno con su propia URL)? ¿Tienes datos paginados que devuelven un código de estado 200 al añadir &page=3563 a la dirección URL, incluso si no hay muchas páginas de datos? Si es así, tenemos un espacio infinito de rastreo en tu sitio web, y los robots podrían estar desperdiciando ancho de banda tratando de rastrearlo todo. Es recomendable evitar los espacios infinitos.
• Desactivar acciones que Googlebot no puede realizar:
A través del archivo robots.txt, podemos desactivar el rastreo de páginas de inicio, formularios de contacto, cestas de la compra y otras páginas cuya única funcionalidad es una acción que un robot no puede realizar. Así permitimos que los robots utilicen más tiempo en rastrear contenido con el que poder hacer algo.
• Una URL, un conjunto de contenidos:
En un mundo ideal, habría siempre una vinculación entre una URL y un determinado contenido: cada URL llevaría a una pieza de contenido única. Cuanto más cerca estemos de este ideal, más adecuado será nuestra web para el rastreo y la indexación. Si el sistema de gestión de contenidos (CMS) o la configuración actual de nuestro sitio web dificulta el rastreo, puedes usar el elemento de enlace canónico para indicar la URL preferida para un fragmento de contenido en concreto.

Twitter se queja de que Google le juega sucio con “Your World” La historia comenzó cuando el martes el buscador Google presentó "su mundo" (Your World), la personalización de resultados basada en la integración de...
Que es Google Shopping Google Shopping permite a cualquier interesado encontrar y comparar información sobre productos que comprar, y a las empresas la posibilidad de pone...
Facebook ya tiene mas de 1000 millones de usuarios La red social que comenzó como una comunidad de estudiantes ya tiene la misma cantidad de usuario que la sexta parte de los habitantes de todo el mund...
Oracle acusa a HP de tener un pacto secreto con Intel La batalla que desde este verano enfrenta a HP y Oracle con el procesador Intel Itanium como centro tiene un nuevo capítulo: esta vez ha sido Oracle l...
Diccionario SEO El día de hoy tenemos un glosario básico de SEO o search engine optimize, con estas pequeñas definiciones cualquiera se pone al día sobre esta materia...
Adobe Creative Cloud Among the various services and news provided by Adobe at its last conference for developers, Creative Cloud occupies a special role. Adobe Creative...
Las tipografías en las páginas web La misión principal de una composición gráfica es transmitir un mensaje determinado a los espectadores que la visualizan. Para ello, el diseñador disp...
Restauran el computador digital más antiguo aún en funcionamiento Un equipo de especialistas del Museo Nacional de la Computación del Reino Unido (TNMOC) restauró el computador Harwell, un gigantesco computador de do...
Twitter buscando el mercado de motores de busquedas en Rusia Twitter ha tenido que buscarse la vida fuera de casa en el mercado de las búsquedas. Tras la no renovación del acuerdo con Google el año pasado y los ...
Variables y operadores en PHP Ahora antes de seguir, vamos a ver un poco de teoría, la sintaxis en PHP. Variables: Como vimos antes todas la variables deben precedidas por si...
Rastreo e Indexación de una Web a través de su Motor de búsqueda según Google